E_Ji

[ADsP 요약 정리]1과목 - 데이터 이해 본문

자격증/ADsP

[ADsP 요약 정리]1과목 - 데이터 이해

E_Ji 2025. 4. 10. 00:28
반응형

[1. 데이터의 이해]

[데이터의 정의]

1) 데이터

- 있는 그대로의 객관적 사실

- 가공되지 않은 상태

 

[데이터의 특성]

존재적 특성 데이터는 있는 그대로의 객관적 사실이다.
당위적 특성 데이터는 추론, 예측, 전망, 추정을 위한 근거이다.

 

2) 정보

- 데이터를 가공한 자료

 

→ 체온 39도, 기침, 근육통, 인후통 이라는 "데이터"를 가공해서 코로나라는 "정보"를 만들어낸다.

 

[데이터의 유형]

1) 정성적, 정량적

 

- 정성적 데이터

  • 자료의 특징을 풀어서 설명한다.
  • 언어, 문자 등 규격화가 되지 않은 데이터를 말한다.
    • 날씨가 좋다, 그는 잘생겼다, 그건 비싸다 등
  •  저장, 검색, 분석을 하는데에 있어 정성적 데이터보다 고도의 기술력이 요구되며 돈이 많이 든다.

- 정량적 데이터

  • 자료를 수치화한다. 
  • 수치, 기호, 온도. 풍속 등으로 계량화 된 데이터를 말한다.
    • 나이, 온도, 몸무게 등
  • 데이터의 양이 증가하더라도 관리가 어렵지 않다.

2) 정형, 반정형, 비정형

 

- 정형 데이터

  • 정형화된 틀이 있고 연산이 가능하다.
    • 엑셀, 스프레드 시트, 관계형 DB, CSV 등

- 반정형 데이터

  • 정형화된 틀이 없고 연산이 불가능하다.
    • XML, HTML, 센서 데이터, JSON, 로그 등
  • 데이터를 설명하는 메타데이터(설명서)를 포함한다.

- 비정형 데이터

  • 형태는 있지만 연산이 불가능하다.
    • SNS, 댓글, 유튜브, 음성 등

 

[데이터 유형 요약 정리]

정성적 데이터 주관적이고 서술화된 데이터 언어, 문자 등
정량적 데이터 기준이 명확해서 평가가 가능함 수치, 도형, 기호 등
정형 데이터 정형화된 틀이 있고 연산이 가능 엑셀, 스프레드시트, 관계형 DB, CSV 등
반정형 데이터 정형화된 틀이 없고 연산이 불가능 HTML, XML, JSON, 로그 등
비정형 데이터 형태는 있지만 연산이 불가능 SNS, 댓글, 유튜브, 음성 등

 

[암묵지, 형식지간 상호작용]

1) 암묵지

  • 개인에게 습득되고 겉으로 드러나지 않는다.
    • 어떤 음식에 관한 나만의 레시피. 남에게 알려주지 않는다.

2) 형식지

  • 메뉴얼, 문서 등의 형상화된 지식이다.
  • 다양한 사람에게 정보를 알려준다.
    • 블로그에 레시피를 정리해서 올리거나 레시피를 담은 책을 내는 것을 말한다.
  • 형식지의 4가지 특징 (최근에는 시험에 잘 나오진 않으나, 기출엔 종종 나오고 있다.)
    1. 공통화
      • 암묵적 지식을 다른 사람에게 알려준다.
      • 내 요리 지식을 친구나 지인에게 알려주는 것을 말한다.
    2. 표출화 
      • 암묵적 지식을 메뉴얼이나 문서로 전환한다.
      • 내 요리 지식을 블로그나 책으로 알리는 것을 말한다.
    3. 연결화
      • 교재, 메뉴얼에 새로운 지식을 추가한다.
      • 내 요리책에 더 나은 레시피나 새로운 레시피를 추가하는 것을 말한다.
    4. 내면화
      • 만들어진 교재나 메뉴얼에서 다른 사람의 암묵지를 터득한다.
      • 내 블로그나 요리책을 보고 다른 사람이 나의 레시피를 터득하는 것을 말한다.
  •  

[DIKW 피라미드]

  1. 데이터
    • 있는 그대로의 사실
      • A 병원의 독감 예방  주사 비용은 3만원이고 B 병원은 5만원이다.
  2. 정보
    • 데이터를 통해 패턴을 인식한다.
      • A 병원의 비용이 더 싸다.
  3. 지식
    • 패턴을 통해 예측한다.
      • A 병원에서 주사를 맞으면 이득을 볼 것이다.
  4. 지혜
    • 창의적인 산물
      • A 병원은 다른 질병의 예방 주사 비용도 저렴할 것이다.

[데이터 단위]

  • KB < MB < GB < TB < PB < EB < ZB < YB < Peta < Exa < Zetta < Yotta

→ "패지, 패죠!"

- PB EB ZB YB > PEZY > 패지 

- Peta Exa Zetta Yotta > PEZYo > 패죠


[데이터베이스의 정의와 특징]

- 데이터 베이스 (DB)

  • 일정 구조에 맞게 조직화된 데이터의 집합이다.

[데이터베이스의 구성 요소]

  1. 스키마
    • DB 구조와 제약조건에 관한 전반적 명세이다.
    • 데이터베이스의 전반적인 사용 설명서이다.
    • 외부 스키마, 개념 스키마, 내부 스키마로 분류한다.
  2. 인스턴스
    • 데이터 개체를 구성하는 속성에 대한 데이터 타입과 값을 말한다.
    • 데이터의 이름은 문자로, 사번은 숫자 타입으로 설정하는 것이다.
  3. 메타데이터
    • 데이터를 설명하는 데이터이다.
    • 데이터 구조를 설명하고 검색하는데 활용한다.
  4. 인덱스
    • 정렬, 탐색을 위한 데이터의 이름을 말한다.
    • 데이터에 번호를 매겨서 원하는 데이터를 빠르고 쉽게 찾을 수 있게 한다.

2) 데이터 베이스 관리 시스템 (DBMS)

- DB를 관리하고 접근하는 환경을 제공하는 소프트웨어이다.

  1. 관계형 DBMS
    • 과거에는 테이블이나 표 형태로 저장이 되었다.
    • MySQL, MariaDB, Oracle 등
  2. NoSQL DBMS
    • 빅데이터가 등장하면서 다양한 비정형 데이터가 나타났고, 이를 처리하기 위해 NoSQL DBMS가 등장했다.
    • 비정형 데이터를 저장하고 처리한다.
    • HBase, MongoDB, CouchDB, Redis, Cassandra 등

3) SQL

  • - 데이터 베이스에 접근할 수 있는 하부 언어이다.
  1. 정의언어 (DDL)
    • CREATE, ALTER, DROP
  2. 조작언어 (DML)
    • SELECT, INSERT, DELETE, UPDATE
  3. 제어언어 (DCL)
    • COMMIT, ROLLBACK, GRANT, REVOKE

[데이터베이스의 특징]

1) 공용 데이터

  • 여러 사용자가 다른 목적으로 데이터를 공통으로 이용한다.
  • 내가 해당 DB에 접근할 수 있으면 다른 사람도 접근할 수 있어야 한다.

2) 통합된 데이터

  • 동일한 데이터가 중복되어 있지 않다.

3) 저장된 데이터

  • 저장매체에 저장된다.

4) 변화하는 데이터

  • 새로운 데이터를 추가, 수정, 삭제해도 현재의 정확한 데이터를 유지한다.
    • 무결성 : 현재의 정확한 데이터를 유지한다.

[데이터베이스 설계 절차]

1) 요구조건 분석2) 개념적 설계

  • 개념적 스키마를 생성한다.

3) 논리적 설계

  • 개념적 ERD를 활용한 논리적 모델링을 생성한다.

4) 물리적 설계

  • 저장 구조를 설계한다.

[데이터베이스 활용]

[기업이 활용하는 데이터베이스]

1) OLTP (Online Transaction Processing)

  • 데이터를 수시로 갱신한다.
  • 온라인 트랜잭션 처리를 담당한다.
  • 온라인 환경에서 다수의 사용자가 생성한 짧고 빈번한 트랜잭션(삽입, 수정, 삭제 등)을 빠르게 처리하기 위한 데이터베이스 시스템이다.
  • 주로 은행, 온라인 쇼핑몰, ERP 시스템, 병원 시스템 등에서 사용된다.

2) OLAP ( Online Analytical Processing )

  • 다차원 데이터를 대화식으로 분석한다.
  • 데이터 분석을 효율적으로 수행할 수 있게 해주는 기술이다.
  • 대용량 데이터를 다양한 각도에서 빠르게 분석할 수 있도록 도와준다.
  • 주로 기업에서 매출, 재고, 생산성과 같은 정보를 다차원적으로 분석할 때 자주 사용된다.

3) CRM (Customer Relationship Management)

  • 고객과 관련된 자료를 분석하여 마케팅에 활용한다.
  • 선별된 고객으로부터 수익을 창출하고 장기적인 고객관계를 유지하기 위해 사용된다.

4) SCM (Supply Chain Management)

  • 공급망의  연결을 최적화한다.
  • 제품과 서비스가 소비자에게 전달되기까지의 모든 과정에서 효울성을 극대화하는 관리 체계를 말한다.
  • 원자재 조달부터 최종 소비자에게 도달하기까지의 모든 과정을 체계적으로 관리한다.

5) ERP (Enterprise Resource Planning)

  • 기업 경영 자원을 효율화한다.
  • 재무, 회계, 인사, 급여 등 기업 운영에 필요한 재반 업무를 관리하는 시스템이다.

6) RTE (Real Time Enterprise)

  • 최신 정보로 빠르게 의사결정을 할 수 있도록 돕는다.

7) BI (Business Intelligence)

  • 기업이 보유한 데이터를 정리하고 분석하는 리포트 중심의 도구이다.

8) BA (Business Analyst)

  • 통계에 기반한 비즈니스 통찰력을 필요로 한다.
  • 서비스를 개발할 때 사용자의 요구를 반영하도록 힘쓰는 사람을 가리킨다.

9) Block Chain

  • 네트워크에 참여한 모든 사용자가 정보를 분산하여 저장한다.

10) KMS (Knowledge Management System)

  • 기업의 모든 지식을 포함한다.
  • 지식을 저장하고 저장된 지식을 체계화하여 공유하며 이를 활용하여 업무 생산성의 향상을 기대할 수 있다.

[데이터 웨어하우스 (Data Ware House, DW)]

- 여러 DB에 저장된 데이터들을 하나의 창고에 저장하는 것을 말한다.

 

1) 특징

  1. 주제지향성
    • 분석하려는 목적을 설정하는 것이 중요하다.
  2. 데이터 통합
    • 데이터가 일관된 형식으로 저장되어야 한다.
  3. 시계열성
    • 데이터가 시간의 흐름에 따라 변화했다는 것을 알 수 있어야 한다.
    • 히스토리를 가지고 있어야 한다.
  4. 비휘발성
    • 읽기만 가능해야 한다.
    • 데이터를 바꿀 수 없다.

2) 구성요소

  1. ETL (Extraction, Transform, Load)
    • 데이터를 빼고, 변환하고, 적재한다.
  2. ODS (Operational Data Store)
    • 데이터를 임시로 저장하는 장소이다.
    • ODS에 들어간 데이터를 데이터 웨어하우스로 옮긴다.

[데이터 레이크 (DataLake)]

  • 비정형 데이터를 저장하며 하둡과 연계하여 처리한다.
    • 하둡이란, 여러 컴퓨터를 하나로 묶어 대용량 데이터를 처리하는 오픈 소스 빅데이터 솔루션이다.
  • HDFS
    • 분산형 파일 저장 시스템이다.
  • MapReduce
    • 분산된 데이터를 병렬로 처리한다.

[2. 데이터의 가치와 미래]

[빅데이터 출현 배경]

  • 인터넷 확산, 스마트폰 보급, 클라우딩 컴퓨팅으로 인해 경제성이 확보되었다.
  • 저장매체 가격의 하락, 하둡을 활용한 분산 컴퓨팅, 비정형 데이터의 확산으로 빅데이터가 출현하기 시작했다.

[빅데이터의 3V (가트너 정의)]

1) Volume (규모)

  • 데이터 양이 증가했다.
  • 구글 번역 서비스가 규모에 초점을 맞춘 대표적인 사례이다.

2) Variety (다양성)

  • 데이터 유형이 증가했다.

3) Velocity (속도)

  • 데이터 생성과 처리 속도가 증가했다.

4) 그 외 5V / 7V에 포함되는 요소

  • Value (가치)
    • 숨겨진 가치의 발견이 중요하다.
  • Veracity (신뢰성)
    • 고품질 데이터로 신뢰성을 향상시킨다.
  • Validity (정확성)
    • 데이터의 유효성이 보장되어야 한다.
  • Volatility (휘발성)
    • 데이터는 일정한 기간이 지나면 사라져야 한다.

[빅데이터가 만들어내는 변화]

1) 표본조사 → 전수조사

 

2) 사전처리 → 사후처리

 

3) 질 → 양

 

4) 인과관계 → 상관관계

[빅데이터 활용을 위한 3대 요소]

  • 인력, 자원(데이터), 기술

[빅데이터의 주요 분석기법]

1) 회귀분석

  • 독립 변수와 종속 변수간의 관계를 분석한다.
  • ex) X가 Y에 어떤 영향을 미치는가?

2) 분류분석

  • A와 B는 어디에 속하는 범주인가?
  • ex) 고양이와 강이지 이미지를 구분한다.

3) 연관규칙

  • 여러 요소들 간의 규칙은 상관관계가 존재한다.
  • ex) 마트에서 치킨과 맥주를 같이 사는 이유, 그 둘의 상관관계는 무엇인가?

4) 유전자 알고리즘

  • 최적화가 필요한 문제의 해결책은 무엇인가.
  • ex) 최대 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?

5) 기계학습

  • 훈련 데이터로부터 컴퓨터가 학습하고 미래를 예측한다.
  • ex) 넷플릭스 영화 추천 시스템

6) 감정분석

  • 텍스트 데이터에서 감정적인 부분을 분석한다.
  •  ex) 긍정적인지, 부정적인지를 구별한다.

7) 소셜 네트워크 분석

  • 사람간의 관계를 분석한다.
  • ex) SNS 사용자들 사이에서 영향력 높은 사람을 찾는다.

8) 텍스트 마이닝

  • 텍스트로부터 자연어처리(NLP)를 통해 숨겨진 의미를 발견한다.
  • ex) 문서를 요약하거나 키워드를 추출하는 행위를 말한다.

[빅데이터의 위기 요인과 통제 방안]

1) 사생활 침해

  • SNS에 올린 데이터로 사생활이 침해당할 수 있다.
  • 통제 방안
    • 이와 관련한 책임을 제공자에서 사용자의 책임으로 전환한다.

2) 책임 원칙 훼손

  • 범죄 예측 프로그램으로 예측하여 체포할 때 문제가 발생할 수 있다.
  • 통제 방안
    • 결과에 대해서만 책임을 묻는다.

3) 데이터의 오용

  • 분석 결과가 항상 옳은 것은 아니다.
  • 통제 방안
    • 알고리즘을 해석할 수 있는 "알고리즈미스트"가 필요하다.
    • 알고리즈미스트란, 부당하게 피해가 발생한 사람들을 구제하는 전문 인력을 말한다.

[데이터 3법]

- 가명 정보의 개념을 도입한다.

- 통계 작성, 연구, 공익적 기록 보존이라는 목적 하에만 동의 없이 정보를 활용할 수 있다.

 

1) 개인정보보호법

2) 정보통신망 이용 촉진 및 정보보호 등에 관한 법률(정보통신망법)

3) 신용정보의 이용 및 보호에 관한 법률(신용정보법)

[개인정보, 가명정보, 익명정보]

1) 개인정보

  • 개인을 알아볼 수 있는 정보를 말한다.
  • 개인의 동의를 받아 활용이 가능하다.

2) 가명정보

  • 가명처리를 통해 추가적인 정보가 없으면 특정할 수 없게 한다.
  • ex) 홍OO

3) 익명정보

  • 더 이상 개인을 알아볼 수 없는 정보를 말한다.
  • 이는 제한 없이 자유롭게 활용이 가능하다.

[데이터 산업의 발전]

1) 처리

  • 프로그래밍 언어를 활용해서 데이터를 처리했다.

2) 통합

  • DBMS가 등장했다.

3) 분석

  • 빅데이터 분석 기술이 발전하기 시작했다.

4) 연결

  • API를 활용해서 모듈들을 연결하기 시작했다.

5) 권리

  • 마이데이터(MyData)를 활용해서 데이터의 주권을 행사했다.
    • 마이데이터란, 자신의 신용 정보를 다른 제 3자에게 제공하여 서비스를 제공받는 제도를 말한다.
    • 마이데이터를 통해 핀테크가 발전했다.

[3. 가치 창조를 위한 데이터 사이언스와 전략 인사이트]

[데이터 사이언스]

  • 데이터와 관련된 모든 분야의 전문 지식을 종합한 학문이다.
  • 정형/비정형 데이터를 막론하고 데이터를 분석한다. (총체적 접근법)

[데이터 사이언스 핵심 구성 요소]

1) Analytics

  • 이론적 지식을 말한다.

2) IT

  • 프로그래밍적 요소를 말한다.

3) 비즈니스 분석

  • 비즈니스적 능력을 말한다.

[데이터 사이언티스트의 필요 역량]

1) 하드 스킬 (Hard Skill)

  • 이론적 지식 (수학, 통계학, 가설 검정 등)
  • 이과적인 느낌이다.

2) 소프트 스킬 (Sofr Skill)

  • 스토리텔링, 리더십, 창의력, 분석
  • 문과적인 느낌이다.

[빅데이터 가치와 패러다임의 변화]

1) Digitalization

  • 아날로그 세상을 디지털화 한다.

2) Connection

  • 디지털화된 정보들을 연결한다.

3) Agency

  • 연결을 효과적으로 관리한다.

→ 출처

ADsP 요약강의

 

[완벽 마스터] OLAP, OLTP란? 뜻/정.. : 네이버블로그

 

[완벽 마스터] OLAP, OLTP란? 뜻/정의/의미/개념/설명/이해/예시/비교/차이/DB/특징

OLAP, OLTP란? 뜻/정의/의미/개념/설명/이해/예시/비교/차이/DB/특징 OLAP : OnLine Anal...

blog.naver.com

 

반응형

'자격증 > ADsP' 카테고리의 다른 글

[ADsP 요약 정리]2과목 - 데이터분석 기획  (14) 2025.04.19