[ADsP 요약 정리]1과목 - 데이터 이해

[1. 데이터의 이해]

[데이터의 정의]

1) 데이터

- 있는 그대로의 객관적 사실

- 가공되지 않은 상태

[데이터의 특성]

존재적 특성	데이터는 있는 그대로의 객관적 사실이다.
당위적 특성	데이터는 추론, 예측, 전망, 추정을 위한 근거이다.

2) 정보

- 데이터를 가공한 자료

→ 체온 39도, 기침, 근육통, 인후통 이라는 "데이터"를 가공해서 코로나라는 "정보"를 만들어낸다.

[데이터의 유형]

1) 정성적, 정량적

- 정성적 데이터

자료의 특징을 풀어서 설명한다.
언어, 문자 등 규격화가 되지 않은 데이터를 말한다.
- 날씨가 좋다, 그는 잘생겼다, 그건 비싸다 등
저장, 검색, 분석을 하는데에 있어 정성적 데이터보다 고도의 기술력이 요구되며 돈이 많이 든다.

- 정량적 데이터

자료를 수치화한다.
수치, 기호, 온도. 풍속 등으로 계량화 된 데이터를 말한다.
- 나이, 온도, 몸무게 등
데이터의 양이 증가하더라도 관리가 어렵지 않다.

2) 정형, 반정형, 비정형

- 정형 데이터

정형화된 틀이 있고 연산이 가능하다.
- 엑셀, 스프레드 시트, 관계형 DB, CSV 등

- 반정형 데이터

정형화된 틀이 없고 연산이 불가능하다.
- XML, HTML, 센서 데이터, JSON, 로그 등
데이터를 설명하는 메타데이터(설명서)를 포함한다.

- 비정형 데이터

형태는 있지만 연산이 불가능하다.
- SNS, 댓글, 유튜브, 음성 등

[데이터 유형 요약 정리]

정성적 데이터	주관적이고 서술화된 데이터	언어, 문자 등
정량적 데이터	기준이 명확해서 평가가 가능함	수치, 도형, 기호 등
정형 데이터	정형화된 틀이 있고 연산이 가능	엑셀, 스프레드시트, 관계형 DB, CSV 등
반정형 데이터	정형화된 틀이 없고 연산이 불가능	HTML, XML, JSON, 로그 등
비정형 데이터	형태는 있지만 연산이 불가능	SNS, 댓글, 유튜브, 음성 등

[암묵지, 형식지간 상호작용]

1) 암묵지

개인에게 습득되고 겉으로 드러나지 않는다.
- 어떤 음식에 관한 나만의 레시피. 남에게 알려주지 않는다.

2) 형식지

메뉴얼, 문서 등의 형상화된 지식이다.
다양한 사람에게 정보를 알려준다.
- 블로그에 레시피를 정리해서 올리거나 레시피를 담은 책을 내는 것을 말한다.
형식지의 4가지 특징 (최근에는 시험에 잘 나오진 않으나, 기출엔 종종 나오고 있다.)
1. 공통화
  - 암묵적 지식을 다른 사람에게 알려준다.
  - 내 요리 지식을 친구나 지인에게 알려주는 것을 말한다.
2. 표출화
  - 암묵적 지식을 메뉴얼이나 문서로 전환한다.
  - 내 요리 지식을 블로그나 책으로 알리는 것을 말한다.
3. 연결화
  - 교재, 메뉴얼에 새로운 지식을 추가한다.
  - 내 요리책에 더 나은 레시피나 새로운 레시피를 추가하는 것을 말한다.
4. 내면화
  - 만들어진 교재나 메뉴얼에서 다른 사람의 암묵지를 터득한다.
  - 내 블로그나 요리책을 보고 다른 사람이 나의 레시피를 터득하는 것을 말한다.

[DIKW 피라미드]

데이터
- 있는 그대로의 사실
  - A 병원의 독감 예방 주사 비용은 3만원이고 B 병원은 5만원이다.
정보
- 데이터를 통해 패턴을 인식한다.
  - A 병원의 비용이 더 싸다.
지식
- 패턴을 통해 예측한다.
  - A 병원에서 주사를 맞으면 이득을 볼 것이다.
지혜
- 창의적인 산물
  - A 병원은 다른 질병의 예방 주사 비용도 저렴할 것이다.

[데이터 단위]

KB < MB < GB < TB < PB < EB < ZB < YB < Peta < Exa < Zetta < Yotta

→ "패지, 패죠!"

- PB EB ZB YB > PEZY > 패지

- Peta Exa Zetta Yotta > PEZYo > 패죠

[데이터베이스의 정의와 특징]

- 데이터 베이스 (DB)

일정 구조에 맞게 조직화된 데이터의 집합이다.

[데이터베이스의 구성 요소]

스키마
- DB 구조와 제약조건에 관한 전반적 명세이다.
- 데이터베이스의 전반적인 사용 설명서이다.
- 외부 스키마, 개념 스키마, 내부 스키마로 분류한다.
인스턴스
- 데이터 개체를 구성하는 속성에 대한 데이터 타입과 값을 말한다.
- 데이터의 이름은 문자로, 사번은 숫자 타입으로 설정하는 것이다.
메타데이터
- 데이터를 설명하는 데이터이다.
- 데이터 구조를 설명하고 검색하는데 활용한다.
인덱스
- 정렬, 탐색을 위한 데이터의 이름을 말한다.
- 데이터에 번호를 매겨서 원하는 데이터를 빠르고 쉽게 찾을 수 있게 한다.

2) 데이터 베이스 관리 시스템 (DBMS)

- DB를 관리하고 접근하는 환경을 제공하는 소프트웨어이다.

관계형 DBMS
- 과거에는 테이블이나 표 형태로 저장이 되었다.
- MySQL, MariaDB, Oracle 등
NoSQL DBMS
- 빅데이터가 등장하면서 다양한 비정형 데이터가 나타났고, 이를 처리하기 위해 NoSQL DBMS가 등장했다.
- 비정형 데이터를 저장하고 처리한다.
- HBase, MongoDB, CouchDB, Redis, Cassandra 등

3) SQL

- 데이터 베이스에 접근할 수 있는 하부 언어이다.

정의언어 (DDL)
- CREATE, ALTER, DROP
조작언어 (DML)
- SELECT, INSERT, DELETE, UPDATE
제어언어 (DCL)
- COMMIT, ROLLBACK, GRANT, REVOKE

[데이터베이스의 특징]

1) 공용 데이터

여러 사용자가 다른 목적으로 데이터를 공통으로 이용한다.
내가 해당 DB에 접근할 수 있으면 다른 사람도 접근할 수 있어야 한다.

2) 통합된 데이터

동일한 데이터가 중복되어 있지 않다.

3) 저장된 데이터

저장매체에 저장된다.

4) 변화하는 데이터

새로운 데이터를 추가, 수정, 삭제해도 현재의 정확한 데이터를 유지한다.
- 무결성 : 현재의 정확한 데이터를 유지한다.

[데이터베이스 설계 절차]

1) 요구조건 분석2) 개념적 설계

개념적 스키마를 생성한다.

3) 논리적 설계

개념적 ERD를 활용한 논리적 모델링을 생성한다.

4) 물리적 설계

저장 구조를 설계한다.

[데이터베이스 활용]

[기업이 활용하는 데이터베이스]

1) OLTP (Online Transaction Processing)

데이터를 수시로 갱신한다.
온라인 트랜잭션 처리를 담당한다.
온라인 환경에서 다수의 사용자가 생성한 짧고 빈번한 트랜잭션(삽입, 수정, 삭제 등)을 빠르게 처리하기 위한 데이터베이스 시스템이다.
주로 은행, 온라인 쇼핑몰, ERP 시스템, 병원 시스템 등에서 사용된다.

2) OLAP ( Online Analytical Processing )

다차원 데이터를 대화식으로 분석한다.
데이터 분석을 효율적으로 수행할 수 있게 해주는 기술이다.
대용량 데이터를 다양한 각도에서 빠르게 분석할 수 있도록 도와준다.
주로 기업에서 매출, 재고, 생산성과 같은 정보를 다차원적으로 분석할 때 자주 사용된다.

3) CRM (Customer Relationship Management)

고객과 관련된 자료를 분석하여 마케팅에 활용한다.
선별된 고객으로부터 수익을 창출하고 장기적인 고객관계를 유지하기 위해 사용된다.

4) SCM (Supply Chain Management)

공급망의 연결을 최적화한다.
제품과 서비스가 소비자에게 전달되기까지의 모든 과정에서 효울성을 극대화하는 관리 체계를 말한다.
원자재 조달부터 최종 소비자에게 도달하기까지의 모든 과정을 체계적으로 관리한다.

5) ERP (Enterprise Resource Planning)

기업 경영 자원을 효율화한다.
재무, 회계, 인사, 급여 등 기업 운영에 필요한 재반 업무를 관리하는 시스템이다.

6) RTE (Real Time Enterprise)

최신 정보로 빠르게 의사결정을 할 수 있도록 돕는다.

7) BI (Business Intelligence)

기업이 보유한 데이터를 정리하고 분석하는 리포트 중심의 도구이다.

8) BA (Business Analyst)

통계에 기반한 비즈니스 통찰력을 필요로 한다.
서비스를 개발할 때 사용자의 요구를 반영하도록 힘쓰는 사람을 가리킨다.

9) Block Chain

네트워크에 참여한 모든 사용자가 정보를 분산하여 저장한다.

10) KMS (Knowledge Management System)

기업의 모든 지식을 포함한다.
지식을 저장하고 저장된 지식을 체계화하여 공유하며 이를 활용하여 업무 생산성의 향상을 기대할 수 있다.

[데이터 웨어하우스 (Data Ware House, DW)]

- 여러 DB에 저장된 데이터들을 하나의 창고에 저장하는 것을 말한다.

1) 특징

주제지향성
- 분석하려는 목적을 설정하는 것이 중요하다.
데이터 통합
- 데이터가 일관된 형식으로 저장되어야 한다.
시계열성
- 데이터가 시간의 흐름에 따라 변화했다는 것을 알 수 있어야 한다.
- 히스토리를 가지고 있어야 한다.
비휘발성
- 읽기만 가능해야 한다.
- 데이터를 바꿀 수 없다.

2) 구성요소

ETL (Extraction, Transform, Load)
- 데이터를 빼고, 변환하고, 적재한다.
ODS (Operational Data Store)
- 데이터를 임시로 저장하는 장소이다.
- ODS에 들어간 데이터를 데이터 웨어하우스로 옮긴다.

[데이터 레이크 (DataLake)]

비정형 데이터를 저장하며 하둡과 연계하여 처리한다.
- 하둡이란, 여러 컴퓨터를 하나로 묶어 대용량 데이터를 처리하는 오픈 소스 빅데이터 솔루션이다.
HDFS
- 분산형 파일 저장 시스템이다.
MapReduce
- 분산된 데이터를 병렬로 처리한다.

[2. 데이터의 가치와 미래]

[빅데이터 출현 배경]

인터넷 확산, 스마트폰 보급, 클라우딩 컴퓨팅으로 인해 경제성이 확보되었다.
저장매체 가격의 하락, 하둡을 활용한 분산 컴퓨팅, 비정형 데이터의 확산으로 빅데이터가 출현하기 시작했다.

[빅데이터의 3V (가트너 정의)]

1) Volume (규모)

데이터 양이 증가했다.
구글 번역 서비스가 규모에 초점을 맞춘 대표적인 사례이다.

2) Variety (다양성)

데이터 유형이 증가했다.

3) Velocity (속도)

데이터 생성과 처리 속도가 증가했다.

4) 그 외 5V / 7V에 포함되는 요소

Value (가치)
- 숨겨진 가치의 발견이 중요하다.
Veracity (신뢰성)
- 고품질 데이터로 신뢰성을 향상시킨다.
Validity (정확성)
- 데이터의 유효성이 보장되어야 한다.
Volatility (휘발성)
- 데이터는 일정한 기간이 지나면 사라져야 한다.

[빅데이터가 만들어내는 변화]

1) 표본조사 → 전수조사

2) 사전처리 → 사후처리

3) 질 → 양

4) 인과관계 → 상관관계

[빅데이터 활용을 위한 3대 요소]

인력, 자원(데이터), 기술

[빅데이터의 주요 분석기법]

1) 회귀분석

독립 변수와 종속 변수간의 관계를 분석한다.
ex) X가 Y에 어떤 영향을 미치는가?

2) 분류분석

A와 B는 어디에 속하는 범주인가?
ex) 고양이와 강이지 이미지를 구분한다.

3) 연관규칙

여러 요소들 간의 규칙은 상관관계가 존재한다.
ex) 마트에서 치킨과 맥주를 같이 사는 이유, 그 둘의 상관관계는 무엇인가?

4) 유전자 알고리즘

최적화가 필요한 문제의 해결책은 무엇인가.
ex) 최대 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?

5) 기계학습

훈련 데이터로부터 컴퓨터가 학습하고 미래를 예측한다.
ex) 넷플릭스 영화 추천 시스템

6) 감정분석

텍스트 데이터에서 감정적인 부분을 분석한다.
ex) 긍정적인지, 부정적인지를 구별한다.

7) 소셜 네트워크 분석

사람간의 관계를 분석한다.
ex) SNS 사용자들 사이에서 영향력 높은 사람을 찾는다.

8) 텍스트 마이닝

텍스트로부터 자연어처리(NLP)를 통해 숨겨진 의미를 발견한다.
ex) 문서를 요약하거나 키워드를 추출하는 행위를 말한다.

[빅데이터의 위기 요인과 통제 방안]

1) 사생활 침해

SNS에 올린 데이터로 사생활이 침해당할 수 있다.
통제 방안
- 이와 관련한 책임을 제공자에서 사용자의 책임으로 전환한다.

2) 책임 원칙 훼손

범죄 예측 프로그램으로 예측하여 체포할 때 문제가 발생할 수 있다.
통제 방안
- 결과에 대해서만 책임을 묻는다.

3) 데이터의 오용

분석 결과가 항상 옳은 것은 아니다.
통제 방안
- 알고리즘을 해석할 수 있는 "알고리즈미스트"가 필요하다.
- 알고리즈미스트란, 부당하게 피해가 발생한 사람들을 구제하는 전문 인력을 말한다.

[데이터 3법]

- 가명 정보의 개념을 도입한다.

- 통계 작성, 연구, 공익적 기록 보존이라는 목적 하에만 동의 없이 정보를 활용할 수 있다.

1) 개인정보보호법

2) 정보통신망 이용 촉진 및 정보보호 등에 관한 법률(정보통신망법)

3) 신용정보의 이용 및 보호에 관한 법률(신용정보법)

[개인정보, 가명정보, 익명정보]

1) 개인정보

개인을 알아볼 수 있는 정보를 말한다.
개인의 동의를 받아 활용이 가능하다.

2) 가명정보

가명처리를 통해 추가적인 정보가 없으면 특정할 수 없게 한다.
ex) 홍OO

3) 익명정보

더 이상 개인을 알아볼 수 없는 정보를 말한다.
이는 제한 없이 자유롭게 활용이 가능하다.

[데이터 산업의 발전]

1) 처리

프로그래밍 언어를 활용해서 데이터를 처리했다.

2) 통합

DBMS가 등장했다.

3) 분석

빅데이터 분석 기술이 발전하기 시작했다.

4) 연결

API를 활용해서 모듈들을 연결하기 시작했다.

5) 권리

마이데이터(MyData)를 활용해서 데이터의 주권을 행사했다.
- 마이데이터란, 자신의 신용 정보를 다른 제 3자에게 제공하여 서비스를 제공받는 제도를 말한다.
- 마이데이터를 통해 핀테크가 발전했다.

[3. 가치 창조를 위한 데이터 사이언스와 전략 인사이트]

[데이터 사이언스]

데이터와 관련된 모든 분야의 전문 지식을 종합한 학문이다.
정형/비정형 데이터를 막론하고 데이터를 분석한다. (총체적 접근법)

[데이터 사이언스 핵심 구성 요소]

1) Analytics

이론적 지식을 말한다.

2) IT

프로그래밍적 요소를 말한다.

3) 비즈니스 분석

비즈니스적 능력을 말한다.

[데이터 사이언티스트의 필요 역량]

1) 하드 스킬 (Hard Skill)

이론적 지식 (수학, 통계학, 가설 검정 등)
이과적인 느낌이다.

2) 소프트 스킬 (Sofr Skill)

스토리텔링, 리더십, 창의력, 분석
문과적인 느낌이다.

[빅데이터 가치와 패러다임의 변화]

1) Digitalization

아날로그 세상을 디지털화 한다.

2) Connection

디지털화된 정보들을 연결한다.

3) Agency

연결을 효과적으로 관리한다.

→ 출처

ADsP 요약강의

[완벽 마스터] OLAP, OLTP란? 뜻/정.. : 네이버블로그

[완벽 마스터] OLAP, OLTP란? 뜻/정의/의미/개념/설명/이해/예시/비교/차이/DB/특징

OLAP, OLTP란? 뜻/정의/의미/개념/설명/이해/예시/비교/차이/DB/특징 OLAP : OnLine Anal...

blog.naver.com

저작자표시 비영리 동일조건 (새창열림)

'자격증 > ADsP' 카테고리의 다른 글

[ADsP 요약정리]3과목 2. 통계 분석-표본 조사 (2)	2025.05.07
[ADsP 요약정리]3과목 1. 데이터 마트 (0)	2025.05.02
[ADsP 요약 정리]2과목 - 데이터분석 기획 (14)	2025.04.19

E_Ji

[ADsP 요약 정리]1과목 - 데이터 이해

[1. 데이터의 이해]

[데이터의 정의]

[데이터의 유형]

[암묵지, 형식지간 상호작용]

[DIKW 피라미드]

[데이터 단위]

[데이터베이스의 정의와 특징]

[데이터베이스의 구성 요소]

[데이터베이스의 특징]

[데이터베이스 설계 절차]

[데이터베이스 활용]

[기업이 활용하는 데이터베이스]

[데이터 웨어하우스 (Data Ware House, DW)]

[데이터 레이크 (DataLake)]

[2. 데이터의 가치와 미래]

[빅데이터 출현 배경]

[빅데이터의 3V (가트너 정의)]

[빅데이터가 만들어내는 변화]

[빅데이터 활용을 위한 3대 요소]

[빅데이터의 주요 분석기법]

[빅데이터의 위기 요인과 통제 방안]

[데이터 3법]

[개인정보, 가명정보, 익명정보]

[데이터 산업의 발전]

[3. 가치 창조를 위한 데이터 사이언스와 전략 인사이트]

[데이터 사이언스]

[데이터 사이언스 핵심 구성 요소]

[데이터 사이언티스트의 필요 역량]

[빅데이터 가치와 패러다임의 변화]

'자격증 > ADsP' 카테고리의 다른 글

티스토리툴바

[ADsP 요약 정리]1과목 - 데이터 이해

[1. 데이터의 이해]

[데이터의 정의]

[데이터의 유형]

[암묵지, 형식지간 상호작용]

[DIKW 피라미드]

[데이터 단위]

[데이터베이스의 정의와 특징]

[데이터베이스의 구성 요소]

[데이터베이스의 특징]

[데이터베이스 설계 절차]

[데이터베이스 활용]

[기업이 활용하는 데이터베이스]

[데이터 웨어하우스 (Data Ware House, DW)]

[데이터 레이크 (DataLake)]

[2. 데이터의 가치와 미래]

[빅데이터 출현 배경]

[빅데이터의 3V (가트너 정의)]

[빅데이터가 만들어내는 변화]

[빅데이터 활용을 위한 3대 요소]

[빅데이터의 주요 분석기법]

[빅데이터의 위기 요인과 통제 방안]

[데이터 3법]

[개인정보, 가명정보, 익명정보]

[데이터 산업의 발전]

[3. 가치 창조를 위한 데이터 사이언스와 전략 인사이트]

[데이터 사이언스]

[데이터 사이언스 핵심 구성 요소]

[데이터 사이언티스트의 필요 역량]

[빅데이터 가치와 패러다임의 변화]

'자격증 > ADsP' 카테고리의 다른 글

'자격증/ADsP' Related Articles

티스토리툴바