일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- array
- BFS
- Queue
- TwoPointers
- Stack
- 스택
- Algorithm
- 투포인터
- spring
- 스프링핵심원리기본편
- 동적계획법
- 백준
- 알고리즘
- 인텔리제이
- 정렬
- 프로그래머스
- baekjoon
- inflearn
- 스프링
- 그리디알고리즘
- lv1
- Sort
- 배열
- 자바
- 큐
- Java
- 김영한
- 인프런
- dfs
- lv3
- Today
- Total
E_Ji
[ADsP 요약 정리]1과목 - 데이터 이해 본문
[1. 데이터의 이해]
[데이터의 정의]
1) 데이터
- 있는 그대로의 객관적 사실
- 가공되지 않은 상태
[데이터의 특성]
존재적 특성 | 데이터는 있는 그대로의 객관적 사실이다. |
당위적 특성 | 데이터는 추론, 예측, 전망, 추정을 위한 근거이다. |
2) 정보
- 데이터를 가공한 자료
→ 체온 39도, 기침, 근육통, 인후통 이라는 "데이터"를 가공해서 코로나라는 "정보"를 만들어낸다.
[데이터의 유형]
1) 정성적, 정량적
- 정성적 데이터
- 자료의 특징을 풀어서 설명한다.
- 언어, 문자 등 규격화가 되지 않은 데이터를 말한다.
- 날씨가 좋다, 그는 잘생겼다, 그건 비싸다 등
- 저장, 검색, 분석을 하는데에 있어 정성적 데이터보다 고도의 기술력이 요구되며 돈이 많이 든다.
- 정량적 데이터
- 자료를 수치화한다.
- 수치, 기호, 온도. 풍속 등으로 계량화 된 데이터를 말한다.
- 나이, 온도, 몸무게 등
- 데이터의 양이 증가하더라도 관리가 어렵지 않다.
2) 정형, 반정형, 비정형
- 정형 데이터
- 정형화된 틀이 있고 연산이 가능하다.
- 엑셀, 스프레드 시트, 관계형 DB, CSV 등
- 반정형 데이터
- 정형화된 틀이 없고 연산이 불가능하다.
- XML, HTML, 센서 데이터, JSON, 로그 등
- 데이터를 설명하는 메타데이터(설명서)를 포함한다.
- 비정형 데이터
- 형태는 있지만 연산이 불가능하다.
- SNS, 댓글, 유튜브, 음성 등
[데이터 유형 요약 정리]
정성적 데이터 | 주관적이고 서술화된 데이터 | 언어, 문자 등 |
정량적 데이터 | 기준이 명확해서 평가가 가능함 | 수치, 도형, 기호 등 |
정형 데이터 | 정형화된 틀이 있고 연산이 가능 | 엑셀, 스프레드시트, 관계형 DB, CSV 등 |
반정형 데이터 | 정형화된 틀이 없고 연산이 불가능 | HTML, XML, JSON, 로그 등 |
비정형 데이터 | 형태는 있지만 연산이 불가능 | SNS, 댓글, 유튜브, 음성 등 |
[암묵지, 형식지간 상호작용]
1) 암묵지
- 개인에게 습득되고 겉으로 드러나지 않는다.
- 어떤 음식에 관한 나만의 레시피. 남에게 알려주지 않는다.
2) 형식지
- 메뉴얼, 문서 등의 형상화된 지식이다.
- 다양한 사람에게 정보를 알려준다.
- 블로그에 레시피를 정리해서 올리거나 레시피를 담은 책을 내는 것을 말한다.
- 형식지의 4가지 특징 (최근에는 시험에 잘 나오진 않으나, 기출엔 종종 나오고 있다.)
- 공통화
- 암묵적 지식을 다른 사람에게 알려준다.
- 내 요리 지식을 친구나 지인에게 알려주는 것을 말한다.
- 표출화
- 암묵적 지식을 메뉴얼이나 문서로 전환한다.
- 내 요리 지식을 블로그나 책으로 알리는 것을 말한다.
- 연결화
- 교재, 메뉴얼에 새로운 지식을 추가한다.
- 내 요리책에 더 나은 레시피나 새로운 레시피를 추가하는 것을 말한다.
- 내면화
- 만들어진 교재나 메뉴얼에서 다른 사람의 암묵지를 터득한다.
- 내 블로그나 요리책을 보고 다른 사람이 나의 레시피를 터득하는 것을 말한다.
- 공통화
[DIKW 피라미드]

- 데이터
- 있는 그대로의 사실
- A 병원의 독감 예방 주사 비용은 3만원이고 B 병원은 5만원이다.
- 있는 그대로의 사실
- 정보
- 데이터를 통해 패턴을 인식한다.
- A 병원의 비용이 더 싸다.
- 데이터를 통해 패턴을 인식한다.
- 지식
- 패턴을 통해 예측한다.
- A 병원에서 주사를 맞으면 이득을 볼 것이다.
- 패턴을 통해 예측한다.
- 지혜
- 창의적인 산물
- A 병원은 다른 질병의 예방 주사 비용도 저렴할 것이다.
- 창의적인 산물
[데이터 단위]
- KB < MB < GB < TB < PB < EB < ZB < YB < Peta < Exa < Zetta < Yotta
→ "패지, 패죠!"
- PB EB ZB YB > PEZY > 패지
- Peta Exa Zetta Yotta > PEZYo > 패죠
[데이터베이스의 정의와 특징]
- 데이터 베이스 (DB)
- 일정 구조에 맞게 조직화된 데이터의 집합이다.
[데이터베이스의 구성 요소]
- 스키마
- DB 구조와 제약조건에 관한 전반적 명세이다.
- 데이터베이스의 전반적인 사용 설명서이다.
- 외부 스키마, 개념 스키마, 내부 스키마로 분류한다.
- 인스턴스
- 데이터 개체를 구성하는 속성에 대한 데이터 타입과 값을 말한다.
- 데이터의 이름은 문자로, 사번은 숫자 타입으로 설정하는 것이다.
- 메타데이터
- 데이터를 설명하는 데이터이다.
- 데이터 구조를 설명하고 검색하는데 활용한다.
- 인덱스
- 정렬, 탐색을 위한 데이터의 이름을 말한다.
- 데이터에 번호를 매겨서 원하는 데이터를 빠르고 쉽게 찾을 수 있게 한다.
2) 데이터 베이스 관리 시스템 (DBMS)
- DB를 관리하고 접근하는 환경을 제공하는 소프트웨어이다.
- 관계형 DBMS
- 과거에는 테이블이나 표 형태로 저장이 되었다.
- MySQL, MariaDB, Oracle 등
- NoSQL DBMS
- 빅데이터가 등장하면서 다양한 비정형 데이터가 나타났고, 이를 처리하기 위해 NoSQL DBMS가 등장했다.
- 비정형 데이터를 저장하고 처리한다.
- HBase, MongoDB, CouchDB, Redis, Cassandra 등
3) SQL
- - 데이터 베이스에 접근할 수 있는 하부 언어이다.
- 정의언어 (DDL)
- CREATE, ALTER, DROP
- 조작언어 (DML)
- SELECT, INSERT, DELETE, UPDATE
- 제어언어 (DCL)
- COMMIT, ROLLBACK, GRANT, REVOKE
[데이터베이스의 특징]
1) 공용 데이터
- 여러 사용자가 다른 목적으로 데이터를 공통으로 이용한다.
- 내가 해당 DB에 접근할 수 있으면 다른 사람도 접근할 수 있어야 한다.
2) 통합된 데이터
- 동일한 데이터가 중복되어 있지 않다.
3) 저장된 데이터
- 저장매체에 저장된다.
4) 변화하는 데이터
- 새로운 데이터를 추가, 수정, 삭제해도 현재의 정확한 데이터를 유지한다.
- 무결성 : 현재의 정확한 데이터를 유지한다.
[데이터베이스 설계 절차]
1) 요구조건 분석2) 개념적 설계
- 개념적 스키마를 생성한다.
3) 논리적 설계
- 개념적 ERD를 활용한 논리적 모델링을 생성한다.
4) 물리적 설계
- 저장 구조를 설계한다.
[데이터베이스 활용]
[기업이 활용하는 데이터베이스]
1) OLTP (Online Transaction Processing)
- 데이터를 수시로 갱신한다.
- 온라인 트랜잭션 처리를 담당한다.
- 온라인 환경에서 다수의 사용자가 생성한 짧고 빈번한 트랜잭션(삽입, 수정, 삭제 등)을 빠르게 처리하기 위한 데이터베이스 시스템이다.
- 주로 은행, 온라인 쇼핑몰, ERP 시스템, 병원 시스템 등에서 사용된다.
2) OLAP ( Online Analytical Processing )
- 다차원 데이터를 대화식으로 분석한다.
- 데이터 분석을 효율적으로 수행할 수 있게 해주는 기술이다.
- 대용량 데이터를 다양한 각도에서 빠르게 분석할 수 있도록 도와준다.
- 주로 기업에서 매출, 재고, 생산성과 같은 정보를 다차원적으로 분석할 때 자주 사용된다.
3) CRM (Customer Relationship Management)
- 고객과 관련된 자료를 분석하여 마케팅에 활용한다.
- 선별된 고객으로부터 수익을 창출하고 장기적인 고객관계를 유지하기 위해 사용된다.
4) SCM (Supply Chain Management)
- 공급망의 연결을 최적화한다.
- 제품과 서비스가 소비자에게 전달되기까지의 모든 과정에서 효울성을 극대화하는 관리 체계를 말한다.
- 원자재 조달부터 최종 소비자에게 도달하기까지의 모든 과정을 체계적으로 관리한다.
5) ERP (Enterprise Resource Planning)
- 기업 경영 자원을 효율화한다.
- 재무, 회계, 인사, 급여 등 기업 운영에 필요한 재반 업무를 관리하는 시스템이다.
6) RTE (Real Time Enterprise)
- 최신 정보로 빠르게 의사결정을 할 수 있도록 돕는다.
7) BI (Business Intelligence)
- 기업이 보유한 데이터를 정리하고 분석하는 리포트 중심의 도구이다.
8) BA (Business Analyst)
- 통계에 기반한 비즈니스 통찰력을 필요로 한다.
- 서비스를 개발할 때 사용자의 요구를 반영하도록 힘쓰는 사람을 가리킨다.
9) Block Chain
- 네트워크에 참여한 모든 사용자가 정보를 분산하여 저장한다.
10) KMS (Knowledge Management System)
- 기업의 모든 지식을 포함한다.
- 지식을 저장하고 저장된 지식을 체계화하여 공유하며 이를 활용하여 업무 생산성의 향상을 기대할 수 있다.
[데이터 웨어하우스 (Data Ware House, DW)]
- 여러 DB에 저장된 데이터들을 하나의 창고에 저장하는 것을 말한다.
1) 특징
- 주제지향성
- 분석하려는 목적을 설정하는 것이 중요하다.
- 데이터 통합
- 데이터가 일관된 형식으로 저장되어야 한다.
- 시계열성
- 데이터가 시간의 흐름에 따라 변화했다는 것을 알 수 있어야 한다.
- 히스토리를 가지고 있어야 한다.
- 비휘발성
- 읽기만 가능해야 한다.
- 데이터를 바꿀 수 없다.
2) 구성요소
- ETL (Extraction, Transform, Load)
- 데이터를 빼고, 변환하고, 적재한다.
- ODS (Operational Data Store)
- 데이터를 임시로 저장하는 장소이다.
- ODS에 들어간 데이터를 데이터 웨어하우스로 옮긴다.
[데이터 레이크 (DataLake)]
- 비정형 데이터를 저장하며 하둡과 연계하여 처리한다.
- 하둡이란, 여러 컴퓨터를 하나로 묶어 대용량 데이터를 처리하는 오픈 소스 빅데이터 솔루션이다.
- HDFS
- 분산형 파일 저장 시스템이다.
- MapReduce
- 분산된 데이터를 병렬로 처리한다.
[2. 데이터의 가치와 미래]
[빅데이터 출현 배경]
- 인터넷 확산, 스마트폰 보급, 클라우딩 컴퓨팅으로 인해 경제성이 확보되었다.
- 저장매체 가격의 하락, 하둡을 활용한 분산 컴퓨팅, 비정형 데이터의 확산으로 빅데이터가 출현하기 시작했다.
[빅데이터의 3V (가트너 정의)]
1) Volume (규모)
- 데이터 양이 증가했다.
- 구글 번역 서비스가 규모에 초점을 맞춘 대표적인 사례이다.
2) Variety (다양성)
- 데이터 유형이 증가했다.
3) Velocity (속도)
- 데이터 생성과 처리 속도가 증가했다.
4) 그 외 5V / 7V에 포함되는 요소
- Value (가치)
- 숨겨진 가치의 발견이 중요하다.
- Veracity (신뢰성)
- 고품질 데이터로 신뢰성을 향상시킨다.
- Validity (정확성)
- 데이터의 유효성이 보장되어야 한다.
- Volatility (휘발성)
- 데이터는 일정한 기간이 지나면 사라져야 한다.
[빅데이터가 만들어내는 변화]
1) 표본조사 → 전수조사
2) 사전처리 → 사후처리
3) 질 → 양
4) 인과관계 → 상관관계
[빅데이터 활용을 위한 3대 요소]
- 인력, 자원(데이터), 기술
[빅데이터의 주요 분석기법]
1) 회귀분석
- 독립 변수와 종속 변수간의 관계를 분석한다.
- ex) X가 Y에 어떤 영향을 미치는가?
2) 분류분석
- A와 B는 어디에 속하는 범주인가?
- ex) 고양이와 강이지 이미지를 구분한다.
3) 연관규칙
- 여러 요소들 간의 규칙은 상관관계가 존재한다.
- ex) 마트에서 치킨과 맥주를 같이 사는 이유, 그 둘의 상관관계는 무엇인가?
4) 유전자 알고리즘
- 최적화가 필요한 문제의 해결책은 무엇인가.
- ex) 최대 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?
5) 기계학습
- 훈련 데이터로부터 컴퓨터가 학습하고 미래를 예측한다.
- ex) 넷플릭스 영화 추천 시스템
6) 감정분석
- 텍스트 데이터에서 감정적인 부분을 분석한다.
- ex) 긍정적인지, 부정적인지를 구별한다.
7) 소셜 네트워크 분석
- 사람간의 관계를 분석한다.
- ex) SNS 사용자들 사이에서 영향력 높은 사람을 찾는다.
8) 텍스트 마이닝
- 텍스트로부터 자연어처리(NLP)를 통해 숨겨진 의미를 발견한다.
- ex) 문서를 요약하거나 키워드를 추출하는 행위를 말한다.
[빅데이터의 위기 요인과 통제 방안]
1) 사생활 침해
- SNS에 올린 데이터로 사생활이 침해당할 수 있다.
- 통제 방안
- 이와 관련한 책임을 제공자에서 사용자의 책임으로 전환한다.
2) 책임 원칙 훼손
- 범죄 예측 프로그램으로 예측하여 체포할 때 문제가 발생할 수 있다.
- 통제 방안
- 결과에 대해서만 책임을 묻는다.
3) 데이터의 오용
- 분석 결과가 항상 옳은 것은 아니다.
- 통제 방안
- 알고리즘을 해석할 수 있는 "알고리즈미스트"가 필요하다.
- 알고리즈미스트란, 부당하게 피해가 발생한 사람들을 구제하는 전문 인력을 말한다.
[데이터 3법]
- 가명 정보의 개념을 도입한다.
- 통계 작성, 연구, 공익적 기록 보존이라는 목적 하에만 동의 없이 정보를 활용할 수 있다.
1) 개인정보보호법
2) 정보통신망 이용 촉진 및 정보보호 등에 관한 법률(정보통신망법)
3) 신용정보의 이용 및 보호에 관한 법률(신용정보법)
[개인정보, 가명정보, 익명정보]
1) 개인정보
- 개인을 알아볼 수 있는 정보를 말한다.
- 개인의 동의를 받아 활용이 가능하다.
2) 가명정보
- 가명처리를 통해 추가적인 정보가 없으면 특정할 수 없게 한다.
- ex) 홍OO
3) 익명정보
- 더 이상 개인을 알아볼 수 없는 정보를 말한다.
- 이는 제한 없이 자유롭게 활용이 가능하다.
[데이터 산업의 발전]

1) 처리
- 프로그래밍 언어를 활용해서 데이터를 처리했다.
2) 통합
- DBMS가 등장했다.
3) 분석
- 빅데이터 분석 기술이 발전하기 시작했다.
4) 연결
- API를 활용해서 모듈들을 연결하기 시작했다.
5) 권리
- 마이데이터(MyData)를 활용해서 데이터의 주권을 행사했다.
- 마이데이터란, 자신의 신용 정보를 다른 제 3자에게 제공하여 서비스를 제공받는 제도를 말한다.
- 마이데이터를 통해 핀테크가 발전했다.
[3. 가치 창조를 위한 데이터 사이언스와 전략 인사이트]
[데이터 사이언스]
- 데이터와 관련된 모든 분야의 전문 지식을 종합한 학문이다.
- 정형/비정형 데이터를 막론하고 데이터를 분석한다. (총체적 접근법)
[데이터 사이언스 핵심 구성 요소]
1) Analytics
- 이론적 지식을 말한다.
2) IT
- 프로그래밍적 요소를 말한다.
3) 비즈니스 분석
- 비즈니스적 능력을 말한다.
[데이터 사이언티스트의 필요 역량]
1) 하드 스킬 (Hard Skill)
- 이론적 지식 (수학, 통계학, 가설 검정 등)
- 이과적인 느낌이다.
2) 소프트 스킬 (Sofr Skill)
- 스토리텔링, 리더십, 창의력, 분석
- 문과적인 느낌이다.
[빅데이터 가치와 패러다임의 변화]

1) Digitalization
- 아날로그 세상을 디지털화 한다.
2) Connection
- 디지털화된 정보들을 연결한다.
3) Agency
- 연결을 효과적으로 관리한다.
→ 출처
[완벽 마스터] OLAP, OLTP란? 뜻/정.. : 네이버블로그
[완벽 마스터] OLAP, OLTP란? 뜻/정의/의미/개념/설명/이해/예시/비교/차이/DB/특징
OLAP, OLTP란? 뜻/정의/의미/개념/설명/이해/예시/비교/차이/DB/특징 OLAP : OnLine Anal...
blog.naver.com
'자격증 > ADsP' 카테고리의 다른 글
[ADsP 요약 정리]2과목 - 데이터분석 기획 (14) | 2025.04.19 |
---|