일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 인텔리제이
- 인프런
- 스택
- Algorithm
- TwoPointers
- Stack
- spring
- 알고리즘
- dfs
- 큐
- 배열
- 자바
- 프로그래머스
- lv3
- 백준
- 김영한
- 투포인터
- 정렬
- inflearn
- 동적계획법
- 그리디알고리즘
- 스프링
- lv1
- Java
- Queue
- baekjoon
- Sort
- array
- 스프링핵심원리기본편
- BFS
- Today
- Total
E_Ji
[ADsP 요약 정리]2과목 - 데이터분석 기획 본문
[1. 데이터분석 기획의 이해]
▶ 데이터 분석의 정의
- 어떤 목표를 달성하기 위해 어떤 데이터를 가지고 어떤 방식으로 수행할지에 대한 계획을 수립하는 작업이다.
- 실제 분석을 수행하기 전에 분석을 수행할 과제의 정의 및 의도했던 결과를 도출할 수 있는 방안을 사전에 계획하는 작업이다.
▶ 의미 있는 분석을 위해 분석가에게 요구되는 역량
- 해당 문제 영역에 대한 전문성
- 통계학적 지식을 활용한 분석 능력
- 데이터 프로그래밍 기술
[분석 기획 방향성 도출]
▶ 분석 대상과 방법
- 분석 방법과 대상에 따라 4 가지 유형으로 나눌 수 있다.
1) 최적화 (Optimization)
- 분석 대상과 분석 방법을 이해하고 현제의 문제를 최적화한 형태로 수행한다.
- 내가 먹고 싶은 것을 알고(Known) 요리 방법도 안다면(Known) 그 방법을 "최적화"해야 한다.
2) 솔루션 (Solution)
- 분석 대상은 알지만 분석 방법을 알지 못할 때, 해결을 위한 솔루션을 찾는 방식으로 문제를 해결한다.
- 라면(Known) 을 먹고 싶은데 끓여야 할지, 튀겨야 할지 모른다면(UnKnown) 문제의 해결을 위해 "솔루션"을 찾아야 한다.
3) 통찰 (Insight)
- 분석 대상은 불분명하지만 분석 방법은 알고 있을 때 인사이트를 도출한다.
- 인사이트를 도출한다는 것은 가장 효율적인 방식으로 문제를 해결하는 것이라고 할 수 있다.
- 요리를 할 수는 있지만(Known) 내가 무엇을 먹고 싶은지 모른다면(UnKnown) 내가 무엇을 좋아하는지 "통찰"해야 한다.
4) 발견 (Discovery)
- 분석 대상과 방법을 전부 모른다면 발견을 통해 분석 대상 자체를 새롭게 도출한다.
- 음식을 먹고 싶은데 무엇을 먹고 싶은지도 모르고(UnKnown) 어떻게 요리해야 되는지도 모른다면(UnKnown) 일단 음식을 "발견"해야 한다.
티스토리는 표 서식 기능이 뭐 이리 없는지... 내가 못 찾나.
분석 방법 | 분석 대상 | |
Known | UnKnown | |
Known | 최적화 (Optimization) |
통찰 (Insight) |
Un-Known | 솔루션 (Solution) |
발견 (Discovery) |
▶ 분석 기획 방안
1) 과제 중심적 해결
- 음식점에서 음식에 벌레가 나왔다는 컴플레인이 나온다면 최대한 빠르게 이 문제를 해결해야 한다.
- 속도(Speed)가 빠르게(Quick) 문제를 해결(Problem Solving)해야 한다.
2) 장기적 마스터 플랜
- 음식점에서 위생 관련 문제가 지속적으로 발생한다면 이를 해결하기 위해 근본적인 원인을 찾아 해결해야 한다.
- 정확하고(Accuracy) 효율적으로(Deploy) 오랜 기간 동안(Long Term View) 문제를 정의(Problem Definition)해야 한다.
과제 중심적 해결 | 장기적 마스터 플랜 | |
목적 | 빠르게 해결 | 문제의 근본적 원인 해결 |
1차 목표 | Speed & Test | Accuracy & Deploy |
과제의 유형 | Quick & Win | Long Term View |
접근 방식 | Problem Solving | Problem Definition |
▶ 분석 기획 시 고려사항
1) 가용 데이터
- 분석의 기본이 되는 데이터를 확보 및 파악한다.
- 유형에 따라 솔루션이 다르기에 유형을 먼저 분석해야 한다.
2) 적절한 유스케이스 탐색
- 기존에 잘 구현되어 있는 유사 시나리오를 사용한다.
- 유사분석 시나리오나 솔루션이 있다면 이를 최대한 활용해야 한다.
3) 장애요소에 대한 사전계획 수립
- 조직의 역량으로 내체화한다.
- 조직 내에서 일회성이 아니라 지속적으로 교육할 수 있는 활동 방안을 마련해야 한다.
▶ 의사 결정을 가로막는 요소
- 고정 관념
- 편향된 생각
- 프레이밍 효과 : 동일한 상황임에도 개인의 판단이나 결정이 달라진다.
[분석 방법론]
- 효과적인 데이터 분석이 기업에 잘 정착하기 위해서는 데이터 분석을 체계화하는 절차와 정리된 데이터 분석 방법론이 필요하다.
▶ 분석방법론의 구성 요소
1) 절차
2) 방법
3) 도구와 기법
4) 템플릿과 산출물
▶ 분석 방법론의 모델
1) 계층적 프로세스 모델
- 단계 → 태스크 → 스텝
2) 폭포수 모델
- 위에서 아래로 떨어지는 Top_Dowm 형식으로 진행한다.
- 단계를 순차적으로 진행하는 방법으로, 이전 단계가 완료되어야만 다음 단계로 넘어간다.(하향식 진행)
- 문제점이 발견되면 전 단계로 돌아간다.
3) 나선형 모델
- 여러 개발 과정을 거쳐서 점진적으로 완성하는 방법이다.
- 위험요소를 제거하는 것에 초점이 맞춰져 있다.
4) 프로토타입 모델
- 일부분을 우선 개발하고 나중에 보완하는 방식이다.
- 사용자의 요구사항이나 데이터를 명확하게 파악하기 어려운 상황에서 사용한다.
- 일단 분석하고 결과를 확인하며 반복적으로 개선한다.
- 신속하게 해결책을 제시해주는 상향식 접근 방법이다.
5) 반복적 모델
- 중분형 모형 : 전체 시스템을 작은 기능 단위로 나누어 개발하는 방식이다.
- 진화형 모형 : 핵심 부분을 개발한 후에 요구사항을 반영하여 점차 진화해나가는 방식이다.
6) 에자일
- 짧은 개발 주기를 가지고 고객의 피드백을 지속적으로 반복하며 반복적으로 개발하는 방식이다.
▶ KDD 분석 방법론
- 데이터베이스에서 의미 있는 지식을 탐색하는 데이터 마이닝 프로세스이다.
- 분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트 목표를 정확하게 설정하는 것이 핵심이다.
- 프로세스 순서 주의
1) 데이터 선택
- 원시 데이터(Raw Data)나 DB에서 필요한 데이터를 선택한다.
2) 전처리
- 데이터에 포함되어 있는 잡음, 이상값, 결측치 등을 식별하고 필요시 제거하며 데이터를 가공한다.
3) 변환
- 데이터 마이닝을 효율적으로 할 수 있도록 데이터를 변경하는 작업이다.
- 분석 목적에 맞는 변수를 선택한다.
- 데이터의 차원을 축소한다.
4) 마이닝
- 분석 목적에 맞는 데이터 마이닝 기법 및 알고리즘을 선택한다.
- 데이터의 패턴을 찾거나 분류하거나 예측하는 등의 데이터 마이닝 작업을 시행한다.
5) 결과 평가
- 분석 결과에 대한 해석과 평가를 하여 활용한다.
- 결과가 충족하지 않으면 절차를 반복적으로 수행한다.
▶ CRISP-DM 분석 방법론
- 단계간의 피드백을 통해 단계별로 완성도를 높인다.
- 프로세스 순서 주의
1) 업무 이해
- 비즈니스 관점 프로젝트의 목적과 요구사항을 이해하기 위한 단계이다.
- 업무 목적 파악 → 상황 파악 → 목표 설정 → 프로젝트 계획 수립
2) 데이터 이해
- 분석을 위해 초기 데이터를 수집하는 단계이다.
- 데이터 품질에 대한 문제점을 식별하거나 숨겨진 인사이트를 발견한다.
- 데이터 기술을 분석
- EDA (탐색적 데이터 분석)
- 데이터 품질 분석
3) 데이터 준비
- KDD의 전처리나 변환 과정과 동일하다.
- 수집된 데이터에서 분석 기법에 적합한 데이터셋을 편성하는 단계이다.
- 시간이 많이 든다.
- 데이터 선택, 정체, 통합, 포멧팅
4) 모델링
- 다양한 모델링 기법과 알고리즘을 선택하는 단계이다.
- 모델링 과정에서 사용되는 파라미터를 최적화한다.
- 문제를 발견하면 대응 방안을 마련한다.
- 데이터 분석 방법론과 머신러닝을 이용해서 수행 모델을 만들거나 데이터를 분할한다.
- 테스트 계획 설계
- 모델링 작성 및 평가
5) 평가
- 모델링에서 얻은 모델이 프로젝트의 목적에 부합하는지 평가하는 단계이다.
- 분석결과 평가
- 모델링 과정 평가
- 모델 적용성 평가
6) 전개
- 완성된 모델을 실제 업무에 적응하기 위해 계획을 수립하는 단계이다.
- 전개 계획
- 모니터링 및 유지보수 계획 수립
- 프로젝트 종료 보고서 작성
- 프로젝트 리뷰
- 평가 → 전개에서 위대한 실패(업무 이해로 다시 돌아가는 것) 발생 가능
▶ SEMMA 분석 방법론
1) Sample
- 분석 대상의 데이터 추출
2) Explore
- 탐색 및 오류를 확인
3) Modify
- 데이터 변환
4) Model
- 알고리즘 적용
5) Access
- 모델 평가 및 검증
▶ 빅데이터 분석 방법론
1) 분석 기획 (Planning)
- 비즈니스 이해
- 분석 대상인 업무 도메인을 이해하기 위해 업무 메뉴얼이나 자료 조사로 프로젝트의 방향을 설정한다.
- 프로젝트 범위 설정
- 프로젝트 목적에 부합하는 범위를 명확히 설정한다.
- 관계자들의 이해를 일치시키기 위해 구조화된 프로젝트 정의서인 SOW(Statement of Works)를 작성한다.
- 프로젝트 정의
- 프로젝트 정의서를 작성한다.
- 목표를 명확화하기 위해 모델의 이미지 및 평가 기준을 작성한다.
- 프로젝트 수행 계획 수립
- 프로젝트 수행 계획서 작성
- WBS(작업 분할 구조도 / 업무 분업 구조)를 작성한다.
- 프로젝트 위험계획 수립
- 프로젝트를 진행하면서 발생 가능한 모든 위험을 식별한다.
- 회피(Avoid), 전이(Transfer), 완화(Mitigate), 수용(Accept)
- 회피 : 계획 변경, 원인 제거
- 전이 : 보험, 사후 보증
- 완화 : 용인이 가능한 임계치까지 절감하기 위한 노력
- 수용 : 적극적 수용(긴급대책), 소극적 수용(아무것도 하지 않음), Fallback plan(위험 영향이 클 경우)
2) 데이터 준비 (Preparing)
- 필요 데이터 정리
- 데이터 스토어 설계 : 정형, 비정형, 반정형 데이터에 따른 효율적인 저장소를 설계한다.
- 데이터 수집 및 정합성 점검
3) 데이터 분석 (Analyzing)
- 분석용 데이터 준비
- 추가적인 데이터 확보가 필요할 시, 데이터 준비 단계로 다시 진행한다.
- 의사 코드
- 일반적인 언어로 프로그래밍 언어의 알고리즘을 유사한 형식으로 써 놓은 것이다.
- 텍스트 분석
- 탐색적 분석
- 모델링
- 모델 평가 및 검증
- 성능이 저조한 모델은 튜닝 작업을 수행한다.
- 모델 적용 및 운영방안 수립
4) 시스템 구현 (Developing)
- 설계 및 구현
- 시스템 테스트 및 운영
5) 평가 및 전개 (Deploying)
- 모델 발전계획 수립
- 프로젝트 평가 및 보고
[분석 과제 도출 방법]
▶ 하향식 접근 방법
- 문제가 확실할 때 해결 방안을 찾기 위해 진행한다.
1) 문제 탐색
- 빠짐없이 문제를 도출하고 식별한다.
- 솔루션 보다는 가치에 초점을 두고 있다.
- 비즈니스 모델 캔버스의 단순화
- 9가지 영역에서 5가지 영역으로 단순화
- 5가지 영역 : 업무, 제품, 고객, 지원 인프라, 규제와 감시
- 관점
- 거시적 관점 : STEEP(사회, 기술, 경제, 환경, 정치)
- 경쟁자 확대 관점 : 대체자, 경쟁자, 신규 진잆자
- 시장의 니즈 탐색 관점 : 고객, 채널, 영향자
2) 문제 정의
- 식별된 비즈니스 문제를 데이터 분석 문제로 변환하여 정의하는 단계이다.
3) 해결 방안 탐색
- 어떤 데이터나 분석 시스템을 사용할 것인지 검토하는 단계이다.
- 기존 시스템 활용
- 시스템 고도화
- 인적 자원 확보
- 아웃소싱
4) 타당성 검토
- 경제적 타당성 : 비용대피 편익 분석 관점의 접근이 필요하다.
- 데이터 타당성 : 데이터 존재여부와 분석 역량이 필요하다.
- 기술적 타당성 : 역량 확보 방안을 사전에 수립한다.
▶ 상향식 접근 방법
- 문제의 정의 자체가 어려운 경우에 사용한다.
- 사물을 그대로 인식하는 What 관점으로 접근해야 한다.
- 주로 비지도 학습을 활용한다.
- 지도 학습
- 정답이 있는 데이터를 학습한다.
- 하향식 접근법
- 분류 분석, 회귀 분석, 의사결정 트리, KNN, SVM
- 강아지와 고양이에 대한 데이터를 학습시킨 후에 특정 데이터가 강아지인지, 고양이인지 찾아내는 방법
- 비지도 학습
- 정답이 없는 데이터를 학습한다.
- 상향식 접근법
- 군집 분석, 차원 축소, 연관 규칙 분석
- 강아지와 고양이의 이미지를 준 후에, 이 이미지가 강아지인지 고양이인지 찾아내는 방법
▶ 혼합 접근 방법
- 발산 단계 : 상향식 접근 방법으로서 가능한 방안들을 도출한다.
- 수렴 단계 : 하향식 접근 방법으로서 도출된 방안들을 분석한다.
▶ 디자인 싱킹(디자인 사고)
- 사용자의 공감으로 시작해서 아이디어를 발산하거나 수렴하는 과정을 통해 피드백으로 발전하는 과정이다.
- 절차 : 공감하기 → 문제정의 → 아이디어 도출 → 프로토타입 → 테스트
[분석 프로젝트 관리 방안]
▶ 분석 과제에서 고려해야 할 5가지 요소
- 데이터의 크기, 데이터의 속도, 데이터 복잡도, 분석 복잡도, 정확도와 정밀도
- 정확도(Accuracy)와 정밀도(Precision)은 Trade-Off 관계이다.
- 정확도가 높아지면 정밀도가 낮아지고, 정확도가 낮아지면 정밀도가 높아진다.
▶ 프로젝트 관리 지식 체계의 10가지 영역
- 통합, 범위, 시간(일정), 원가, 품질, 인적 자원, 의사소통, 리스트(위험), 조달(아웃소싱), 이해관계자
[2. 분석 마스터 플랜]
- 일반적인 ISP 방법론을 활용하되, 데이터 분석 기획의 특성을 고려하여 수행한다.
- 데이터 분석 과제를 빠짐없이 도출한 후에 과제의 우선순위를 정하고 단기 및 중/장기로 나누어 계획을 수립하는 것이다.
▶ IT 프로젝트의 우선순위 선정 기준
- 중장기 마스터 플랜을 수립하기 위하여 ISP를 활용한다.
- ISP(Information Strategy Panning) : 정보 전략 계획
- 조직의 내/외부 환경을 분석하여 기회나 문제점을 도출하고 사용자의 요구사항을 분석하여 시스템 구축의 우선 순위를 결정하는 등, 중장기 마스터 플랜을 수립하는 절차이다.
1) 전략적 중요도
- 전략적 필요성
- 시급성
2) 실행 용이성
- 투자 용이성
- 기술 용이성
▶ 데이터 분석 프로젝트의 우선순위 선정 기준
- 과제 우선순위 사분면 매트릭스
- 난이도와 시급성을 기준으러 분석 과제를 4가지로 구분하여 우선순위를 결정한다.
- 시급성 관점 : 비즈니스 효과, Value
- 난이도 관점 : 투자비용 요소, Volume, Variety, Velocity
▶ 분석 거버넌스 체계
- 기업에서 의사 결정을 위해 데이터를 분석하고 활용하기 위한 관리 체계이다.
▶ 분석 거버넌스 체계 구성 요소
- 조직, 프로세스, 시스템, 데이터, 분석관련 교육 및 마인드 육성 체계
▶ 데이터 분석 수준 진단
- 분석 준비도
- 기업의 데이터 분석 도입의 수준을 파악하기 위해 6가지 영역에서 진단하는 방법이다.
1) 분석적 업무 파악
- 발생한 사실 분석 업무
- 예측 분석 업무
- 시물레이션 분석 업부
- 분석 업무 정기적 개선
2) 인력 및 조직
- 분석전문가 직무 존재
- 분석전문가 교육훈련 프로그램
- 관리자들의 기본적 분석 능력
- 전사 분석업무 총괄 조직 존재
- 경영진 분석업무 이해 능력
3) 분석 기법
- 업무별 적합한 분석기법 사용
- 분석업무 도입 방법론
- 분석기법 라이브러리
- 분석기법 효과성 평가
- 분석기법 정기적 개선
4) 분석 데이터
- 분석업무를 위한 데이터 충분성
- 분석업무를 위한 데이터 신뢰성
- 분석업무를 위한 데이텆 ㅓㄱ시성
- 비구조적 데이터 관리
- 외부 데이터 활용 체계
- 마스터페이지 관리(MDM)
5) 분석 문화
- 사실에 근거한 의사결정
- 관리자의 데이터 중시
- 회의 등에서 데이터 활용
- 경영진의 직관보다 데이터
- 데이터 공유 및 협업 문화
6) IT 인프라
- 운영시스템 데이터 통합
- EAL, ETL 등 데이터 유통 체계
- 분석전용 서버 및 분석환경
- 빅데이터 분석환경
- 통계분석 환경
- 비주얼분석 환경
- 분석 성숙도
- CMMI 모델 기반
1) 도입
2) 활용
3) 확산
4) 최적화
▶ 데이터 분석 성숙도 모델
▶ 분석 지원 인프라 방안 수립
- 확장성을 고려한 플랫폼 구조를 적용한다.
- 분석 플랫폼 구성요소
1) 광의의 분석 플랫폼
- 분석 서비스 제공 엔진
- 분석 어플리케이션
- 분석 서비스 API
- 하드웨어
2) 협의의 분석 플랫폼
- 데이터 처리 프레임워크
- 분석엔진
- 분석 라이브러리
▶ 데이터 거버넌스
- 데이터 표준 및 정책에 따라 데이터를 생성/변경하고 데이터의 품질 보안 등, 전사적 차원의 데이터 관리 체계를 구축하는 것을 말한다.
- 데이터가 필요한 사람에게 적시에 제공되도록 체계를 확립하는 것이다.
- 구성 요소 : 원칙, 조직, 프로세스
- 중요 관리 대상
- 마스터 데이터 : 자료 처리에 기준이 되는 자료이다.
- 메타데이터 : 다른 데이터를 설명해주는 데이터이다.
- 데이터 사전 : DB에 저장된 정보를 요약한 것이다.
▶ 데이터 거버넌스 체계
1) 데이터 표준화
- 데이터 표준 용어 설정
- 명명규칙 수립
- 메타데이터 구축
- 데이터 사전 구축
2) 데이터 관리 체계
- 메타데이터와 데이터 사전의 관리 원칙 수립
3) 데이터 저장소 관리
- 메타데이터 및 표준 데이터를 관리하기 위한 전사 차원의 저장소 구성
4) 표준화 활동
- 데이터 거버넌스 체계 구축 후 표준 준수 여부를 주기적으로 점검, 모니터링
▶ 빅데이터 거버넌스
- 데이터 거버넌스 체계 + 빅데이터 효율적 관리, 데이터 최적화, 정보 보호, 데이터 카테고리 관리 책임자 지정 등
▶ 조직 및 인력방안 수립 (DoSCoE : 분석조직)
1) 집중 구조
- 조직 내 별도의 독립적인 전담 조직 구성
- 전략적 중요도에 따라 우선 순위를 정해서 추진함
- 중복 업무 가능성 존재
2) 기능 구조
- 별도 분석 조직 없이 해당 부서에서 직접 분석
- 전사적 관점에서 핵심 분석이 어려움
- 특정 업무부서에 국한된 분석 수행 가능성이 높음
- 중복 업무 가능성 존재
3) 분산 구조
- 분석 조직 인력을 협업 부서에 배치
- 전사 차원에서 분석 과제의 우선 순위를 선정해 수행 가능
- 신속한 실무 적용 가능
→ 출처
https://blog.naver.com/pcy7805/223010920786
[ADsP]데이터 분석 준 전문가 2과목 핵심 요약 첫째.
안녕하셔요. 카페있는데 밖에 비가 와서 밖으로 못나가는 상황이 됐습니다. (현재 오후 11시 30분) 강제로 ...
blog.naver.com
'자격증 > ADsP' 카테고리의 다른 글
[ADsP 요약 정리]1과목 - 데이터 이해 (2) | 2025.04.10 |
---|