E_Ji

[ADsP 요약 정리]2과목 - 데이터분석 기획 본문

자격증/ADsP

[ADsP 요약 정리]2과목 - 데이터분석 기획

E_Ji 2025. 4. 19. 19:28
반응형

[1. 데이터분석 기획의 이해]

▶ 데이터 분석의 정의

- 어떤 목표를 달성하기 위해 어떤 데이터를 가지고 어떤 방식으로 수행할지에 대한 계획을 수립하는 작업이다.

- 실제 분석을 수행하기 전에 분석을 수행할 과제의 정의 및 의도했던 결과를 도출할 수 있는 방안을 사전에 계획하는 작업이다.

 

  의미 있는 분석을 위해 분석가에게 요구되는 역량

- 해당 문제 영역에 대한 전문성

- 통계학적 지식을 활용한 분석 능력

- 데이터 프로그래밍 기술

[분석 기획 방향성 도출]

분석 대상과 방법

- 분석 방법과 대상에 따라 4 가지 유형으로 나눌 수 있다.

 

1) 최적화 (Optimization)

  • 분석 대상과 분석 방법을 이해하고 현제의 문제를 최적화한 형태로 수행한다.
  • 내가 먹고 싶은 것을 알고(Known) 요리 방법도 안다면(Known) 그 방법을 "최적화"해야 한다.

2) 솔루션 (Solution)

  • 분석 대상은 알지만 분석 방법을 알지 못할 때, 해결을 위한 솔루션을 찾는 방식으로 문제를 해결한다.
  • 라면(Known) 을 먹고 싶은데 끓여야 할지, 튀겨야 할지 모른다면(UnKnown) 문제의 해결을 위해 "솔루션"을 찾아야 한다.

3) 통찰 (Insight)

  • 분석 대상은 불분명하지만 분석 방법은 알고 있을 때 인사이트를 도출한다.
    • 인사이트를 도출한다는 것은 가장 효율적인 방식으로 문제를 해결하는 것이라고 할 수 있다.
  • 요리를 할 수는 있지만(Known) 내가 무엇을 먹고 싶은지 모른다면(UnKnown) 내가 무엇을 좋아하는지 "통찰"해야 한다.

4) 발견 (Discovery)

  • 분석 대상과 방법을 전부 모른다면 발견을 통해 분석 대상 자체를 새롭게 도출한다.
  • 음식을 먹고 싶은데 무엇을 먹고 싶은지도 모르고(UnKnown) 어떻게 요리해야 되는지도 모른다면(UnKnown) 일단 음식을 "발견"해야 한다.

티스토리는 표 서식 기능이 뭐 이리 없는지... 내가 못 찾나.

분석 방법 분석 대상
Known UnKnown
Known 최적화
(Optimization)
통찰
(Insight)
Un-Known 솔루션
(Solution)
발견
(Discovery)

 

 분석 기획 방안

 

1) 과제 중심적 해결

  • 음식점에서 음식에 벌레가 나왔다는 컴플레인이 나온다면 최대한 빠르게 이 문제를 해결해야 한다.
  • 속도(Speed)가 빠르게(Quick) 문제를 해결(Problem Solving)해야 한다.

2) 장기적 마스터 플랜

  • 음식점에서 위생 관련 문제가 지속적으로 발생한다면 이를 해결하기 위해 근본적인 원인을 찾아 해결해야 한다.
  • 정확하고(Accuracy) 효율적으로(Deploy) 오랜 기간 동안(Long Term View) 문제를 정의(Problem Definition)해야 한다.
  과제 중심적 해결 장기적 마스터 플랜
목적 빠르게 해결 문제의 근본적 원인 해결
1차 목표 Speed & Test Accuracy & Deploy
과제의 유형 Quick & Win Long Term View
접근 방식 Problem Solving Problem Definition

 

 분석 기획 시 고려사항

1) 가용 데이터

  • 분석의 기본이 되는 데이터를 확보 및 파악한다.
  • 유형에 따라 솔루션이 다르기에 유형을 먼저 분석해야 한다.

2) 적절한 유스케이스 탐색

  • 기존에 잘 구현되어 있는 유사 시나리오를 사용한다.
  • 유사분석 시나리오나 솔루션이 있다면 이를 최대한 활용해야 한다.

3) 장애요소에 대한 사전계획 수립

  • 조직의 역량으로 내체화한다.
  • 조직 내에서 일회성이 아니라 지속적으로 교육할 수 있는 활동 방안을 마련해야 한다.

의사 결정을 가로막는 요소

- 고정 관념

- 편향된 생각

- 프레이밍 효과 : 동일한 상황임에도 개인의 판단이나 결정이 달라진다.

[분석 방법론]

- 효과적인 데이터 분석이 기업에 잘 정착하기 위해서는 데이터 분석을 체계화하는 절차와 정리된 데이터 분석 방법론이 필요하다.

 

 분석방법론의 구성 요소

1) 절차

2) 방법

3) 도구와 기법

4) 템플릿과 산출물

 

분석 방법론의 모델

1) 계층적 프로세스 모델

  • 단계 → 태스크   스텝

2) 폭포수 모델

  • 위에서 아래로 떨어지는 Top_Dowm 형식으로 진행한다.
  • 단계를 순차적으로 진행하는 방법으로, 이전 단계가 완료되어야만 다음 단계로 넘어간다.(하향식 진행)
  • 문제점이 발견되면 전 단계로 돌아간다.

3) 나선형 모델

  • 여러 개발 과정을 거쳐서 점진적으로 완성하는 방법이다.
  • 위험요소를 제거하는 것에 초점이 맞춰져 있다.

4) 프로토타입 모델

  • 일부분을 우선 개발하고 나중에 보완하는 방식이다.
  • 사용자의 요구사항이나 데이터를 명확하게 파악하기 어려운 상황에서 사용한다.
  • 일단 분석하고 결과를 확인하며 반복적으로 개선한다.
  • 신속하게 해결책을 제시해주는 상향식 접근 방법이다.

5) 반복적 모델

  • 중분형 모형 : 전체 시스템을 작은 기능 단위로 나누어 개발하는 방식이다.
  • 진화형 모형 : 핵심 부분을 개발한 후에 요구사항을 반영하여 점차 진화해나가는 방식이다.

6) 에자일

  • 짧은 개발 주기를 가지고 고객의 피드백을 지속적으로 반복하며 반복적으로 개발하는 방식이다.

▶ KDD 분석 방법론

- 데이터베이스에서 의미 있는 지식을 탐색하는 데이터 마이닝 프로세스이다.

- 분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트 목표를 정확하게 설정하는 것이 핵심이다.

- 프로세스 순서 주의

 

1) 데이터 선택

  • 원시 데이터(Raw Data)나 DB에서 필요한 데이터를 선택한다.

2) 전처리

  • 데이터에 포함되어 있는 잡음, 이상값, 결측치 등을 식별하고 필요시 제거하며 데이터를 가공한다.

3) 변환

  • 데이터 마이닝을 효율적으로 할 수 있도록 데이터를 변경하는 작업이다.
  • 분석 목적에 맞는 변수를 선택한다.
  • 데이터의 차원을 축소한다.

4) 마이닝

  • 분석 목적에 맞는 데이터 마이닝 기법 및 알고리즘을 선택한다.
  • 데이터의 패턴을 찾거나 분류하거나 예측하는 등의 데이터 마이닝 작업을 시행한다.

5) 결과 평가

  • 분석 결과에 대한 해석과 평가를 하여 활용한다.
  • 결과가 충족하지 않으면 절차를 반복적으로 수행한다.

▶ CRISP-DM 분석 방법론

- 단계간의 피드백을 통해 단계별로 완성도를 높인다.

- 프로세스 순서 주의

 

1) 업무 이해

  • 비즈니스 관점 프로젝트의 목적과 요구사항을 이해하기 위한 단계이다.
  • 업무 목적 파악  상황 파악  목표 설정   프로젝트 계획 수립

2) 데이터 이해

  • 분석을 위해 초기 데이터를 수집하는 단계이다.
  • 데이터 품질에 대한 문제점을 식별하거나 숨겨진 인사이트를 발견한다.
  • 데이터 기술을 분석
  • EDA (탐색적 데이터 분석)
  • 데이터 품질 분석

3) 데이터 준비

  • KDD의 전처리나 변환 과정과 동일하다.
  • 수집된 데이터에서 분석 기법에 적합한 데이터셋을 편성하는 단계이다.
  • 시간이 많이 든다.
  • 데이터 선택, 정체, 통합,  포멧팅

4) 모델링

  • 다양한 모델링 기법과 알고리즘을 선택하는 단계이다.
  • 모델링 과정에서 사용되는 파라미터를 최적화한다.
  • 문제를 발견하면 대응 방안을 마련한다.
  • 데이터 분석 방법론과 머신러닝을 이용해서 수행 모델을 만들거나 데이터를 분할한다.
  • 테스트 계획 설계
  • 모델링 작성 및 평가

5) 평가

  • 모델링에서 얻은 모델이 프로젝트의 목적에 부합하는지 평가하는 단계이다.
  • 분석결과 평가
  • 모델링 과정 평가
  • 모델 적용성 평가

6) 전개

  • 완성된 모델을 실제 업무에 적응하기 위해 계획을 수립하는 단계이다.
  • 전개 계획
  • 모니터링 및 유지보수 계획 수립
  • 프로젝트 종료 보고서 작성
  • 프로젝트 리뷰
  • 평가 전개에서 위대한 실패(업무 이해로 다시 돌아가는 것) 발생 가능

 

 SEMMA 분석 방법론

 

1) Sample

  • 분석 대상의 데이터 추출

2) Explore

  • 탐색 및 오류를 확인

3) Modify

  • 데이터 변환

4) Model

  • 알고리즘 적용

5) Access

  • 모델 평가 및 검증

▶ 빅데이터 분석 방법론

 

1) 분석 기획 (Planning)

  • 비즈니스 이해
    • 분석 대상인 업무 도메인을 이해하기 위해 업무 메뉴얼이나 자료 조사로 프로젝트의 방향을 설정한다.
  • 프로젝트 범위 설정
    • 프로젝트 목적에 부합하는 범위를 명확히 설정한다.
    • 관계자들의 이해를 일치시키기 위해 구조화된 프로젝트 정의서인 SOW(Statement of Works)를 작성한다.
  • 프로젝트 정의
    • 프로젝트 정의서를 작성한다.
    • 목표를 명확화하기 위해 모델의 이미지 및 평가 기준을 작성한다.
  • 프로젝트 수행 계획 수립
    • 프로젝트 수행 계획서 작성
    • WBS(작업 분할 구조도 / 업무 분업 구조)를 작성한다.
  • 프로젝트 위험계획 수립
    • 프로젝트를 진행하면서 발생 가능한 모든 위험을 식별한다.
    • 회피(Avoid), 전이(Transfer), 완화(Mitigate), 수용(Accept)
      • 회피 : 계획 변경, 원인 제거
      • 전이 : 보험, 사후 보증
      • 완화 : 용인이 가능한 임계치까지 절감하기 위한 노력
      • 수용 : 적극적 수용(긴급대책), 소극적 수용(아무것도 하지 않음), Fallback plan(위험 영향이 클 경우)

2) 데이터 준비 (Preparing)

  • 필요 데이터 정리
  • 데이터 스토어 설계 : 정형, 비정형, 반정형 데이터에 따른 효율적인 저장소를 설계한다.
  • 데이터 수집 및 정합성 점검

3) 데이터 분석 (Analyzing)

  • 분석용 데이터 준비
    • 추가적인 데이터 확보가 필요할 시, 데이터 준비 단계로 다시 진행한다.
  • 의사 코드
    • 일반적인 언어로 프로그래밍 언어의 알고리즘을 유사한 형식으로 써 놓은 것이다.
  • 텍스트 분석
  • 탐색적 분석
  • 모델링
  • 모델 평가 및 검증
    • 성능이 저조한 모델은 튜닝 작업을 수행한다.
  • 모델 적용 및 운영방안 수립

4) 시스템 구현 (Developing)

  • 설계 및 구현
  • 시스템 테스트 및 운영

5) 평가 및 전개 (Deploying)

  • 모델 발전계획 수립
  • 프로젝트 평가 및 보고

[분석 과제 도출 방법]

▶ 하향식 접근 방법

- 문제가 확실할 때 해결 방안을 찾기 위해 진행한다.

 

1) 문제 탐색

- 빠짐없이 문제를 도출하고 식별한다.

- 솔루션 보다는 가치에 초점을 두고 있다.

  • 비즈니스 모델 캔버스의 단순화
    • 9가지 영역에서 5가지 영역으로 단순화
    • 5가지 영역 : 업무, 제품, 고객, 지원 인프라, 규제와 감시
  • 관점
    • 거시적 관점 : STEEP(사회, 기술, 경제, 환경, 정치)
    • 경쟁자 확대 관점 : 대체자, 경쟁자, 신규 진잆자
    • 시장의 니즈 탐색 관점 : 고객, 채널, 영향자

2) 문제 정의

  • 식별된 비즈니스 문제를 데이터 분석 문제로 변환하여 정의하는 단계이다.

3) 해결 방안 탐색

  • 어떤 데이터나 분석 시스템을 사용할 것인지 검토하는 단계이다.
  • 기존 시스템 활용
  • 시스템 고도화
  • 인적 자원 확보
  • 아웃소싱

4) 타당성 검토

  • 경제적 타당성 : 비용대피 편익 분석 관점의 접근이 필요하다.
  • 데이터 타당성 : 데이터 존재여부와 분석 역량이 필요하다.
  • 기술적 타당성 : 역량 확보 방안을 사전에 수립한다.

▶ 상향식 접근 방법

- 문제의 정의 자체가 어려운 경우에 사용한다.

- 사물을 그대로 인식하는 What 관점으로 접근해야 한다.

- 주로 비지도 학습을 활용한다.

  • 지도 학습
    • 정답이 있는 데이터를 학습한다.
    • 하향식 접근법
    • 분류 분석, 회귀 분석, 의사결정 트리, KNN, SVM
    • 강아지와 고양이에 대한 데이터를 학습시킨 후에 특정 데이터가 강아지인지, 고양이인지 찾아내는 방법
  • 비지도 학습
    • 정답이 없는 데이터를 학습한다.
    • 상향식 접근법
    • 군집 분석, 차원 축소, 연관 규칙 분석
    • 강아지와 고양이의 이미지를 준 후에, 이 이미지가 강아지인지 고양이인지 찾아내는 방법

▶ 혼합 접근 방법

- 발산 단계 : 상향식 접근 방법으로서 가능한 방안들을 도출한다.

- 수렴 단계 : 하향식 접근 방법으로서 도출된 방안들을 분석한다.

 

▶ 디자인 싱킹(디자인 사고)

- 사용자의 공감으로 시작해서 아이디어를 발산하거나 수렴하는 과정을 통해 피드백으로 발전하는 과정이다.

- 절차 : 공감하기   문제정의  아이디어 도출   프로토타입  테스트

 

[분석 프로젝트 관리 방안]

▶ 분석 과제에서 고려해야 할 5가지 요소

- 데이터의 크기, 데이터의 속도, 데이터 복잡도, 분석 복잡도, 정확도와 정밀도

  • 정확도(Accuracy)와 정밀도(Precision)은 Trade-Off 관계이다.
    • 정확도가 높아지면 정밀도가 낮아지고, 정확도가 낮아지면 정밀도가 높아진다.

▶ 프로젝트 관리 지식 체계의 10가지 영역

- 통합, 범위, 시간(일정), 원가, 품질, 인적 자원, 의사소통, 리스트(위험), 조달(아웃소싱), 이해관계자

[2. 분석 마스터 플랜]

- 일반적인 ISP 방법론을 활용하되, 데이터 분석 기획의 특성을 고려하여 수행한다.

- 데이터 분석 과제를 빠짐없이 도출한 후에 과제의 우선순위를 정하고 단기 및 중/장기로 나누어 계획을 수립하는 것이다.

 

▶ IT 프로젝트의 우선순위 선정 기준

- 중장기 마스터 플랜을 수립하기 위하여 ISP를 활용한다.

  • ISP(Information Strategy Panning) : 정보 전략 계획
    • 조직의 내/외부 환경을 분석하여 기회나 문제점을 도출하고 사용자의 요구사항을 분석하여 시스템 구축의 우선 순위를 결정하는 등, 중장기 마스터 플랜을 수립하는 절차이다.

 

1) 전략적 중요도

  • 전략적 필요성
  • 시급성

2) 실행 용이성 

  • 투자 용이성
  • 기술 용이성

▶ 데이터 분석 프로젝트의 우선순위 선정 기준

- 과제 우선순위 사분면 매트릭스

  • 난이도와 시급성을 기준으러 분석 과제를 4가지로 구분하여 우선순위를 결정한다.
  • 시급성 관점 : 비즈니스 효과, Value
  • 난이도 관점 : 투자비용 요소, Volume, Variety, Velocity  

▶ 분석 거버넌스 체계

- 기업에서 의사 결정을 위해 데이터를 분석하고 활용하기 위한 관리 체계이다.

 

▶ 분석 거버넌스 체계 구성 요소

- 조직, 프로세스, 시스템, 데이터, 분석관련 교육 및 마인드 육성 체계

 

▶ 데이터 분석 수준 진단

- 분석 준비도

  • 기업의 데이터 분석 도입의 수준을 파악하기 위해 6가지 영역에서 진단하는 방법이다.

 

1) 분석적 업무 파악

  • 발생한 사실 분석 업무
  • 예측 분석 업무
  • 시물레이션 분석 업부
  • 분석 업무 정기적 개선

2) 인력 및 조직

  • 분석전문가 직무 존재
  • 분석전문가 교육훈련 프로그램
  • 관리자들의 기본적 분석 능력
  • 전사 분석업무 총괄 조직 존재
  • 경영진 분석업무 이해 능력

3) 분석 기법

  • 업무별 적합한 분석기법 사용
  • 분석업무 도입 방법론
  • 분석기법 라이브러리
  • 분석기법 효과성 평가
  • 분석기법 정기적 개선

4) 분석 데이터

  • 분석업무를 위한 데이터 충분성
  • 분석업무를 위한 데이터 신뢰성
  • 분석업무를 위한 데이텆 ㅓㄱ시성
  • 비구조적 데이터 관리
  • 외부 데이터 활용 체계
  • 마스터페이지 관리(MDM)

5) 분석 문화

  • 사실에 근거한 의사결정
  • 관리자의 데이터 중시
  • 회의 등에서 데이터 활용
  • 경영진의 직관보다 데이터
  • 데이터 공유 및 협업 문화

6) IT 인프라

  • 운영시스템 데이터 통합
  • EAL, ETL 등 데이터 유통 체계
  • 분석전용 서버 및 분석환경
  • 빅데이터 분석환경
  • 통계분석 환경
  • 비주얼분석 환경

- 분석 성숙도

  • CMMI 모델 기반

1) 도입

2) 활용

3) 확산

4) 최적화

▶ 데이터 분석 성숙도 모델

▶ 분석 지원 인프라 방안 수립

- 확장성을 고려한 플랫폼 구조를 적용한다.

- 분석 플랫폼 구성요소

1) 광의의 분석 플랫폼

  • 분석 서비스 제공 엔진
  • 분석 어플리케이션
  • 분석 서비스 API
  • 하드웨어

2) 협의의 분석 플랫폼

  • 데이터 처리 프레임워크
  • 분석엔진
  • 분석 라이브러리

▶ 데이터 거버넌스

- 데이터 표준 및 정책에 따라 데이터를 생성/변경하고 데이터의 품질 보안 등, 전사적 차원의 데이터 관리 체계를 구축하는 것을 말한다.

- 데이터가 필요한 사람에게 적시에 제공되도록 체계를 확립하는 것이다.

- 구성 요소 : 원칙, 조직, 프로세스

- 중요 관리 대상

  • 마스터 데이터 : 자료 처리에 기준이 되는 자료이다.
  • 메타데이터 : 다른 데이터를 설명해주는 데이터이다.
  • 데이터 사전 : DB에 저장된 정보를 요약한 것이다.

▶ 데이터 거버넌스 체계

1) 데이터 표준화

  • 데이터 표준 용어 설정
  • 명명규칙 수립
  • 메타데이터 구축
  • 데이터 사전 구축

2) 데이터 관리 체계

  • 메타데이터와 데이터 사전의 관리 원칙 수립

3) 데이터 저장소 관리

  • 메타데이터 및 표준 데이터를 관리하기 위한 전사 차원의 저장소 구성

4) 표준화 활동

  • 데이터 거버넌스 체계 구축 후 표준 준수 여부를 주기적으로 점검, 모니터링

▶ 빅데이터 거버넌스

- 데이터 거버넌스 체계 + 빅데이터 효율적 관리, 데이터 최적화, 정보 보호, 데이터 카테고리 관리 책임자 지정 등

 

▶ 조직 및 인력방안 수립 (DoSCoE : 분석조직)

1) 집중 구조

  • 조직 내 별도의 독립적인 전담 조직 구성
  • 전략적 중요도에 따라 우선 순위를 정해서 추진함
  • 중복 업무 가능성 존재

2) 기능 구조

  • 별도 분석 조직 없이 해당 부서에서 직접 분석
  • 전사적 관점에서 핵심 분석이 어려움
  • 특정 업무부서에 국한된 분석 수행 가능성이 높음
  • 중복 업무 가능성 존재

3) 분산 구조

  • 분석 조직 인력을 협업 부서에 배치
  • 전사 차원에서 분석 과제의 우선 순위를 선정해 수행 가능
  • 신속한 실무 적용 가능

  출처

https://blog.naver.com/pcy7805/223010920786

 

[ADsP]데이터 분석 준 전문가 2과목 핵심 요약 첫째.

안녕하셔요. 카페있는데 밖에 비가 와서 밖으로 못나가는 상황이 됐습니다. (현재 오후 11시 30분) 강제로 ...

blog.naver.com

 

ADsP 요약 강의

 

 

 

반응형

'자격증 > ADsP' 카테고리의 다른 글

[ADsP 요약 정리]1과목 - 데이터 이해  (2) 2025.04.10