본문 바로가기

자격증/ADsP

[ADsP 요약정리]3과목 1. 데이터 마트

반응형

[1. 데이터 마트]

▶ 데이터 마트(DM)

- 데이터 웨어하우스의 한 분야로 특정 목적을 위해 사용

- 소규모 데이터 웨어하우스

 

▶ 요약변수와 파생변수

- 데이터마트에 데이터들을 올리기 위해 필요한 변수

 

1) 요약변수

데이터를 집계하여 분석을 간소화하는 데 사용

데이터의 전반적인 패턴을 통계적 대표값으로 요약하는 역할

- 수집된 정보를 종합한 변수

- 재활용성이 높음

 

1-2) 주요 특징

- 대표값 계산

  • 평균, 합계, 최소값, 최대값, 분산, 표준편차 등의 요약값 생성
  • ex) 고객별 연간 구매액 평균, 전체 중 특정 제품의 구매 비율

- 데이터 간소화

  • 데이터를 요약하여 분석 속도와 효율성 향상

- 활용성

  • 데이터 마트와 같은 집계 데이터 구조에서 활용

2) 파생변수

- 기존 데이터를 가공하거나 변환하여 새로운 정보를 생성하는 변수

- 분석 목적에 맞춰 데이터를 변형하여 의미 있는 정보 도출 가능

- 의미를 부여한 변수

- 논리적 타당성 필요

 

2-2) 주요 특징

- 데이터 변환

  • 원본 데이터를 활용하여 새로운 정보를 도출

- 관계 확장

  • 두 변수 간의 상호작용 효과를 반영하는 변수 생성 가능

- 다양한 방식

  • 변수 조합, 데이터 분류, 시간 및 날짜 데이터 변환 등
 
 

[2. 접촉값과 이상값 검색]

▶ EDA (탐색적 자료 분석)

- 데이터의 의미를 찾기 위해 통계, 시각화를 통해 파악

▶ EDA의 4가지 주제

 

1) 저항성의 강조

- 자료 변동에 민감하지 않음

 

2) 잔차 계산

- 값들이 주경향으로부터 얼마나 벗어나 있는지 확인하는 척도

 

3) 자료변수의 재표현

- 원래 변수를 적닿안 척도로 변환

 

4) 그래프를 통한 현시성

- 시각화를 통하여 효율적으로 파악

 

▶ 결측값 처리

- 존재하지 않는 데이터

- null / NA 로 표시

 

1) 완전분석법

- 결측값이 있는 데이터를 삭제

 

2) 평균 대처법

- 단순 평균으로 대치

 

3) 회귀 대처법

- 회귀분석의 결과로 대치

 

4) 단순 확률 대치법

- 확률적으로 선택하여 대치

  • Nearest Neighbor : 바로 가까운 응답으로 대체
  • Hot-Deck : 현재 데이터 셋에서 비슷한 성향으로 대체
  • Cold-Deck : 유사한 외부 출처에서 비슷한 성향으로 대체

5) 다중 대치법

- 여러 번 대치

- 대치 > 분석 > 결합

 

▶ 이상값 처리

- 극단적으로 크거나 적은 값

- 의미 있는 데이터일 가능성도 있음

- 이상값을 항상 제거하는 것은 아님

 

1) ESD (Extreme Studentized Deviation)

- 평균으로부터 표준편차의 3배 이상 넘어가는 데이터는 이상값으로 판단

2) 사분위수

- Q1 ~ 1.5IQR보다 작거나, Q3 + 1.5IQR보다 크면 이상값으로 판단

- 최솟값, 1~3사분위 값, 최댓값 등을 표현하며 평균값은 표현하지 않음

3) Z-Score

- 데이터를 정규화 후, 일정 임계 값을 초과할 경우 이상값으로 판단

 

4) DBScan

- 밀도를 이용하여 밀도가 적은 부분의 데이터를 이상값으로 판단


→  출처

 

#38 요약변수와 파생변수 (데이터 전처리 >.. : 네이버블로그

 

#38 요약변수와 파생변수 (데이터 전처리 > 분석변수 처리)

요약변수(Aggregate Variable)와 파생변수(Derived Variable)의 개념과 차이를 정리해 보겠습니다. 본 ...

blog.naver.com

 

ADsP 요약강의

 

 

 

반응형