[1. 데이터 마트]
▶ 데이터 마트(DM)
- 데이터 웨어하우스의 한 분야로 특정 목적을 위해 사용
- 소규모 데이터 웨어하우스
▶ 요약변수와 파생변수
- 데이터마트에 데이터들을 올리기 위해 필요한 변수
1) 요약변수
- 데이터를 집계하여 분석을 간소화하는 데 사용
- 데이터의 전반적인 패턴을 통계적 대표값으로 요약하는 역할
- 수집된 정보를 종합한 변수
- 재활용성이 높음
1-2) 주요 특징
- 대표값 계산
- 평균, 합계, 최소값, 최대값, 분산, 표준편차 등의 요약값 생성
- ex) 고객별 연간 구매액 평균, 전체 중 특정 제품의 구매 비율
- 데이터 간소화
- 데이터를 요약하여 분석 속도와 효율성 향상
- 활용성
- 데이터 마트와 같은 집계 데이터 구조에서 활용
2) 파생변수
- 기존 데이터를 가공하거나 변환하여 새로운 정보를 생성하는 변수
- 분석 목적에 맞춰 데이터를 변형하여 의미 있는 정보 도출 가능
- 의미를 부여한 변수
- 논리적 타당성 필요
2-2) 주요 특징
- 데이터 변환
- 원본 데이터를 활용하여 새로운 정보를 도출
- 관계 확장
- 두 변수 간의 상호작용 효과를 반영하는 변수 생성 가능
- 다양한 방식
- 변수 조합, 데이터 분류, 시간 및 날짜 데이터 변환 등
[2. 접촉값과 이상값 검색]
▶ EDA (탐색적 자료 분석)
- 데이터의 의미를 찾기 위해 통계, 시각화를 통해 파악
▶ EDA의 4가지 주제
1) 저항성의 강조
- 자료 변동에 민감하지 않음
2) 잔차 계산
- 값들이 주경향으로부터 얼마나 벗어나 있는지 확인하는 척도
3) 자료변수의 재표현
- 원래 변수를 적닿안 척도로 변환
4) 그래프를 통한 현시성
- 시각화를 통하여 효율적으로 파악
▶ 결측값 처리
- 존재하지 않는 데이터
- null / NA 로 표시
1) 완전분석법
- 결측값이 있는 데이터를 삭제
2) 평균 대처법
- 단순 평균으로 대치
3) 회귀 대처법
- 회귀분석의 결과로 대치
4) 단순 확률 대치법
- 확률적으로 선택하여 대치
- Nearest Neighbor : 바로 가까운 응답으로 대체
- Hot-Deck : 현재 데이터 셋에서 비슷한 성향으로 대체
- Cold-Deck : 유사한 외부 출처에서 비슷한 성향으로 대체
5) 다중 대치법
- 여러 번 대치
- 대치 > 분석 > 결합
▶ 이상값 처리
- 극단적으로 크거나 적은 값
- 의미 있는 데이터일 가능성도 있음
- 이상값을 항상 제거하는 것은 아님
1) ESD (Extreme Studentized Deviation)
- 평균으로부터 표준편차의 3배 이상 넘어가는 데이터는 이상값으로 판단

2) 사분위수
- Q1 ~ 1.5IQR보다 작거나, Q3 + 1.5IQR보다 크면 이상값으로 판단
- 최솟값, 1~3사분위 값, 최댓값 등을 표현하며 평균값은 표현하지 않음

3) Z-Score
- 데이터를 정규화 후, 일정 임계 값을 초과할 경우 이상값으로 판단
4) DBScan
- 밀도를 이용하여 밀도가 적은 부분의 데이터를 이상값으로 판단
→ 출처
#38 요약변수와 파생변수 (데이터 전처리 >.. : 네이버블로그
#38 요약변수와 파생변수 (데이터 전처리 > 분석변수 처리)
요약변수(Aggregate Variable)와 파생변수(Derived Variable)의 개념과 차이를 정리해 보겠습니다. 본 ...
blog.naver.com
'자격증 > ADsP' 카테고리의 다른 글
[ADsP 요약정리]3과목 2. 통계 분석-표본 조사 (2) | 2025.05.07 |
---|---|
[ADsP 요약 정리]2과목 - 데이터분석 기획 (14) | 2025.04.19 |
[ADsP 요약 정리]1과목 - 데이터 이해 (2) | 2025.04.10 |