데이터 분석의 기초 (1) : 빅데이터 분석/데이터 수집/데이터 전처리
본 포스팅은 '데이터 분석' 의 기초 이론의 요약을 다룹니다.
* 인공지능의 분류
머신러닝 내에 딥러닝/지도학습/비지도학습 이 존재.
* 머신러닝 : 환경과의 상호작용을 통한 경험적 데이터를 기반 지식으로 모델을 자동으로 구축하고 스스로 성능을 향상하는 시스템.
* 딥러닝 : 머신러닝 분류 중 신경망 네트워크 학습 모델.
* 머신러닝의 분류
지도학습 | 비지도학습 | |
주관 | 사람의 개입 | 컴퓨터의 기계학습 |
기법 | 확률과 통계 기반 추론 통계 | 패턴 분석 기반 데이터 마이닝 |
유형 | 회귀 분석, 분류 분석 | 군집 분석, 연관 분석 |
분야 | 인문, 사회 | 공학, 자연 |
반지도 학습 기계 학습의 한 범주, 목표값이 있는 데이터와 없는 데이터 모두 훈련에 사용 |
[1] 지도학습
* 알고리즘 종류
- 분류 : 이진 분류, 다중 분류
ex. 의사 결정 트리(분류나무_이산형 데이터), 랜덤 포레스트, 인공신경망, SVM(Support Vector Machine), 로지스틱 분석
- 회귀
ex. 의사 결정 트리(회귀나무_연속형 데이터), 선형 회귀 분석, 다중 회귀 분석, 로지스틱 회귀
- 회귀분석(based on 최소 자승법) : 해방정식을 근사적으로 구함. 근사적 해와 실제 해의 오차의 제곱의 합이 최소가 되는 해.
- 로지스틱 회귀 분석 : 독립변수의 선형 결합을 통해 사건의 발생 가능성을 예측. 종속 변수가 범주형 데이터를 대상으로 입력에 대해 분류되므로 '분류'로 보기도 함. 종속 변수가 이항형 문제 (유효 범주가 2개 이상)일 때 주로 사용됨.
2개 이상의 범주를 갖는 문제가 대상 : 다항 로지스틱 회귀/분화 로지스틱 회귀
복수 범주이면서 순서가 존재 : 서수 로지스틱 회귀
- SVM (based on 라그랑주 승수법, KKT condition) : 초평면 사이의 거리(마진)을 최대화.
- KNN (K-Nearest-Neighbors) : 입력값과 K개의 가까운 점들이 있다는 가정 하에 어떤 라벨과 가장 비슷한지 판단, 비모수 방식
- 의사 결정 트리 : 어떤 입력변수를 입력해 분리하는 것이 의사결정나무 모델의 목표에 부합하는지에 대한 기준
- 랜덤 포레스트 : 다수의 의사 결정 트리를 결합해 하나의 모형을 생성.
* 지도학습 모델링
- 모형 구축 자료 : 데이터 분포 도출 - 분석용 데이터 마트 (DM) (데이터 웨어 하우스 (DW) 환경에서 정의된 접근 계층)
1. 차원 분할 : 차원 내 다양한 요소를 파악해 계층구조를 기준으로 차원 분할
2. 차원 제거 : 불필요한 차원 제거
3. 차원 병합 : 선택적 성격의 차원이 아니라 사실 테이블의 구성 요소로 병합
4. 사실 집계 : 사실 테이블을 차원 테이블의 계층 구조를 이용해 상위 단계로 집계
- 분석 모형 개발 : 데이터 확보가 우선적, 유형 분석 필요, 기존 유사 분석 시나리오 최대한 활용
--> 기본 구성 요소 : 절차/방법/도구와 기법/템플릿과 산출물
1. 분석 기획
2. 데이터 준비
3. 데이터 분석
4. 시스템 구현
5. 평가 및 전개
- 분석 알고리즘 구축 : 훈련 데이터에 Label 이라는 원하는 정답이 포함됨.
1. 선형성 : 회귀성 확인
2. 잔차 정규성 : 정규성 검정 확인 (잔차의 기댓값은 0, 정규분포), 더빈 왓슨 값 확인 (독립적)
3. 잔차 등분산/잔차 독립성 : 표준잔차 및 표준예측지 도표 (분산이 일정)
4. 다중 공산성 : 분산팽창요인 확인 (3개 이상 독립변수 간 상관관계로 인한 문제가 없음)
- 배깅 : 주어진 데이터에 대해 여러 부트 스트랩 자료 생성
- 부스팅 : 어려운 문제를 가장 잘 푼 모델 선정
[2] 비지도학습
* 군집분석 : 유사성 기반 데이터를 분할, 그룹화한 뒤 그룹별 성격 진단.
- 계층적 군집 분석 : 개별대상의 거리에 의해 가장 가까운 거리부터 계층적 구조 형성
1. 병합적 방법 : 가장 가까운 2개의 개체를 묶어 하나의 군집을 만듦.
2. 분할적 방법 : 먼 개체를 나누어 감. N개의 개체를 2개 군집으로부터 나누어 병합적으로 진행.
- 비계층적 군집 분석 : 군집의 수를 정하고 중심으로부터 가까운 순으로 데이터 정함 (순차적)
* 연관분석 : 항목 간 관련성을 파악, 둘 이상의 항목으로 구성된 연관성 규칙 도출.
- 장바구니 분석 (Basket Analysis)
지지도/신뢰도 : 클수록 관련도가 높음
향상도 lift(A->B) > 1 : 클수록 관련도가 높음
lift(A->B) = 1 : 관련도가 없음
0<lift(A->B)<1 : A를 선택하면 보통 B를 선택하지 않음
* 주성분분석 : 차원(설명변수) 증가 시 차원 내 부피 증가, 차원 축소 필요.
변수 선택이 아니라 변수 추출로 차원 축소.
원데이터 행렬 X 분산 최대 보존 : 선형결합된 Z 분산 최대화
* 비지도학습 모델링
- 군집분석
1. 계층적 방법 : 최단연결법/최장연결법/평균연결법/중심연결법/중위수 연결법
2. 비계층적 방법 : 순차적군집법/동시군집분석법/최적할당 군집분석법
'PROGRAMMING > Data Analysis' 카테고리의 다른 글
[데이터 분석] (1) 데이터 분석이란? (0) | 2021.11.19 |
---|---|
[데이터 분석] (응용)미디어 데이터분석 - 기초 이론 (0) | 2021.10.16 |
[데이터 분석] (sumUP1) : 빅데이터 분석/데이터 수집/데이터 전처리 (2) | 2021.10.16 |
[데이터 분석] (3-1) 데이터 수집 예제 : 편의점 통계 데이터 (0) | 2021.10.15 |
[데이터 분석] (3-2) 데이터 수집 예제 : 뉴스 웹크롤링 (0) | 2021.10.15 |
댓글