본문 바로가기
PROGRAMMING/Data Analysis

[데이터 분석] (sumUP2) : 지도학습/비지도학습/데이터시각화

by Hey Nary 2021. 10. 16.
728x90
반응형

데이터 분석의 기초 (1) : 빅데이터 분석/데이터 수집/데이터 전처리

 

본 포스팅은 '데이터 분석' 의 기초 이론의 요약을 다룹니다.

* 인공지능의 분류

머신러닝 내에 딥러닝/지도학습/비지도학습 이 존재.

 

* 머신러닝 : 환경과의 상호작용을 통한 경험적 데이터를 기반 지식으로 모델을 자동으로 구축하고 스스로 성능을 향상하는 시스템.

* 딥러닝 : 머신러닝 분류 중 신경망 네트워크 학습 모델.

 

* 머신러닝의 분류

  지도학습 비지도학습
주관 사람의 개입 컴퓨터의 기계학습
기법 확률과 통계 기반 추론 통계 패턴 분석 기반 데이터 마이닝
유형 회귀 분석, 분류 분석 군집 분석, 연관 분석
분야 인문, 사회 공학, 자연
반지도 학습 
기계 학습의 한 범주, 목표값이 있는 데이터와 없는 데이터 모두 훈련에 사용

 

[1] 지도학습

* 알고리즘 종류

- 분류 :  이진 분류, 다중 분류

ex. 의사 결정 트리(분류나무_이산형 데이터), 랜덤 포레스트, 인공신경망, SVM(Support Vector Machine), 로지스틱 분석

- 회귀

ex. 의사 결정 트리(회귀나무_연속형 데이터), 선형 회귀 분석, 다중 회귀 분석, 로지스틱 회귀

 

- 회귀분석(based on 최소 자승법) : 해방정식을 근사적으로 구함. 근사적 해와 실제 해의 오차의 제곱의 합이 최소가 되는 해.

- 로지스틱 회귀 분석 : 독립변수의 선형 결합을 통해 사건의 발생 가능성을 예측. 종속 변수가 범주형 데이터를 대상으로 입력에 대해 분류되므로 '분류'로 보기도 함. 종속 변수가 이항형 문제 (유효 범주가 2개 이상)일 때 주로 사용됨.

   2개 이상의 범주를 갖는 문제가 대상 : 다항 로지스틱 회귀/분화 로지스틱 회귀

   복수 범주이면서 순서가 존재 : 서수 로지스틱 회귀

- SVM (based on 라그랑주 승수법, KKT condition) : 초평면 사이의 거리(마진)을 최대화.

- KNN (K-Nearest-Neighbors) : 입력값과 K개의 가까운 점들이 있다는 가정 하에 어떤 라벨과 가장 비슷한지 판단, 비모수 방식

- 의사 결정 트리 : 어떤 입력변수를 입력해 분리하는 것이 의사결정나무 모델의 목표에 부합하는지에 대한 기준

- 랜덤 포레스트 : 다수의 의사 결정 트리를 결합해 하나의 모형을 생성.

 

* 지도학습 모델링

- 모형 구축 자료 : 데이터 분포 도출 - 분석용 데이터 마트 (DM) (데이터 웨어 하우스 (DW) 환경에서 정의된 접근 계층)

1. 차원 분할 : 차원 내 다양한 요소를 파악해 계층구조를 기준으로 차원 분할

2. 차원 제거 : 불필요한 차원 제거

3. 차원 병합 : 선택적 성격의 차원이 아니라 사실 테이블의 구성 요소로 병합

4. 사실 집계 : 사실 테이블을 차원 테이블의 계층 구조를 이용해 상위 단계로 집계

 

- 분석 모형 개발 : 데이터 확보가 우선적, 유형 분석 필요, 기존 유사 분석 시나리오 최대한 활용

--> 기본 구성 요소 : 절차/방법/도구와 기법/템플릿과 산출물

1. 분석 기획

2. 데이터 준비

3. 데이터 분석

4. 시스템 구현

5. 평가 및 전개

 

- 분석 알고리즘 구축 : 훈련 데이터에 Label 이라는 원하는 정답이 포함됨.

1. 선형성 : 회귀성 확인

2. 잔차 정규성 : 정규성 검정 확인 (잔차의 기댓값은 0, 정규분포), 더빈 왓슨 값 확인 (독립적)

3. 잔차 등분산/잔차 독립성 : 표준잔차 및 표준예측지 도표 (분산이 일정)

4. 다중 공산성 : 분산팽창요인 확인 (3개 이상 독립변수 간 상관관계로 인한 문제가 없음)

 

- 배깅 : 주어진 데이터에 대해 여러 부트 스트랩 자료 생성

- 부스팅 : 어려운 문제를 가장 잘 푼 모델 선정

 

 

[2] 비지도학습

* 군집분석 : 유사성 기반 데이터를 분할, 그룹화한 뒤 그룹별 성격 진단.

- 계층적 군집 분석 : 개별대상의 거리에 의해 가장 가까운 거리부터 계층적 구조 형성

1. 병합적 방법 : 가장 가까운 2개의 개체를 묶어 하나의 군집을 만듦.

2. 분할적 방법 : 먼 개체를 나누어 감. N개의 개체를 2개 군집으로부터 나누어 병합적으로 진행.

- 비계층적 군집 분석 : 군집의 수를 정하고 중심으로부터 가까운 순으로 데이터 정함 (순차적)

 

* 연관분석 : 항목 간 관련성을 파악, 둘 이상의 항목으로 구성된 연관성 규칙 도출.

- 장바구니 분석 (Basket Analysis)

지지도/신뢰도 : 클수록 관련도가 높음

향상도 lift(A->B) > 1 : 클수록 관련도가 높음

lift(A->B) = 1 : 관련도가 없음

0<lift(A->B)<1 : A를 선택하면 보통 B를 선택하지 않음

 

* 주성분분석 : 차원(설명변수) 증가 시 차원 내 부피 증가, 차원 축소 필요.

변수 선택이 아니라 변수 추출로 차원 축소.

원데이터 행렬 X 분산 최대 보존 : 선형결합된 Z 분산 최대화

 

* 비지도학습 모델링

- 군집분석

1. 계층적 방법 : 최단연결법/최장연결법/평균연결법/중심연결법/중위수 연결법

2. 비계층적 방법 : 순차적군집법/동시군집분석법/최적할당 군집분석법

728x90
반응형

댓글