안녕하세요!
요즘 자료분석, 데이터 분석, 데이터 추출, 시각화 등,
정보가 워낙 넘쳐나기 때문에 딱 필요한 내용만 정리, 변환, 모델링하는 업무 능력이 중요해지고 있습니다.
이번 포스팅 시리즈에서는 [데이터 분석] 이 무엇인지, 어떻게 이루어지는지, 어떤 프로세스를 통해 결과물이 나오는지를 정리할게요.
말머리 [데이터 분석] 으로 검색해주세요!
<요약글>
[데이터 분석] (sumUP1) : 빅데이터 분석/데이터 수집/데이터 전처리
[데이터 분석] (sumUP2) : 지도학습/비지도학습/데이터시각화
[데이터 분석] (응용)미디어 데이터분석 - 기초 이론
PART 1. 데이터 분석이란?
01. 문제 정의와 가설 수립
02. 분석 프로세스
01. 문제 정의와 가설 수립
[1] 데이터분석은 무엇인가?
'데이터 분석'이라는 키워드로 검색하면 이런 정의가 나옵니다:
유용한 정보를 발굴하고 결론 내용을 알리며 의사결정을 지원하는 것을 목표로
데이터를 정리, 변환, 모델링하는 과정이다.
데이터분석에서 '데이터' 는 무엇일까요?
왜 이런 '데이터분석'을 해야 할까요?
차근차근 알아가 봅시다!
단순한 연산이나 자료라면, 사람이 가공하면서까지 파악할 필요가 없겠죠.
여기서의 데이터는 '빅데이터'를 의미합니다.
빅데이터이기 때문에, 세 가지 문제점이 발생합니다.
- 데이터 규모 증가에 따른 처리 문제
- 복잡하고 다양한 관계에 대한 유용한 정보 도출 요구
- 데이터 시각화를 위한 사전 정비 필요
쉽게 말해, 데이터를 알아보기 힘드니 가공을 잘 해야 한다는 뜻입니다.
좀 더 쉽게 요약하자면, 데이터분석의 목적은
- 기존 통계에서 분석했던 방식에 더해,
- 기존 통계 방식으로 분석할 수 없는 것들을 분석
하기 위함입니다. 아, 결국 데이터분석은 고도화된 "통계"이네요!
[2] 왜 데이터분석을 하는가?
의사결정 / 요약 / 불확실성 해소 / 예측 / 인과관계 파악
위의 5가지 키워드를 자세히 뜯어보겠습니다.
의사결정
- 여러 대안 중 하나의 행동을 고르는 정신적 지각 활동
- 최종적으로 하나의 선택을 하고 결과를 만듦
- (정보) --> 의사결정 --> "결과"
불확실성 해소
- 의사결정의 가장 큰 문제가 불확실성임
- 불확실성을 줄여 의사결정과 대응을 효과적으로 함
요약
- 현 상황을 빠르게 파악하여 대응 방안을 도출
인과관계 파악
- 단순 요약보다 데이터 간 인과관계를 파악하면 세부 판단을 내릴 수 있음
예측
- 패턴을 파악한다면 향후 미래를 예측하고 대비할 수 있음
어떠신가요?
다섯가지 목적을 곰곰히 생각해보면, 원하는 방향을 다시 한마디로 요약할 수 있습니다.
과거의 데이터를 토대로 미래를 분석한다.
[3] 빅데이터 분석의 근본 목적?
가트너 그룹에서 발표한 빅데이터 분석 모델을 봅시다.
The Big Data Value Model (2015)
- Customer Insight
- Product & Process Efficiency
- Digital Products & Service
- Operational Excellence
- Digital Marketing
- Risk Management and Compliance
데이터는 후행성이자 선행성입니다.
후행성 데이터 : 사람들의 검색 키워드로,
데이터 분석 : 왜 그것을 알고 싶어할까? 를 생각해 보고,
선행성 데이터 : 미래의 일을 예측할 수 있게 되는 것이죠.
우리가 원하는 빅데이터에서의 인사이트 (가공해서 얻고자 하는 것)를 정리해 보겠습니다.
- 가설 검증
- 관계 및 패턴 발견
- 특정 객체의 미래 행위 예측
- 사용자가 이해(이용) 가능한 형태로 묘사/표현
[4] 빅데이터 분석 기획하기
기획 (분석) | 계획 |
|
|
기획과 계획, 두 단어를 우선 정의해 보았습니다.
빅데이터 분석 기획의 목적은, 구체화된 방안의 수립입니다.
아래 키워드들이 주요한 분석 기획의 재료가 됩니다.
- 분석 과제의 추진 가능성 ( !! 가장 먼저 검토합니다 !! )
- 빅데이터 모델의 구현 가능성 ( !! 가장 먼저 검토합니다 !! )
- 목표달성 최적화
- 분석 질문
- 필요 데이터
- 데이터 확보 역량 : 다양한 데이터 원천이 있는지, 데이터 확보를 위한 기관 간 협의가 되어 있는지, 외부/내부 데이터 통합 후 분석이 가능할지, 데이터 수집 관련 보안 사항이 있는지?
02. 분석 프로세스
[1] 데이터 분석 5단계
빅데이터 수집 (추출 및 선택) > 전처리 (정제) > 후처리 (보완) > 분석 (해석) > 시각화 (리포팅)
위의 5단계가 데이터 분석의 기본 틀입니다!
여기서부터 모든 것이 시작됩니다.
머신 러닝 프로세스를 예로 들어볼까요?
데이터 수집 > 전처리 > 모델 학습 > 모델 평가 > 서비스
------------------ < 최 적 화 > -------------------
좀 더 실질적인 내용으로 다시 분석 절차를 정리해 봅시다.
[2] 데이터 모델링 절차
위의 5단계로 데이터 분석을 하고 나서,
최종적으로 우리가 얻고자 하는 것은 어떤 현상에 대한 "모델링"입니다.
요건 정의 > 모델링 (알고리즘) > 검증 및 테스트 > 적용
요건 정의
- 분석 요건을 구체적으로 도출해서,
- 수행 방안을 설계하고
- 요건을 확정한다.
모델링 (알고리즘)
- 상세 분석기법을 적용해 모델을 개발한다.
- 모델링 마트 설계 및 구축
- 탐색적 분석 및 유의 변수 도출
- 모델링
- 모델링 성능 평가
검증 및 테스트
- Train/Test Set 을 나누어 진행한다.
- 실제 상황에서의 테스트는 필수로 검증한다.
- 비즈니스적 영향 평가
적용
- 시스템 적용 및 자동화
- 주기적 모델링
- 코드로 분리하면 기존 시스템과 별도로 개발/운영될 수 있다.
여기까지,
데이터 분석과 프로세스에 대해 알아보았습니다!
다음 포스팅에서는, 데이터 수집에 대해 자세히 알아보겠습니다.
'PROGRAMMING > Data Analysis' 카테고리의 다른 글
[데이터 분석] (3-3) 데이터 수집 예제 : 네이버 동적 크롤링 (0) | 2021.11.19 |
---|---|
[데이터 분석] (2) 데이터 수집하기 (0) | 2021.11.19 |
[데이터 분석] (응용)미디어 데이터분석 - 기초 이론 (0) | 2021.10.16 |
[데이터 분석] (sumUP2) : 지도학습/비지도학습/데이터시각화 (0) | 2021.10.16 |
[데이터 분석] (sumUP1) : 빅데이터 분석/데이터 수집/데이터 전처리 (2) | 2021.10.16 |
댓글