본문 바로가기
PROGRAMMING/Data Analysis

[데이터 분석] (1) 데이터 분석이란?

by Hey Nary 2021. 11. 19.
728x90
반응형

안녕하세요! 

 

요즘 자료분석, 데이터 분석, 데이터 추출, 시각화 등,

정보가 워낙 넘쳐나기 때문에 딱 필요한 내용만 정리, 변환, 모델링하는 업무 능력이 중요해지고 있습니다.

이번 포스팅 시리즈에서는 [데이터 분석] 이 무엇인지, 어떻게 이루어지는지, 어떤 프로세스를 통해 결과물이 나오는지를 정리할게요.

말머리 [데이터 분석] 으로 검색해주세요!

 

<요약글>

[데이터 분석] (sumUP1) : 빅데이터 분석/데이터 수집/데이터 전처리

[데이터 분석] (sumUP2) : 지도학습/비지도학습/데이터시각화

[데이터 분석] (응용)미디어 데이터분석 - 기초 이론


PART 1. 데이터 분석이란?

01. 문제 정의와 가설 수립

02. 분석 프로세스


 

01. 문제 정의와 가설 수립

[1] 데이터분석은 무엇인가?

'데이터 분석'이라는 키워드로 검색하면 이런 정의가 나옵니다:

유용한 정보를 발굴하고 결론 내용을 알리며 의사결정을 지원하는 것을 목표로 
데이터를 정리, 변환, 모델링하는 과정이다.

 

데이터분석에서 '데이터' 는 무엇일까요?

왜 이런 '데이터분석'을 해야 할까요?

차근차근 알아가 봅시다!

 

단순한 연산이나 자료라면, 사람이 가공하면서까지 파악할 필요가 없겠죠.

여기서의 데이터는 '빅데이터'를 의미합니다.

 

빅데이터이기 때문에, 세 가지 문제점이 발생합니다.

  • 데이터 규모 증가에 따른 처리 문제
  • 복잡하고 다양한 관계에 대한 유용한 정보 도출 요구
  • 데이터 시각화를 위한 사전 정비 필요

쉽게 말해, 데이터를 알아보기 힘드니 가공을 잘 해야 한다는 뜻입니다.

좀 더 쉽게 요약하자면, 데이터분석의 목적은

  • 기존 통계에서 분석했던 방식에 더해,
  • 기존 통계 방식으로 분석할 수 없는 것들을 분석

하기 위함입니다. 아, 결국 데이터분석은 고도화된 "통계"이네요!

 

 

[2] 왜 데이터분석을 하는가?

의사결정 / 요약 / 불확실성 해소 / 예측 / 인과관계 파악

위의 5가지 키워드를 자세히 뜯어보겠습니다.

의사결정
  • 여러 대안 중 하나의 행동을 고르는 정신적 지각 활동
  • 최종적으로 하나의 선택을 하고 결과를 만듦
  • (정보) --> 의사결정 --> "결과"
불확실성 해소
  • 의사결정의 가장 큰 문제가 불확실성임
  • 불확실성을 줄여 의사결정과 대응을 효과적으로 함
요약
  • 현 상황을 빠르게 파악하여 대응 방안을 도출
인과관계 파악
  • 단순 요약보다 데이터 간 인과관계를 파악하면 세부 판단을 내릴 수 있음
예측
  • 패턴을 파악한다면 향후 미래를 예측하고 대비할 수 있음

 

어떠신가요?

다섯가지 목적을 곰곰히 생각해보면, 원하는 방향을 다시 한마디로 요약할 수 있습니다.

과거의 데이터를 토대로 미래를 분석한다.

 

[3] 빅데이터 분석의 근본 목적?

가트너 그룹에서 발표한 빅데이터 분석 모델을 봅시다.

The Big Data Value Model (2015)
  1. Customer Insight
  2. Product & Process Efficiency
  3. Digital Products & Service
  4. Operational Excellence
  5. Digital Marketing
  6. Risk Management and Compliance

 

데이터는 후행성이자 선행성입니다.

후행성 데이터 : 사람들의 검색 키워드로,

데이터 분석 : 왜 그것을 알고 싶어할까? 를 생각해 보고,

선행성 데이터 : 미래의 일을 예측할 수 있게 되는 것이죠.

 

우리가 원하는 빅데이터에서의 인사이트 (가공해서 얻고자 하는 것)를 정리해 보겠습니다.

  • 가설 검증
  • 관계 및 패턴 발견
  • 특정 객체의 미래 행위 예측
  • 사용자가 이해(이용) 가능한 형태로 묘사/표현

 

[4] 빅데이터 분석 기획하기

기획 (분석) 계획
  • 주어진 목표를 위한 구체적 절차/실행 순서
  • 왜? 무엇을?
  • 기획한 목표를 실행하기 위한 방법
  • 어떻게?

기획과 계획, 두 단어를 우선 정의해 보았습니다.

빅데이터 분석 기획의 목적은, 구체화된 방안의 수립입니다.

아래 키워드들이 주요한 분석 기획의 재료가 됩니다.

  • 분석 과제의 추진 가능성 ( !! 가장 먼저 검토합니다 !! )
  • 빅데이터 모델의 구현 가능성 ( !! 가장 먼저 검토합니다 !! )
  • 목표달성 최적화
  • 분석 질문
  • 필요 데이터
  • 데이터 확보 역량 : 다양한 데이터 원천이 있는지, 데이터 확보를 위한 기관 간 협의가 되어 있는지, 외부/내부 데이터 통합 후 분석이 가능할지, 데이터 수집 관련 보안 사항이 있는지?

 


02. 분석 프로세스

[1] 데이터 분석 5단계

빅데이터 수집 (추출 및 선택) > 전처리 (정제) > 후처리 (보완) > 분석 (해석) > 시각화 (리포팅)

위의 5단계가 데이터 분석의 기본 틀입니다!

여기서부터 모든 것이 시작됩니다.

 

머신 러닝 프로세스를 예로 들어볼까요?

데이터 수집  > 전처리 > 모델 학습 > 모델 평가 > 서비스 
------------------ < 최 적 화 > -------------------

 

좀 더 실질적인 내용으로 다시 분석 절차를 정리해 봅시다.

 

[2] 데이터 모델링 절차

위의 5단계로 데이터 분석을 하고 나서,

최종적으로 우리가 얻고자 하는 것은 어떤 현상에 대한 "모델링"입니다.

요건 정의 > 모델링 (알고리즘) > 검증 및 테스트 > 적용
요건 정의
  • 분석 요건을 구체적으로 도출해서,
  • 수행 방안을 설계하고
  • 요건을 확정한다.
모델링 (알고리즘)
  • 상세 분석기법을 적용해 모델을 개발한다.
  • 모델링 마트 설계 및 구축
  • 탐색적 분석 및 유의 변수 도출
  • 모델링
  • 모델링 성능 평가
검증 및 테스트
  • Train/Test Set 을 나누어 진행한다.
  • 실제 상황에서의 테스트는 필수로 검증한다.
  • 비즈니스적 영향 평가
적용
  • 시스템 적용 및 자동화
  • 주기적 모델링
  • 코드로 분리하면 기존 시스템과 별도로 개발/운영될 수 있다.

 


여기까지,

데이터 분석과 프로세스에 대해 알아보았습니다!

다음 포스팅에서는, 데이터 수집에 대해 자세히 알아보겠습니다.

728x90
반응형

댓글