본문 바로가기
728x90
반응형

PROGRAMMING/Data Analysis13

확률에서의 자유도와 점추정 이야기 통계학을 공부하다 보면 흔히 접하는 수식이 있다.표본 분산 = Σ(x - x̄)² / (n - 1)그런데 회귀분석으로 넘어가면 갑자기 자유도가 **(n - 2)**로 바뀐다.잔차 제곱합 / (n - 2)왜 이런 차이가 생길까? 둘 다 데이터를 n개 사용한 건 똑같은데 말이지. 그 핵심에는 바로 "자유도(degrees of freedom)" 와 " 점추정(point estimation)" 이란 개념이 있다.1. 자유도란 무엇인가?"자유도"는 말 그대로 자유롭게 바뀔 수 있는 값의 개수를 말한다.조금 더 수학적으로 설명하면,전체 데이터 수 - 제약 조건 수 = 자유도예를 들어, 평균이 정해진 5개의 숫자에서 나머지 4개를 마음대로 고르면, 마지막 하나는 자동으로 정해진다.왜냐하면 평균이 고정되어 있기 때문에.. 2025. 8. 4.
오차, 잔차, 편차의 차이: 통계에서 헷갈리는 세 가지 통계를 공부하거나 데이터를 분석하다 보면 꼭 한 번쯤은 마주치는 세 가지 개념이 있다.바로 "오차(error)", "잔차(residual)", 그리고 "편차(deviation)".이 셋은 모두 어떤 형태로든 "차이"를 뜻하지만, 각각의 의미는 조금씩 다르다.특히 회귀분석이나 통계 추론을 배우다 보면 이 개념들을 명확히 구분하지 않으면 헷갈리기 쉽다.오늘은 이 세 가지 개념을 한 번에 정리해보고, 여기에 "모집단(population)"과 "표본집단(sample)" 개념도 같이 짚어보자.1. 편차 (Deviation): 평균에서 얼마나 떨어져 있을까?"편차"는 어떤 값이 전체 평균에서 얼마나 벗어나 있는지를 나타내는 값이다.예를 들어, 한 반의 수학 점수가 아래와 같다고 해보자.80, 85, 90, 95, .. 2025. 8. 3.
🎨 Stanford d.school의 디자인 씽킹 6단계 요즘 기업, 교육, 빅데이터 분석, UX 설계 어디서나 등장하는 디자인 씽킹(Design Thinking).창의적 문제 해결의 대표 도구로 알려져 있죠.이 중 스탠퍼드 d.school(디스쿨)이 정의하는 디자인 씽킹 모델에 대해 알아보겠습니다.그 전에 우선 간단히 중요한 내용을 짚어 볼까요?🎨 디자인 씽킹(Design Thinking)이란?디자인 씽킹은 사용자의 니즈와 경험을 중심으로 문제를 정의하고 해결 방안을 창의적으로 탐색하는 문제해결 방법론입니다.📌 주요 특징 • 사람 중심(human-centered) 사고 • 공감 → 문제 정의 → 아이디어 → 시제품 → 테스트 단계로 구성 • 모호하거나 정의되지 않은 문제를 현장에서 탐색하여 점진적으로 해결🔽 상향식 접근법(Bottom-up Approac.. 2025. 7. 16.
데이터 적재 기술의 종류와 진화 – ETL/DW/DM/데이터레이크 데이터 사이언스는 “좋은 데이터를 얼마나 잘 다루느냐”에서 시작됩니다.그리고 그 출발점은 데이터를 어디에, 어떻게 저장하고 관리하는가입니다.이번 글에서는 데이터 적재 기술이 왜 발전해왔는지, 각 기술이 등장한 배경과 한계를 중심으로 살펴보겠습니다.⸻1. 🔄 ETL – 정제된 데이터가 필요하던 초기 시대! 데이터 적재의 고전적 시작ETL은 데이터 적재의 가장 기본적인 개념입니다. • Extract: 다양한 시스템에서 데이터 추출 • Transform: 정해진 규칙대로 변환 및 정제 • Load: 구조화된 저장소(DW 등)에 저장ETL은 데이터가 구조화되어 있던 시절, 분석 전 데이터를 미리 가공해 정형화해야 했던 환경에서 탄생했습니다. • 왜 필요했나?1990~2000년대 기업은 여러 시스템(ERP, C.. 2025. 7. 14.
728x90
반응형