텍스트 마이닝 핵심 용어 정리 – 스태밍, 토큰화, 임베딩까지 쉽게 이해하기

728x90

요즘 AI와 데이터 분석이 일상이 되면서, 자연어처리(NLP)나 텍스트 마이닝에 대한 관심도 커지고 있습니다.
하지만 막상 공부를 시작하면 낯선 용어들에 가로막혀 혼란스럽기 쉽죠.

그래서 오늘은 텍스트 마이닝에서 꼭 알아야 할 용어들을 한 번에 정리해 드리려고 합니다.
📌 스태밍, 코퍼스, 토큰화, 임베딩 같은 기본 개념부터 시작해 볼게요!

⸻

📁 1. 코퍼스(Corpus) – 텍스트 분석의 출발점

코퍼스란 분석을 위해 모은 텍스트 데이터의 집합입니다.
• 쉽게 말해: 텍스트 마이닝의 “재료”
• 예시: 뉴스 기사 1만 개, 트위터 댓글 5천 개, 소설 텍스트 등

🔎 종류:
• Raw Corpus: 전처리 안 된 원본 데이터
• Annotated Corpus: 품사나 개체명 정보 등이 태깅된 데이터 (예: 네이버 영화 리뷰 + 감성 점수)

⸻

✂️ 2. 토큰화(Tokenization) – 문장을 낱말로 쪼개는 작업

토큰화는 문장을 분석 가능한 단위(토큰)로 쪼개는 과정입니다.
• 예:
문장: “나는 책을 읽었다”
→ 토큰화: [“나”, “는”, “책”, “을”, “읽”, “었”, “다”] 또는 [“나는”, “책을”, “읽었다”]

🔧 기준은 다양합니다:
• 띄어쓰기 기준 (단어 토큰화)
• 글자 단위 (문자 토큰화)
• 형태소 단위 (형태소 분석 기반 토큰화)

토큰화는 이후 분석(빈도 수 세기, 감정 분석, 주제 분류 등)의 기반이 됩니다.

⸻

✂️ 3. 스태밍(Stemming) vs 표제어 추출(Lemmatization)

둘 다 단어의 ‘원형’을 찾는 작업입니다. 하지만 접근 방식이 다릅니다.

-스태밍
단어 끝부분을 잘라 간단히 원형화 “running” → “run”
-표제어 추출
문법적으로 정확한 원형을 사전에서 찾음 “am”, “are”, “is” → “be”

• 스태밍은 빠르지만 부정확할 수 있고,
• 표제어 추출은 정확하지만 처리 속도가 느릴 수 있습니다.

⸻

🔢 4. 임베딩(Embedding) – 단어를 숫자로 바꾸는 기술

컴퓨터는 텍스트를 직접 이해하지 못하므로, 모든 단어를 **수치(벡터)**로 바꿔야 합니다.
이걸 임베딩이라고 합니다.

대표 임베딩 기법:
• Bag of Words (BoW): 단어의 등장 횟수를 기준으로 표현
• TF-IDF: 흔한 단어는 낮게, 드문 단어는 높게 반영
• Word2Vec, GloVe: 단어 의미와 문맥을 반영한 벡터 표현
• BERT 임베딩: 문장의 앞뒤 문맥을 모두 고려한 최신 방식

🎯 임베딩은 머신러닝/딥러닝 모델이 텍스트를 처리할 수 있도록 연결해주는 핵심 기술입니다.

⸻

💬 그 외 자주 쓰이는 용어

용어 뜻
TF-IDF 단어의 중요도를 판단하는 통계적 수치
N-그램(N-gram) 연속된 단어 묶음 (예: 2-gram = “나는”, “는 책”, “책을”)
불용어(Stop Words) 분석에 큰 의미가 없는 단어 (예: “은”, “이”, “the”, “and”)
워드 클라우드 단어 빈도수를 시각화하는 기법
감성 분석(Sentiment Analysis) 텍스트의 긍·부정 감정 판단

⸻

🧠 마무리 요약

한 줄 설명
코퍼스 분석할 텍스트들의 모음
토큰화 텍스트를 단어 단위로 쪼개기
스태밍 단어의 어미 제거 (간단한 원형화)
임베딩 텍스트를 수치화하여 기계가 이해하도록 변환

⸻

✨ 텍스트 마이닝을 더 잘 하고 싶다면?
• 단순한 개념을 이해하는 것 →
• → 실제로 데이터를 불러오고, 전처리하고, 분석해보는 경험이 중요합니다.

파이썬에서는 NLTK, spaCy, KoNLPy, gensim, transformers 같은 라이브러리로 위 개념들을 직접 실습해볼 수 있어요.

⸻

궁금한 용어나 개념이 더 있다면 댓글로 남겨주세요!

728x90

'PROGRAMMING > CODING' 카테고리의 다른 글

[R] 기초 2편. 내장 함수, 데이터 핸들링, 제어문까지 한 번에 정리하기 (4)	2025.08.06
[R] 기초 1편. 데이터 타입부터 구조까지 한 번에 정리하기 (5)	2025.08.05
[Anaconda3] 아나콘다 터미널 명령어 모음 (0)	2023.06.01
[Anaconda3] 아나콘다 가상환경 위치 바꾸기 (User 말고 드라이브에) (0)	2023.06.01
[Python] VS Code, 아나콘다 : 설치, 파이썬 가상환경 세팅하기 (0)	2023.06.01

Nary의 자유 주행 공부방

텍스트 마이닝 핵심 용어 정리 – 스태밍, 토큰화, 임베딩까지 쉽게 이해하기

'PROGRAMMING > CODING' 카테고리의 다른 글

댓글

티스토리툴바

텍스트 마이닝 핵심 용어 정리 – 스태밍, 토큰화, 임베딩까지 쉽게 이해하기

'PROGRAMMING > CODING' 카테고리의 다른 글

관련글

댓글

티스토리툴바