본문 바로가기
PROGRAMMING/CODING

텍스트 마이닝 핵심 용어 정리 – 스태밍, 토큰화, 임베딩까지 쉽게 이해하기

by Hey Nary 2025. 7. 10.
728x90
반응형

요즘 AI와 데이터 분석이 일상이 되면서, 자연어처리(NLP)나 텍스트 마이닝에 대한 관심도 커지고 있습니다.
하지만 막상 공부를 시작하면 낯선 용어들에 가로막혀 혼란스럽기 쉽죠.

그래서 오늘은 텍스트 마이닝에서 꼭 알아야 할 용어들을 한 번에 정리해 드리려고 합니다.
📌 스태밍, 코퍼스, 토큰화, 임베딩 같은 기본 개념부터 시작해 볼게요!



📁 1. 코퍼스(Corpus) – 텍스트 분석의 출발점

코퍼스란 분석을 위해 모은 텍스트 데이터의 집합입니다.
• 쉽게 말해: 텍스트 마이닝의 “재료”
• 예시: 뉴스 기사 1만 개, 트위터 댓글 5천 개, 소설 텍스트 등

🔎 종류:
• Raw Corpus: 전처리 안 된 원본 데이터
• Annotated Corpus: 품사나 개체명 정보 등이 태깅된 데이터 (예: 네이버 영화 리뷰 + 감성 점수)



✂️ 2. 토큰화(Tokenization) – 문장을 낱말로 쪼개는 작업

토큰화는 문장을 분석 가능한 단위(토큰)로 쪼개는 과정입니다.
• 예:
문장: “나는 책을 읽었다”
→ 토큰화: [“나”, “는”, “책”, “을”, “읽”, “었”, “다”] 또는 [“나는”, “책을”, “읽었다”]

🔧 기준은 다양합니다:
• 띄어쓰기 기준 (단어 토큰화)
• 글자 단위 (문자 토큰화)
• 형태소 단위 (형태소 분석 기반 토큰화)

토큰화는 이후 분석(빈도 수 세기, 감정 분석, 주제 분류 등)의 기반이 됩니다.



✂️ 3. 스태밍(Stemming) vs 표제어 추출(Lemmatization)

둘 다 단어의 ‘원형’을 찾는 작업입니다. 하지만 접근 방식이 다릅니다.

-스태밍
단어 끝부분을 잘라 간단히 원형화 “running” → “run”
-표제어 추출
문법적으로 정확한 원형을 사전에서 찾음 “am”, “are”, “is” → “be”

• 스태밍은 빠르지만 부정확할 수 있고,
• 표제어 추출은 정확하지만 처리 속도가 느릴 수 있습니다.



🔢 4. 임베딩(Embedding) – 단어를 숫자로 바꾸는 기술

컴퓨터는 텍스트를 직접 이해하지 못하므로, 모든 단어를 **수치(벡터)**로 바꿔야 합니다.
이걸 임베딩이라고 합니다.

대표 임베딩 기법:
• Bag of Words (BoW): 단어의 등장 횟수를 기준으로 표현
• TF-IDF: 흔한 단어는 낮게, 드문 단어는 높게 반영
• Word2Vec, GloVe: 단어 의미와 문맥을 반영한 벡터 표현
• BERT 임베딩: 문장의 앞뒤 문맥을 모두 고려한 최신 방식

🎯 임베딩은 머신러닝/딥러닝 모델이 텍스트를 처리할 수 있도록 연결해주는 핵심 기술입니다.



💬 그 외 자주 쓰이는 용어

용어 뜻
TF-IDF 단어의 중요도를 판단하는 통계적 수치
N-그램(N-gram) 연속된 단어 묶음 (예: 2-gram = “나는”, “는 책”, “책을”)
불용어(Stop Words) 분석에 큰 의미가 없는 단어 (예: “은”, “이”, “the”, “and”)
워드 클라우드 단어 빈도수를 시각화하는 기법
감성 분석(Sentiment Analysis) 텍스트의 긍·부정 감정 판단




🧠 마무리 요약

한 줄 설명
코퍼스 분석할 텍스트들의 모음
토큰화 텍스트를 단어 단위로 쪼개기
스태밍 단어의 어미 제거 (간단한 원형화)
임베딩 텍스트를 수치화하여 기계가 이해하도록 변환




✨ 텍스트 마이닝을 더 잘 하고 싶다면?
• 단순한 개념을 이해하는 것 →
• → 실제로 데이터를 불러오고, 전처리하고, 분석해보는 경험이 중요합니다.

파이썬에서는 NLTK, spaCy, KoNLPy, gensim, transformers 같은 라이브러리로 위 개념들을 직접 실습해볼 수 있어요.



궁금한 용어나 개념이 더 있다면 댓글로 남겨주세요!

728x90
반응형

댓글