플그래밍/파이써언

[파이썬] 단어 토큰화는 이렇게 (nltk)

훗티v 2023. 6. 25. 02:53

텍스트 마이닝에서 토큰화는 일반적으로 단어 토큰화를 의미한다. 주어진 텍스트를 단어 단위로 나누어 준다.

 

대표적으로 word_tokenize()와 WordPunctTokenizer를 사용한다.

 

from nltk.tokenize import word_tokenize
from nltk.tokenize import WordPunctTokenizer

para = "오늘 해가 아름답게 떴다. 나는 밖에서 커피를 즐겼다. 새들이 즐거운 노래를 불렀다. 공기는 만개한 꽃의 냄새로 가득했다. 완벽한 아침이었다."

for word in word_tokenize(para):
    print(word)

for word in WordPunctTokenizer().tokenize(para):
    print(word)

 

텍스트가 한글인 경우 큰 차이가 없어보인다.

 

좌측: word_tokenize(para), 우측: WordPunctTokenizer().tokenize(para)

 

영어의 경우 's를 하나의 단어로 구분하는 word_tokenize()와 달리WordPunctTokenizer는 apostrophe와 s를 각 하나의 단어로 구분해준다.

 

좌측: word_tokenize(para), 우측: WordPunctTokenizer().tokenize(para)

 

 

 

 

 

쿠팡 광고 클릭 시, 이에 따른 일정액의 수수료를 제공받으며 
블로그 운영에 큰 도움이 됩니다. 감사합니다.
728x90