텍스트 마이닝에서 토큰화는 일반적으로 단어 토큰화를 의미한다. 주어진 텍스트를 단어 단위로 나누어 준다.
대표적으로 word_tokenize()와 WordPunctTokenizer를 사용한다.
from nltk.tokenize import word_tokenize
from nltk.tokenize import WordPunctTokenizer
para = "오늘 해가 아름답게 떴다. 나는 밖에서 커피를 즐겼다. 새들이 즐거운 노래를 불렀다. 공기는 만개한 꽃의 냄새로 가득했다. 완벽한 아침이었다."
for word in word_tokenize(para):
print(word)
for word in WordPunctTokenizer().tokenize(para):
print(word)
텍스트가 한글인 경우 큰 차이가 없어보인다.
영어의 경우 's를 하나의 단어로 구분하는 word_tokenize()와 달리WordPunctTokenizer는 apostrophe와 s를 각 하나의 단어로 구분해준다.
쿠팡 광고 클릭 시, 이에 따른 일정액의 수수료를 제공받으며 블로그 운영에 큰 도움이 됩니다. 감사합니다.
728x90
'플그래밍 > 파이써언' 카테고리의 다른 글
[파이썬] 노이즈 및 불용어, 이것만은 알고 가자 (nltk) (0) | 2023.06.25 |
---|---|
[파이썬] 정규표현식, 이것만은 알고 가자 (regex) (0) | 2023.06.25 |
[파이썬] 문장 단위로 토큰화 하는 방법 (nltk) (0) | 2023.06.25 |
[파이썬] 토큰화(Tokenization)을 위한 필수 라이브러리 (0) | 2023.06.25 |
[파이썬]"continue"로 원치 않는 항목을 걸러내는 방법 (1) | 2023.06.16 |