[파이썬] 단어 토큰화는 이렇게 (nltk)

플그래밍/파이써언

[파이썬] 단어 토큰화는 이렇게 (nltk)

훗티v 2023. 6. 25. 02:53

728x90

텍스트 마이닝에서 토큰화는 일반적으로 단어 토큰화를 의미한다. 주어진 텍스트를 단어 단위로 나누어 준다.

대표적으로 word_tokenize()와 WordPunctTokenizer를 사용한다.

from nltk.tokenize import word_tokenize
from nltk.tokenize import WordPunctTokenizer

para = "오늘 해가 아름답게 떴다. 나는 밖에서 커피를 즐겼다. 새들이 즐거운 노래를 불렀다. 공기는 만개한 꽃의 냄새로 가득했다. 완벽한 아침이었다."

for word in word_tokenize(para):
    print(word)

for word in WordPunctTokenizer().tokenize(para):
    print(word)

텍스트가 한글인 경우 큰 차이가 없어보인다.

좌측: word_tokenize(para), 우측: WordPunctTokenizer().tokenize(para)

영어의 경우 's를 하나의 단어로 구분하는 word_tokenize()와 달리WordPunctTokenizer는 apostrophe와 s를 각 하나의 단어로 구분해준다.

쿠팡 광고 클릭 시, 이에 따른 일정액의 수수료를 제공받으며 
블로그 운영에 큰 도움이 됩니다. 감사합니다.

저작자표시

'플그래밍 > 파이써언' 카테고리의 다른 글

[파이썬] 노이즈 및 불용어, 이것만은 알고 가자 (nltk) (0)	2023.06.25
[파이썬] 정규표현식, 이것만은 알고 가자 (regex) (0)	2023.06.25
[파이썬] 문장 단위로 토큰화 하는 방법 (nltk) (0)	2023.06.25
[파이썬] 토큰화(Tokenization)을 위한 필수 라이브러리 (0)	2023.06.25
[파이썬]"continue"로 원치 않는 항목을 걸러내는 방법 (1)	2023.06.16

현재글[파이썬] 단어 토큰화는 이렇게 (nltk)

훗티

[파이썬] 단어 토큰화는 이렇게 (nltk)

'플그래밍 > 파이써언' 카테고리의 다른 글

'플그래밍/파이써언'의 다른글

티스토리툴바

[파이썬] 단어 토큰화는 이렇게 (nltk)

'플그래밍 > 파이써언' 카테고리의 다른 글

'플그래밍/파이써언'의 다른글

관련글

티스토리툴바