플그래밍/파이써언

[파이썬] 문장 단위로 토큰화 하는 방법 (nltk)

훗티v 2023. 6. 25. 02:15
728x90
반응형

카운트 기반 텍스트 마이닝 전처리 과정에서 활용되는 단어 토큰화와 달리 문장 토큰화는 텍스트를 문장 단위로 나누어줍니다. 

 

from nltk.tokenize import sent_tokenize

para = "The sun rose beautifully today. I enjoyed my coffee outside. 
Birds sang their cheerful tunes. The air smelled of blooming flowers. 
It was a perfect morning."

for sent in sent_tokenize(para):
    print(sent)

 

코드 실행 시 문장 단위로 나누어 리스트 형태로 저장해줍니다.

 

 

위의 sent_tokenize()는 영어를 기반으로 학습된 모델이 사용되지만 마침표를 기준으로 구분되기 때문에 한글문장 토큰화에 사용해도 어느 정도 의미있는 결과를 추출해준다.

 

from nltk.tokenize import sent_tokenize

para = "오늘 해가 아름답게 떴다. 나는 밖에서 커피를 즐겼다. 새들이 즐거운 노래를 불렀다. 공기는 만개한 꽃의 냄새로 가득했다. 완벽한 아침이었다."

for sent in sent_tokenize(para):
    print(sent)

 

 

 

 

 

 

쿠팡 광고 클릭 시, 이에 따른 일정액의 수수료를 제공받으며 
블로그 운영에 큰 도움이 됩니다. 감사합니다.
반응형