카운트 기반 텍스트 마이닝 전처리 과정에서 활용되는 단어 토큰화와 달리 문장 토큰화는 텍스트를 문장 단위로 나누어줍니다.
from nltk.tokenize import sent_tokenize
para = "The sun rose beautifully today. I enjoyed my coffee outside.
Birds sang their cheerful tunes. The air smelled of blooming flowers.
It was a perfect morning."
for sent in sent_tokenize(para):
print(sent)
코드 실행 시 문장 단위로 나누어 리스트 형태로 저장해줍니다.
위의 sent_tokenize()는 영어를 기반으로 학습된 모델이 사용되지만 마침표를 기준으로 구분되기 때문에 한글문장 토큰화에 사용해도 어느 정도 의미있는 결과를 추출해준다.
from nltk.tokenize import sent_tokenize
para = "오늘 해가 아름답게 떴다. 나는 밖에서 커피를 즐겼다. 새들이 즐거운 노래를 불렀다. 공기는 만개한 꽃의 냄새로 가득했다. 완벽한 아침이었다."
for sent in sent_tokenize(para):
print(sent)
쿠팡 광고 클릭 시, 이에 따른 일정액의 수수료를 제공받으며 블로그 운영에 큰 도움이 됩니다. 감사합니다.
728x90
'플그래밍 > 파이써언' 카테고리의 다른 글
[파이썬] 정규표현식, 이것만은 알고 가자 (regex) (0) | 2023.06.25 |
---|---|
[파이썬] 단어 토큰화는 이렇게 (nltk) (0) | 2023.06.25 |
[파이썬] 토큰화(Tokenization)을 위한 필수 라이브러리 (0) | 2023.06.25 |
[파이썬]"continue"로 원치 않는 항목을 걸러내는 방법 (1) | 2023.06.16 |
[파이썬] 대문자 소문자 바꾸기 (0) | 2023.05.13 |