플그래밍/파이써언

[파이썬] 한글 품사 태깅, 이것만은 알고 가자 (konlpy)

훗티v 2023. 6. 25. 06:18
728x90
반응형

nltk로는 한글 텍스트를 분석하기는 적합하지 않다. 각 단어가 공백으로 분리되어있는 영어와는 다르게 한글은 더 복잡한 구조를 띈다. 그렇기 때문에 텍스트 전처리 과정은 한글에 최적화된 konlpy를 쓴다.

 

라이브러리 konlpy에서 제공하는Okt()를 활용하여 형태소, 명사, 품사 태깅을 해보자.

 

from konlpy.tag import Okt

t = Okt()

text = "한국에서 인간 심리학은 역사적으로 감정, 
대인 관계 및 사회적 조화에 대한 이해를 깊이 간직한 풍부한 문화적 역사 때문에 
매우 중요한 주제로 다뤄져 왔습니다. 유교, 불교, 무속신앙의 독특한 전통을 토대로 발전해 온 
한국의 심리학은 국내외 수많은 이론과 실제를 수용하여 현대적인 심리학 연구에 기여하고 있습니다. 
한국의 급속한 산업화와 현대화는 스트레스, 경쟁, 기대감 등 정신 건강에 영향을 미치는 
다양한 사회적 변화를 가져 왔습니다. 이로 인해 한국의 심리학자들은 
이러한 문화적 요소가 개인의 사고, 행동 및 감정에 미치는 영향을 연구하는 동시에, 
삶의 질 향상과 사회적 적응력 및 복지를 높이는 데 주력하고 있습니다. 
이 노력들은 한국 심리학의 발전에 기여함은 물론, 국제적인 심리학 연구와 협력을 통해 
세계의 다양한 문화와 배경에 근거한 심리학의 대화에 이바지하고 있다고 할 수 있습니다."

print(f"형태소 > {t.morphs(text)}", end="\n\n")
print(f"명사 > {t.nouns(text)}", end="\n\n")
print(f"품사 > {t.pos(text)}", end="\n\n")

 

 

nltk를 사용했을 경우 한개로 묶였을만한 "한국에서", "심리학은", "역사적으로"와 같은 토큰이 알맞게 나뉘어있는 것을 볼 수 있다. 명사 추출 시 필요한 키워드만 추출해놓은 모습이다. 품사 태깅에서 조사가 자주 쓰이는 것을 볼 수 있다.

 

 

 

 

 

쿠팡 광고 클릭 시, 이에 따른 일정액의 수수료를 제공받으며 블로그 운영에 큰 도움이 됩니다. 감사합니다.

반응형