반응형

전체 글 2011

기사 제목으로 알아보는 오늘의 증권시장 (2023/06/27)

위로기사제목으로 알아보는 오늘 가장 많이 이슈화된 종목주식시장에서 시장참여자에게 관심을 가장 많이 받거나 큰 자금의 거래가 활발히 발생한 종목과 관련된 기사를 통해 어떤 종목에서 어떤 이슈가 발생했는지를 알아보세요.* 기사는 종목과 관련이 없을 수도 있습니다. 쿠팡 광고 클릭 시, 이에 따른 일정액의 수수료를 제공받으며 블로그 운영에 큰 도움이 됩니다. 감사합니다. SK+2.31%디오-2.21%스튜디오드래곤-5.89%LG+0.34%레이-1.89%CJ-1.96%SK이노베이션-2.45%카카오-1.30%NH투자증권-0.31%하나기술+4.39%농심+3.96%삼성전자+0.28%하이브-2.01%한화-0.17%현대엘리베이-4.99%카카오뱅크+1.26%팬젠-2.20%한화리츠+2.10%현대차+2.74%LG화학0.00%S..

기사 제목으로 알아보는 오늘의 증권시장 (2023/06/26)

위로기사제목으로 알아보는 오늘 가장 많이 이슈화된 종목주식시장에서 시장참여자에게 관심을 가장 많이 받거나 큰 자금의 거래가 활발히 발생한 종목과 관련된 기사를 통해 어떤 종목에서 어떤 이슈가 발생했는지를 알아보세요.* 기사는 종목과 관련이 없을 수도 있습니다. 쿠팡 광고 클릭 시, 이에 따른 일정액의 수수료를 제공받으며 블로그 운영에 큰 도움이 됩니다. 감사합니다. SK-4.17%현대건설+6.25%CJ-0.70%LG+0.46%SK이노베이션-6.08%레이+0.95%아모레퍼시픽+0.30%삼성전자+1.12%CJ CGV-1.61%SK하이닉스-0.09%SG-1.78%LIG넥스원+1.12%대상-0.40%루닛+21.24%LG생활건강+0.20%폴라리스오피스+1.57%LS+0.11%넥슨게임즈+0.21%비스토스+29.83..

기사 제목으로 알아보는 오늘의 증권시장 (2023/06/23)

위로기사제목으로 알아보는 오늘 가장 많이 이슈화된 종목주식시장에서 시장참여자에게 관심을 가장 많이 받거나 큰 자금의 거래가 활발히 발생한 종목과 관련된 기사를 통해 어떤 종목에서 어떤 이슈가 발생했는지를 알아보세요.* 기사는 종목과 관련이 없을 수도 있습니다. * 기사는 종목과 관련이 없을 수도 있습니다. 쿠팡 광고 클릭 시, 이에 따른 일정액의 수수료를 제공받으며 블로그 운영에 큰 도움이 됩니다. 감사합니다. SK0.00%CJ0.00%선진0.00%LG0.00%삼성전자0.00%CJ CGV0.00%한화0.00%대신증권0.00%레이0.00%토니모리0.00%카카오0.00%SG0.00%삼일0.00%콘텐트리중앙0.00%아모레퍼시픽0.00%LG화학0.00%신세계0.00%SK텔레콤0.00%넷마블0.00%라이콤0.00..

기사 제목으로 알아보는 오늘의 증권시장 (2023/06/12)

위로기사제목으로 알아보는 오늘 가장 많이 이슈화된 종목주식시장에서 시장참여자에게 관심을 가장 많이 받거나 큰 자금의 거래가 활발히 발생한 종목과 관련된 기사를 통해 어떤 종목에서 어떤 이슈가 발생했는지를 알아보세요.* 기사는 종목과 관련이 없을 수도 있습니다. * 기사는 종목과 관련이 없을 수도 있습니다. 쿠팡 광고 클릭 시, 이에 따른 일정액의 수수료를 제공받으며 블로그 운영에 큰 도움이 됩니다. 감사합니다. SK0.00%삼성증권0.00%코오롱0.00%대상0.00%SK하이닉스0.00%코오롱모빌리티그룹0.00%펄어비스0.00%LG0.00%한양증권0.00%레이0.00%폴라리스오피스0.00%SK네트웍스0.00%상상인0.00%메디톡스0.00%에코프로0.00%KT0.00%KT서브마린0.00%현대차0.00%LG전..

[파이썬] 한글 품사 태깅, 이것만은 알고 가자 (konlpy)

nltk로는 한글 텍스트를 분석하기는 적합하지 않다. 각 단어가 공백으로 분리되어있는 영어와는 다르게 한글은 더 복잡한 구조를 띈다. 그렇기 때문에 텍스트 전처리 과정은 한글에 최적화된 konlpy를 쓴다. 라이브러리 konlpy에서 제공하는Okt()를 활용하여 형태소, 명사, 품사 태깅을 해보자. from konlpy.tag import Okt t = Okt() text = "한국에서 인간 심리학은 역사적으로 감정, 대인 관계 및 사회적 조화에 대한 이해를 깊이 간직한 풍부한 문화적 역사 때문에 매우 중요한 주제로 다뤄져 왔습니다. 유교, 불교, 무속신앙의 독특한 전통을 토대로 발전해 온 한국의 심리학은 국내외 수많은 이론과 실제를 수용하여 현대적인 심리학 연구에 기여하고 있습니다. 한국의 급속한 산업..

[파이썬] 품사 태깅, 이것만은 알고 가자 (nltk)

텍스트를 토큰화시킨후 품사를 태깅 시키는 방법에 대해서 알아보겠습니다. import nltk from nltk.tokenize import word_tokenize text = "I went to the store yesterday and bought some bread and milk, but I realized I forgot my wallet at home." tokens = word_tokenize(text) for each in nltk.pos_tag(tokens): print(f"{each[0]} ({each[1]})") text를 word_tokenize()로 토큰화하고나서 각 토큰을 nltk.pos_tag()로 품사를 붙여줍니다. 각 단어에 품사가 붙여진걸 볼 수 있습니다. 품사 약어 설명..

[파이썬] 노이즈 및 불용어, 이것만은 알고 가자 (nltk)

텍스트 마이닝에서 불필요하거나 분석 대상이 아닌 단어를 뜻하는 노이즈 및 불용어 제거는 필수 전처리 단계이며 분석결과의 정확성에 크게 영향을 끼친다. nltk에서는 기본적으로 아래와 같은 불용어 리스트를 제공한다. ['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their'..

[파이썬] 정규표현식, 이것만은 알고 가자 (regex)

텍스트 마이닝과 정규표현식은 서로 뗄레야 뗄 수 없는 사이입니다. 복잡한 정규표현식이지만 알아두면 좋은 몇 가지 기능만 살펴보겠습니다. [ ] import re text = "The vibrant colors of the autumn leaves created a mesmerizing view in the serene forest." print(re.findall("[a]", text)) text라는 문자열에서 알파벳 a를 추출해 옵니다. 총 5개가 추출된 것을 확인 할 수 있습니다. 예를 들어 [a] 대신 [ab]를 입력할 경우 알파벳 a와 b를 순서대로 추출해줍니다. 주로 쓰이는 표현법은 다음과 같습니다. 숫자: [0123456789] 또는 [0-9] 알파벳(소문자) : [a-z] 알파벳(대문자) :..

[파이썬] 단어 토큰화는 이렇게 (nltk)

텍스트 마이닝에서 토큰화는 일반적으로 단어 토큰화를 의미한다. 주어진 텍스트를 단어 단위로 나누어 준다. 대표적으로 word_tokenize()와 WordPunctTokenizer를 사용한다. from nltk.tokenize import word_tokenize from nltk.tokenize import WordPunctTokenizer para = "오늘 해가 아름답게 떴다. 나는 밖에서 커피를 즐겼다. 새들이 즐거운 노래를 불렀다. 공기는 만개한 꽃의 냄새로 가득했다. 완벽한 아침이었다." for word in word_tokenize(para): print(word) for word in WordPunctTokenizer().tokenize(para): print(word) 텍스트가 한글인 경..

[파이썬] 문장 단위로 토큰화 하는 방법 (nltk)

카운트 기반 텍스트 마이닝 전처리 과정에서 활용되는 단어 토큰화와 달리 문장 토큰화는 텍스트를 문장 단위로 나누어줍니다. from nltk.tokenize import sent_tokenize para = "The sun rose beautifully today. I enjoyed my coffee outside. Birds sang their cheerful tunes. The air smelled of blooming flowers. It was a perfect morning." for sent in sent_tokenize(para): print(sent) 코드 실행 시 문장 단위로 나누어 리스트 형태로 저장해줍니다. 위의 sent_tokenize()는 영어를 기반으로 학습된 모델이 사용되지만 마..

반응형