플그래밍/파이써언 192

[파이썬] 정규표현식, 이것만은 알고 가자 (regex)

텍스트 마이닝과 정규표현식은 서로 뗄레야 뗄 수 없는 사이입니다. 복잡한 정규표현식이지만 알아두면 좋은 몇 가지 기능만 살펴보겠습니다. [ ] import re text = "The vibrant colors of the autumn leaves created a mesmerizing view in the serene forest." print(re.findall("[a]", text)) text라는 문자열에서 알파벳 a를 추출해 옵니다. 총 5개가 추출된 것을 확인 할 수 있습니다. 예를 들어 [a] 대신 [ab]를 입력할 경우 알파벳 a와 b를 순서대로 추출해줍니다. 주로 쓰이는 표현법은 다음과 같습니다. 숫자: [0123456789] 또는 [0-9] 알파벳(소문자) : [a-z] 알파벳(대문자) :..

[파이썬] 단어 토큰화는 이렇게 (nltk)

텍스트 마이닝에서 토큰화는 일반적으로 단어 토큰화를 의미한다. 주어진 텍스트를 단어 단위로 나누어 준다. 대표적으로 word_tokenize()와 WordPunctTokenizer를 사용한다. from nltk.tokenize import word_tokenize from nltk.tokenize import WordPunctTokenizer para = "오늘 해가 아름답게 떴다. 나는 밖에서 커피를 즐겼다. 새들이 즐거운 노래를 불렀다. 공기는 만개한 꽃의 냄새로 가득했다. 완벽한 아침이었다." for word in word_tokenize(para): print(word) for word in WordPunctTokenizer().tokenize(para): print(word) 텍스트가 한글인 경..

[파이썬] 문장 단위로 토큰화 하는 방법 (nltk)

카운트 기반 텍스트 마이닝 전처리 과정에서 활용되는 단어 토큰화와 달리 문장 토큰화는 텍스트를 문장 단위로 나누어줍니다. from nltk.tokenize import sent_tokenize para = "The sun rose beautifully today. I enjoyed my coffee outside. Birds sang their cheerful tunes. The air smelled of blooming flowers. It was a perfect morning." for sent in sent_tokenize(para): print(sent) 코드 실행 시 문장 단위로 나누어 리스트 형태로 저장해줍니다. 위의 sent_tokenize()는 영어를 기반으로 학습된 모델이 사용되지만 마..

[파이썬] 토큰화(Tokenization)을 위한 필수 라이브러리

텍스트 마이닝의 초반 작업에 해당하는 토큰화를 위한 기본 라이브러리 설치 코드 import nltk nltk.download('punkt') nltk.download('webtext') nltk.download('wordnet') nltk.download('stopwords') nltk.download('averaged_perceptron_tagger') 쿠팡 광고 클릭 시, 이에 따른 일정액의 수수료를 제공받으며 블로그 운영에 큰 도움이 됩니다. 감사합니다.

[파이썬]"continue"로 원치 않는 항목을 걸러내는 방법

오늘은 파이썬의 매력적인 기능 중 하나인 'continue'를 활용하여 원치 않는 항목들을 걸러내는 방법에 대해 알아볼께요. 이 글을 읽고 나면 여러분은 반복문에서 원하는 조건의 결과만을 얻어내는 데 도움이 되는 기술을 익히게 될 거에요. 1. 'continue'를 사용하는 이유 파이썬에서 'continue'는 반복문에서 특정 조건에 맞지 않을 때 현재 반복을 중단하고 다음 loop으로 넘어가는 명령어입니다. 불필요한 결과를 건너뛰어서 출력하거나 추가 작업을 할 때 사용되며, 큰 양의 데이터를 처리할 때 프로그래머가 효율적인 알고리즘을 작성하는 데 도움이 됩니다. 2. 파이썬에서 'continue' 사용하기 'continue'를 사용하는 방법은 간단합니다. 'continue' 명령어를 원하는 코드 위치에..

[파이썬] 대문자 소문자 바꾸기

안녕하세요, 훗티입니다. 오늘은 대문자는 소문자로, 소문자는 대문자로 바꾸는 간단한 방법을 알아보겠습니다. 아래처럼 알파벳 하나씩 확인하면서 변경하는 방법도 있지만, # 대문자는 소문자로 소문자는 대문자로 str = "AbCdEf" result = '' for each in str: if each.upper() == each: result += each.lower() else: result += each.upper() print(f"기존 문자열: {str}") print(f"변경 후 문자열: {result}") 더욱 간단한 방법이 있습니다. swapcase()를 활용하는 방법인데요, 코드 한줄만으로도 가능합니다. # 대문자는 소문자로 소문자는 대문자로 str = "AbCdEf" result = str.s..

[파이썬] konlpy 사용 시 JVMNotFoundException오류

파이썬에서 konlpy라이브러리 사용시 JAVA_HOME PATH를 잘못 설정할 경우 아래와 같은 오류가 발생합니다. JVMNotFoundException: No JVM shared library file (jvm.dll) found. Try setting up the JAVA_HOME environment variable properly. 제어판 > 시스템 > 고급 시스템 설정 > 환경 변수 > 시스템 변수(S) 위로 들어가 새로 만들기 또는 편집에서 아래와 같이 설정해주면 됩니다. 변수 이름: JAVA_HOME 변수 값: C:\Program Files\Java\jdk-17\bin\server

[파이썬] Selenium으로 Javascript 코드 실행하기

파이썬 Selenium사용 시 Javascript코드 실행하는 방법입니다. CompanyGuide에서 제공하는 재무제표는 초기 로드시 아래와 같이 세부항목이 숨겨진 상태로 표시됩니다. + 아이콘 클릭 시 세부사항이 표시되는 방식입니다. Selenium으로 Javascript 코드를 실행시켜 세부사항을 표시해보도록 하겠습니다. Javascript 코드를 실행시키는 코드는 다음과 같습니다. driver.execute_script("실행시키고자하는 자바스크립트 코드") 전체코드는 다음과 같습니다. # selenium 4 from selenium import webdriver from selenium.webdriver.chrome import service from selenium.webdriver.common..

아나콘다 설치 방법입니다.

아나콘다 설치 방법에대해서 알아보도록 하겠습니다. 먼저, 아래 사이트로 접속하여 다운로드 버튼을 클릭합니다. 다운로드가 완료되면 브라우저를 닫고 설치파일을 실행합니다. 1. 시작 메뉴에 바로가기 메뉴를 추가하려면 체크합니다. 2. Anaconda3를 PATH환경에 추가하려면 체크합니다. 3. Anacond3를 기본 Python으로 설정하려면 체크합니다. 4. 설치 완료 후 패키지 캐시를 삭제하려면 체크합니다. Install 버튼 클릭 후 3~5분 정도 기다리면 설치가 완료됩니다.

[파이썬] 폴더 내 파일명 추출 - tkinter

실행화면 선택한 폴더 내 파일 목록을 보여주는 Tkinter 모듈로 만든 간단한 윈도우즈 앱입니다. - 앱 실행 시 먼저 실행파일이 위치한 폴더의 파일목록을 표시해줍니다. - 상단에는 현재 폴더의 위치를 표시해주는 위젯과 폴더 선택을 위한 버튼 위젯이 위치해있습니다. - 파일명과 파일 크기를 Treeview에 담아 각각 열1, 열2에 표시해줍니다. - 헤딩을 클릭하여 오름차순 및 내림차순으로 목록을 나열할 수 있습니다. - 트리뷰 우측에 파일 목록 탐색을 위한 스크롤바를 적용하였습니다. - 커맨드창을 숨기기위해 파이썬 실행파일의 확장자는 pyw로 설정하였습니다. 코드 import os import tkinter as tk from tkinter import filedialog from tkinter im..

728x90