일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 역검 결과표
- 토픽모델링
- 컨설팅 면접
- 서비스
- 역검 합격 꿀팁
- 삼정kpmg 취업
- join
- MYSQL
- 프로그래머스
- 삼정kpmg 서류
- python
- 삼정kpmg mc4
- mecab
- 역검 전략게임 꿀팁
- 오류
- ai역검 합격
- 삼정kpmg pt면접
- kpmg 인성검사
- 형태소분석
- lda
- SQL
- 코딩테스트
- gensim
- 후기
- 잡다 ai역량검사
- 파이썬
- 역검 전략게임
- pyLDAvis
- nlp
- 잡다 ai역검
- Today
- Total
목록전체 글 (47)
쥬니어 분석가

텍스트 정제 - replace( ) 함수 파이썬을 사용하다 보면 문장의 오탈자 수정 및 특정 단어를 다른 단어로 변환하고 싶을 때가 있습니다. 그럴 때 파이썬의 relace() 함수를 사용하면 빠르게 원하는대로 문장을 수정할 수 있습니다. 함수 사용 방법 str.replace(old, new, count) str: 문자열 old: 바꾸고 싶은 문자열 new: 바꿀 문자열 count (선택 사항): old 문자열을 몇 번 바꿀 것인지 선택/ 기본값은 -1이며, 모든 old 문자열을 new 문자열로 변경 함수 사용 예시 import pandas as pd text = "데이터분석은 어렵지만 유용해😊 데이터분석 공부를 으쌰으쌰 열심히해서 멋진 분석가가 될거야~^_^!" # "데이터분석"을 "마케팅"으로 바꾸기..

먼저 크롤링을 하기 위한 환경 구성을 위해 webdrvier-manager를 설치해준다. pip install webdriver-manager 그 후 크롤링을 위해 필요한 라이브러리와 그 외 필요한 time, pandas 라이브러리를 import 해준다. 동적 크롤링을 위한 selenium과 정적 크롤링을 위한 Beautifulsoup 두 개를 사용하였고, webdriver로는 크롬드라이버를 사용해서 진행하였다. from bs4 import BeautifulSoup from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from..

대분류 세종 품사 태그 mecab-ko-dic 품사 태그 태그 설명 태그 설명 체언 NNG 일반 명사 NNG 일반 명사 NNP 고유 명사 NNP 고유 명사 NNB 의존 명사 NNB 의존 명사 NNBC 단위를 나타내는 명사 NR 수사 NR 수사 NP 대명사 NP 대명사 용언 VV 동사 VV 동사 VA 형용사 VA 형용사 VX 보조 용언 VX 보조 용언 VCP 긍정 지정사 VCP 긍정 지정사 VCN 부정 지정사 VCN 부정 지정사 관형사 MM 관형사 MM 관형사 부사 MAG 일반 부사 MAG 일반 부사 MAJ 접속 부사 MAJ 접속 부사 감탄사 IC 감탄사 IC 감탄사 조사 JKS 주격 조사 JKS 주격 조사 JKC 보격 조사 JKC 보격 조사 JKG 관형격 조사 JKG 관형격 조사 JKO 목적격 조사 JK..

1. 형태소 분석기 비교 한국어 자연어 처리를 위해서는 KoNLPy라는 파이썬 패키지를 사용할 수 있습니다. 형태소 분석기로는 Okt(Open Korea Text), 메캅(Mecab), 코모란(Komoran), 한나눔(Hannanum), 꼬꼬마(Kkma)가 있습니다.저는 이 중 Okt, Kkma, Mecab 형태소 분석기를 사용하려고 합니다. 각각의 메소드는 아래와 같은 기능을 갖고 있습니다.1) morphs : 형태소 추출 2) pos : 품사 태깅(Part-of-speech tagging) 3) nouns : 명사 추출 이제 파이썬에서 형태소 분석기를 사용하여 토큰화를 해보도록 합시다.아이고 하기싫어from konlpy.tag import Oktfrom konlpy.tag im..

C:\mecab의 폴더는 아래와 같은 3개의 폴더로 이뤄져 있습니다. 물론 사람마다 폴더의 경로는 다르니 자신의 mecab 폴더 경로를 확인해 주시면 됩니다. mecab-ko-dic : mecab의 단어 사전 tools : 단어 사전에 단어를 추가시킨 후 컴파일 및 적용을 시켜주는 프로그램들 존재 user-dic : 사용자가 추가적으로 추가한 단어에 대한 단어 사전 필자의 경우 "고대숲"을 하나의 명사로 인식하고 싶었는데 mecab에서 고대/숲 따로 인식해서 이걸 사용자 정의 사전에 추가하려고 합니다. from eunjeon import Mecab m=Mecab() sentence = "오랜만에 페이스북 들어가서 고대숲을 읽었는데 너무 슬프네요" m.pos(sentence) 단어 사전에 단어를 추가하는 ..

요즘 버전을 다운 받으면 아래와 같은 오류가 안뜨겠지만 나는 파이썬 버전 문제인지 gensim 버전 문제인지 import pyLDAvis.gensim_models 자체가 되지 않았다. gensim_models은 최신 업데이트 버전이고, 나는 최신 버전이 실행이 안되서 import pyLDAvis.gensim 로 불러오니 1차적으로 import는 되었지만 아래와 같은 오류가 발생했다. UnicodeEncodeError: 'ascii' codec can't encode characters in position 18-23: ordinal not in range(128) C:\Anaconda3\lib\site-packages\joblib\externals\loky\backend\resource_tracker.p..