일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 삼정kpmg pt면접
- 잡다 ai역량검사
- 삼정kpmg 취업
- 역검 전략게임
- mecab
- lda
- 후기
- 오류
- 역검 합격 꿀팁
- 역검 전략게임 꿀팁
- 파이썬
- join
- ai역검 합격
- 삼정kpmg 서류
- 코딩테스트
- MYSQL
- kpmg 인성검사
- 컨설팅 면접
- SQL
- gensim
- 토픽모델링
- 프로그래머스
- 서비스
- 잡다 ai역검
- python
- 삼정kpmg mc4
- 역검 결과표
- pyLDAvis
- 형태소분석
- nlp
- Today
- Total
목록python (9)
쥬니어 기획자

지난 게시물에서는 LDA 시각화를 구현해보았습니다. 🔽 LDA 시각화 방법 참고 [NLP/토픽모델링] 리뷰 분석 - LDA 모델링, 하이퍼파라미터 튜닝지난 게시글에서 집닥 인테리어 고객 후기 데이터를 크롤링하여 데이터프레임으로 추출하였습니다. 이번 게시글에서는 LDA 토픽 모델링을 토대로 집닥 인테리어 후기를 분석해보겠습니다. 1. 텍jiyoon1ing.tistory.com 이번 게시물에서는 LDA 토픽모델링 시각화를 통해 얻은 각 토픽 별 단어들을 보고 공통점을 찾아 라벨링을 해주고, 유사한 토픽끼리는 그룹을 묶어서 확인해보려고 합니다. ▶ Group 1. 만족도 관련 - Topic 1,2,4 Topic 1 - 시공 전반적 만족도키워드 : 인테리어, 공사, 진행, ..

지난 게시글에서 집닥 인테리어 고객 후기 데이터를 크롤링하여 데이터프레임으로 추출하였습니다. 이번 게시글에서는 LDA 토픽 모델링을 토대로 집닥 인테리어 후기를 분석해보겠습니다. 1. 텍스트 전처리 import numpy as np import pandas as pd from eunjeon import Mecab mecab = Mecab(dicpath='C:/mecab/mecab-ko-dic') import re from collections import Counter 이전 게시물에서 크롤링을 통해 얻은 집닥 인테리어 후기 데이터를 가지고 옵니다. data = pd.read_csv("집닥 리뷰.csv") 총 510개의 리뷰 데이터에서 한국어 텍스트만 보기 위해 텍스트 정규화를 진행하였습니다. data['..

텍스트 정제 - replace( ) 함수 파이썬을 사용하다 보면 문장의 오탈자 수정 및 특정 단어를 다른 단어로 변환하고 싶을 때가 있습니다. 그럴 때 파이썬의 relace() 함수를 사용하면 빠르게 원하는대로 문장을 수정할 수 있습니다. 함수 사용 방법 str.replace(old, new, count) str: 문자열 old: 바꾸고 싶은 문자열 new: 바꿀 문자열 count (선택 사항): old 문자열을 몇 번 바꿀 것인지 선택/ 기본값은 -1이며, 모든 old 문자열을 new 문자열로 변경 함수 사용 예시 import pandas as pd text = "데이터분석은 어렵지만 유용해😊 데이터분석 공부를 으쌰으쌰 열심히해서 멋진 분석가가 될거야~^_^!" # "데이터분석"을 "마케팅"으로 바꾸기..

먼저 크롤링을 하기 위한 환경 구성을 위해 webdrvier-manager를 설치해준다. pip install webdriver-manager 그 후 크롤링을 위해 필요한 라이브러리와 그 외 필요한 time, pandas 라이브러리를 import 해준다. 동적 크롤링을 위한 selenium과 정적 크롤링을 위한 Beautifulsoup 두 개를 사용하였고, webdriver로는 크롬드라이버를 사용해서 진행하였다. from bs4 import BeautifulSoup from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from..

대분류 세종 품사 태그 mecab-ko-dic 품사 태그 태그 설명 태그 설명 체언 NNG 일반 명사 NNG 일반 명사 NNP 고유 명사 NNP 고유 명사 NNB 의존 명사 NNB 의존 명사 NNBC 단위를 나타내는 명사 NR 수사 NR 수사 NP 대명사 NP 대명사 용언 VV 동사 VV 동사 VA 형용사 VA 형용사 VX 보조 용언 VX 보조 용언 VCP 긍정 지정사 VCP 긍정 지정사 VCN 부정 지정사 VCN 부정 지정사 관형사 MM 관형사 MM 관형사 부사 MAG 일반 부사 MAG 일반 부사 MAJ 접속 부사 MAJ 접속 부사 감탄사 IC 감탄사 IC 감탄사 조사 JKS 주격 조사 JKS 주격 조사 JKC 보격 조사 JKC 보격 조사 JKG 관형격 조사 JKG 관형격 조사 JKO 목적격 조사 JK..

1. 형태소 분석기 비교 한국어 자연어 처리를 위해서는 KoNLPy라는 파이썬 패키지를 사용할 수 있습니다. 형태소 분석기로는 Okt(Open Korea Text), 메캅(Mecab), 코모란(Komoran), 한나눔(Hannanum), 꼬꼬마(Kkma)가 있습니다.저는 이 중 Okt, Kkma, Mecab 형태소 분석기를 사용하려고 합니다. 각각의 메소드는 아래와 같은 기능을 갖고 있습니다.1) morphs : 형태소 추출 2) pos : 품사 태깅(Part-of-speech tagging) 3) nouns : 명사 추출 이제 파이썬에서 형태소 분석기를 사용하여 토큰화를 해보도록 합시다.아이고 하기싫어from konlpy.tag import Oktfrom konlpy.tag im..