일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 역검 합격 꿀팁
- 역검 결과표
- 서비스
- 토픽모델링
- 삼정kpmg mc4
- 코딩테스트
- nlp
- 형태소분석
- join
- 파이썬
- SQL
- 잡다 ai역량검사
- mecab
- ai역검 합격
- 역검 전략게임
- 삼정kpmg 취업
- python
- 프로그래머스
- kpmg 인성검사
- 잡다 ai역검
- lda
- pyLDAvis
- 후기
- 오류
- 삼정kpmg 서류
- 삼정kpmg pt면접
- MYSQL
- gensim
- 컨설팅 면접
- 역검 전략게임 꿀팁
- Today
- Total
목록형태소분석 (2)
쥬니어 분석가

1. 형태소 분석기 비교 한국어 자연어 처리를 위해서는 KoNLPy라는 파이썬 패키지를 사용할 수 있습니다. 형태소 분석기로는 Okt(Open Korea Text), 메캅(Mecab), 코모란(Komoran), 한나눔(Hannanum), 꼬꼬마(Kkma)가 있습니다.저는 이 중 Okt, Kkma, Mecab 형태소 분석기를 사용하려고 합니다. 각각의 메소드는 아래와 같은 기능을 갖고 있습니다.1) morphs : 형태소 추출 2) pos : 품사 태깅(Part-of-speech tagging) 3) nouns : 명사 추출 이제 파이썬에서 형태소 분석기를 사용하여 토큰화를 해보도록 합시다.아이고 하기싫어from konlpy.tag import Oktfrom konlpy.tag im..

C:\mecab의 폴더는 아래와 같은 3개의 폴더로 이뤄져 있습니다. 물론 사람마다 폴더의 경로는 다르니 자신의 mecab 폴더 경로를 확인해 주시면 됩니다. mecab-ko-dic : mecab의 단어 사전 tools : 단어 사전에 단어를 추가시킨 후 컴파일 및 적용을 시켜주는 프로그램들 존재 user-dic : 사용자가 추가적으로 추가한 단어에 대한 단어 사전 필자의 경우 "고대숲"을 하나의 명사로 인식하고 싶었는데 mecab에서 고대/숲 따로 인식해서 이걸 사용자 정의 사전에 추가하려고 합니다. from eunjeon import Mecab m=Mecab() sentence = "오랜만에 페이스북 들어가서 고대숲을 읽었는데 너무 슬프네요" m.pos(sentence) 단어 사전에 단어를 추가하는 ..