파이썬 형태소분석기 '바른'을 활용한 텍스트 분석 – (6) 문서 분류
문서 분류란 문서 분류(Classification)는 주어진 문서에 대하여 미리 정해진 하나 혹은 복수의 부류(class, label)을 부여하는 절차를 말한다. 가장 대표적인 예는 스팸 메일 분류기이다. 스팸인지 아닌지 참 또는 거짓, 0 또는 1 등 두 개의 값을 가지는 경우는 이진 분류(Binary classification)를 수행한다. 반...
문서 분류란 문서 분류(Classification)는 주어진 문서에 대하여 미리 정해진 하나 혹은 복수의 부류(class, label)을 부여하는 절차를 말한다. 가장 대표적인 예는 스팸 메일 분류기이다. 스팸인지 아닌지 참 또는 거짓, 0 또는 1 등 두 개의 값을 가지는 경우는 이진 분류(Binary classification)를 수행한다. 반...
한국어 형태소 분석기 바른으로 형태소 분석 수행 후에 토픽 모델링을 해보는 코드 예시. 토픽 모델링이란 보통 하나의 문서는 여러 가지 토픽(주제)을 동시에 포함하고 있기 때문에 다양한 분류가 가능하다. 예를 들어, 파이썬 언어로 웹 응용 프로그램을 구현하는 내용의 문서가 있다고 한다면, 이 파이썬 관련 문서들과 묶일 수도 있고 웹 응용프로그램 관련...
한국어 형태소 분석기 바른으로 형태소 분석 수행 후에 문서들을 군집화 해보는 코드 예시. 문서 군집화란 문서 군집화(Clustering)는 여러 문서들이 있을 때 속성이 유사한 문서들끼리 집단(군집)화하는 절차를 말한다. 이때 문서의 속성과 문서의 유사성을 어떻게 정의할지가 매우 중요한데, 일반적으로 어휘 벡터 모델을 활용하여 유사도를 판단한다. ...
차별어 분석이란 이번에는 두 문서에서 사용되는 차별적인 어휘를 살펴보는 (예를 들면, 네이버 영화 리뷰 중 긍정 리뷰와 부정 리뷰에 각각 차별적으로 많이 등장하는 어휘가 무엇인지 파악하는) 분석을 해보려 한다. 이러한 차별어 분석에는 여러가지 방법을 사용할 수 있다. 흔히 odds ratio(오즈비)라는 걸 활용하는데, 본 포스팅에서는 KL 발산(...
한국어 형태소 분석기 바른으로 형태소 분석 수행 후, 동시 출현 (Co-occurence) 단어 행렬을 만들어보고 이를 네트워크 형태로 시각화 하는 코드 예시. 형태소 분석 pandas 데이터프레임 형식에서 바로 형태소 분석. 형태소 분석 적용할 때는 람다 함수를 활용했다. from bareunpy import Tagger import panda...
그동안 파이썬 한국어 형태소 분석기로 KoNLPy 이후에도 다양한 시도들이 있었다. 그 중 내가 최근까지 사용했던 형태소 분석기는 Kiwi였다. 성능도 괜찮다고 하고. 무엇보다 파이썬 pip만으로 편리하게 설치가 가능하다는 것이 가장 큰 장점이었기 때문. 그러던 와중에 이번에 바른이라는 형태소 분석기를 알게 되었다. 바른은 2022년 7월부터 20...
깃허브 블로그에 댓글 기능을 추가해보기로 했다. 후보는 disqus, utterances, giscus 이렇게 셋. 이 중 뭘 쓸까 고민했는데, disqus : 조잡하고 광고 있음. 탈락 utterances : 깔끔하고 광고 없음. 깃허브 Issues 기능 활용. (후보1) giscus : utterances의 상위 호환. 깃허브 Di...
그동안 워드프레스와 카페24 호스팅 조합으로 블로그를 하고 있었는데, 어느 순간 관리가 버겁다는 생각이 들었다. 워드프레스와 php 버전은 계속 업데이트되니 그에 따라 덕지덕지 붙어 있는 플러그인들도 호환성도 체크해줘야 되고, https 적용도 까다롭고. 아무튼 여러모로 불편하더라. 그래서 이 기회에 Github(깃허브) 블로그로 글을 다 옮겼다. ...
WORK 1. 풀타임 재택근무 4년차, 잘 챙겨먹는 게 목표 재택근무를 시작한지 만 4년이 되어간다. 재택근무의 가장 큰 고민거리라면 매일 끼니를 어떻게 잘(?) 챙겨먹는 것인데, 이것도 꽤 노하우가 생긴 것 같다. 나는 전자렌지에 1분 데워 먹을 수 있는 고등어 구이를 즐겨 먹으며, 매 끼니에 상추와 같은 쌈채소를 챙겨 먹는 편이다. 냉장고에 잘...
통계 돌릴 때 SPSS 안 쓴지 몇 년이 지났다. 최근에 파이썬으로 구조방정식 돌릴 방법을 찾다가 쉽게 사용법을 소개하는 괜찮은 글이 있어서 이 기회에 블로그에 남겨놓고자 한다. 아래 내용은 Towards Data Science에 기고된 Structural Equation Modeling 글의 번역이다. 구조방정식이란 구조방정식은 언제 사...