아무튼 워라밸

파이썬 형태소분석기 '바른'을 활용한 텍스트 분석 – (6) 문서 분류

문서 분류란 문서 분류(Classification)는 주어진 문서에 대하여 미리 정해진 하나 혹은 복수의 부류(class, label)을 부여하는 절차를 말한다. 가장 대표적인 예는 스팸 메일 분류기이다. 스팸인지 아닌지 참 또는 거짓, 0 또는 1 등 두 개의 값을 가지는 경우는 이진 분류(Binary classification)를 수행한다. 반...

파이썬 형태소분석기 '바른'을 활용한 텍스트 분석 – (5) 토픽 모델링

한국어 형태소 분석기 바른으로 형태소 분석 수행 후에 토픽 모델링을 해보는 코드 예시. 토픽 모델링이란 보통 하나의 문서는 여러 가지 토픽(주제)을 동시에 포함하고 있기 때문에 다양한 분류가 가능하다. 예를 들어, 파이썬 언어로 웹 응용 프로그램을 구현하는 내용의 문서가 있다고 한다면, 이 파이썬 관련 문서들과 묶일 수도 있고 웹 응용프로그램 관련...

파이썬 형태소분석기 '바른'을 활용한 텍스트 분석 – (4) 문서 군집화

한국어 형태소 분석기 바른으로 형태소 분석 수행 후에 문서들을 군집화 해보는 코드 예시. 문서 군집화란 문서 군집화(Clustering)는 여러 문서들이 있을 때 속성이 유사한 문서들끼리 집단(군집)화하는 절차를 말한다. 이때 문서의 속성과 문서의 유사성을 어떻게 정의할지가 매우 중요한데, 일반적으로 어휘 벡터 모델을 활용하여 유사도를 판단한다. ...

파이썬 형태소분석기 '바른'을 활용한 텍스트 분석 – (3) 차별어 분석

차별어 분석이란 이번에는 두 문서에서 사용되는 차별적인 어휘를 살펴보는 (예를 들면, 네이버 영화 리뷰 중 긍정 리뷰와 부정 리뷰에 각각 차별적으로 많이 등장하는 어휘가 무엇인지 파악하는) 분석을 해보려 한다. 이러한 차별어 분석에는 여러가지 방법을 사용할 수 있다. 흔히 odds ratio(오즈비)라는 걸 활용하는데, 본 포스팅에서는 KL 발산(...

파이썬 형태소분석기 '바른'을 활용한 텍스트 분석 – (2) 동시출현 단어 & 네트워크 시각화

한국어 형태소 분석기 바른으로 형태소 분석 수행 후, 동시 출현 (Co-occurence) 단어 행렬을 만들어보고 이를 네트워크 형태로 시각화 하는 코드 예시. 형태소 분석 pandas 데이터프레임 형식에서 바로 형태소 분석. 형태소 분석 적용할 때는 람다 함수를 활용했다. from bareunpy import Tagger import panda...

파이썬 형태소분석기 '바른'을 활용한 텍스트 분석 – (1) 어휘 빈도 분석 & 워드 클라우드 시각화

그동안 파이썬 한국어 형태소 분석기로 KoNLPy 이후에도 다양한 시도들이 있었다. 그 중 내가 최근까지 사용했던 형태소 분석기는 Kiwi였다. 성능도 괜찮다고 하고. 무엇보다 파이썬 pip만으로 편리하게 설치가 가능하다는 것이 가장 큰 장점이었기 때문. 그러던 와중에 이번에 바른이라는 형태소 분석기를 알게 되었다. 바른은 2022년 7월부터 20...

GitHub 블로그 쉽게 만들기

그동안 워드프레스와 카페24 호스팅 조합으로 블로그를 하고 있었는데, 어느 순간 관리가 버겁다는 생각이 들었다. 워드프레스와 php 버전은 계속 업데이트되니 그에 따라 덕지덕지 붙어 있는 플러그인들도 호환성도 체크해줘야 되고, https 적용도 까다롭고. 아무튼 여러모로 불편하더라. 그래서 이 기회에 Github(깃허브) 블로그로 글을 다 옮겼다. ...

나의 2023년 돌아보기

WORK 1. 풀타임 재택근무 4년차, 잘 챙겨먹는 게 목표 재택근무를 시작한지 만 4년이 되어간다. 재택근무의 가장 큰 고민거리라면 매일 끼니를 어떻게 잘(?) 챙겨먹는 것인데, 이것도 꽤 노하우가 생긴 것 같다. 나는 전자렌지에 1분 데워 먹을 수 있는 고등어 구이를 즐겨 먹으며, 매 끼니에 상추와 같은 쌈채소를 챙겨 먹는 편이다. 냉장고에 잘...