아무튼 워라밸

『시지프 신화』 下

시지프 신화 우리는 이미 시지프가 부조리한 영웅이라는 것을 알아차렸다. 그는 그의 열정뿐 아니라 그의 고뇌로 인해 부조리한 영웅인 것이다. 신들에 대한 멸시, 죽음에 대한 증오 그리고 삶에 대한 열정은 아무것도 성취할 수 없는 일에 전 존재를 바쳐야 하는 형용할 수 없는 형벌을 그에게 안겨 주었다. 이것이 이 땅에 대한 정열을 위해 지...

『시지프 신화』 中

부조리한 인간 “나의 영역은 시간이다.”라고 괴테는 말했다. 이것이야말로 부조리한 말이다. 부조리한 인간이란 실제로 어떤 인간인가? 영원을 부정하지는 않지만 영원을 위해 아무것도 하지 않는 자다. 그가 영원에 대한 향수를 조금도 느끼지 않아서가 아니다. 그러나 그는 향수보다는 자신의 용기와 이성 쪽을 택한다. 용기는 그에게 구원을 호...

파이썬 형태소분석기 '바른'을 활용한 텍스트 분석 – (6) 문서 분류

문서 분류란 문서 분류(Classification)는 주어진 문서에 대하여 미리 정해진 하나 혹은 복수의 부류(class, label)을 부여하는 절차를 말한다. 가장 대표적인 예는 스팸 메일 분류기이다. 스팸인지 아닌지 참 또는 거짓, 0 또는 1 등 두 개의 값을 가지는 경우는 이진 분류(Binary classification)를 수행한다. 반...

파이썬 형태소분석기 '바른'을 활용한 텍스트 분석 – (5) 토픽 모델링

한국어 형태소 분석기 바른으로 형태소 분석 수행 후에 토픽 모델링을 해보는 코드 예시. 토픽 모델링이란 보통 하나의 문서는 여러 가지 토픽(주제)을 동시에 포함하고 있기 때문에 다양한 분류가 가능하다. 예를 들어, 파이썬 언어로 웹 응용 프로그램을 구현하는 내용의 문서가 있다고 한다면, 이 파이썬 관련 문서들과 묶일 수도 있고 웹 응용프로그램 관련...

파이썬 형태소분석기 '바른'을 활용한 텍스트 분석 – (4) 문서 군집화

한국어 형태소 분석기 바른으로 형태소 분석 수행 후에 문서들을 군집화 해보는 코드 예시. 문서 군집화란 문서 군집화(Clustering)는 여러 문서들이 있을 때 속성이 유사한 문서들끼리 집단(군집)화하는 절차를 말한다. 이때 문서의 속성과 문서의 유사성을 어떻게 정의할지가 매우 중요한데, 일반적으로 어휘 벡터 모델을 활용하여 유사도를 판단한다. ...

파이썬 형태소분석기 '바른'을 활용한 텍스트 분석 – (3) 차별어 분석

차별어 분석이란 이번에는 두 문서에서 사용되는 차별적인 어휘를 살펴보는 (예를 들면, 네이버 영화 리뷰 중 긍정 리뷰와 부정 리뷰에 각각 차별적으로 많이 등장하는 어휘가 무엇인지 파악하는) 분석을 해보려 한다. 이러한 차별어 분석에는 여러가지 방법을 사용할 수 있다. 흔히 odds ratio(오즈비)라는 걸 활용하는데, 본 포스팅에서는 KL 발산(...