요즘 유행하는 AI 면접의 실체 (feat. 마이다스아이티)
이전에 ”채용 인적성 검사의 비밀”이라는 글을 쓴 적이 있다. 사실 이건 전통적인 인성검사에 대한 이야기다. 이제 채용 시장에서는 AI 면접이 인기다. 그런데 사람들이 이 ✌AI 면접✌라는 단어를 사용하는 걸 보면 애초에 개념에 대한 오해가 좀 있는 것 같기도 하고, 정작 그 원리를 모른 채 용어만 남발하는 경우가 많은 것 같다. 유튜브에는 “AI...
이전에 ”채용 인적성 검사의 비밀”이라는 글을 쓴 적이 있다. 사실 이건 전통적인 인성검사에 대한 이야기다. 이제 채용 시장에서는 AI 면접이 인기다. 그런데 사람들이 이 ✌AI 면접✌라는 단어를 사용하는 걸 보면 애초에 개념에 대한 오해가 좀 있는 것 같기도 하고, 정작 그 원리를 모른 채 용어만 남발하는 경우가 많은 것 같다. 유튜브에는 “AI...
자연어 처리(NLP: Natural Language Processing), 흔히 말하는 텍스트 마이닝을 할 때 Bag-of-Words(이하 BoW)는 정말 단순하지만 여전히 유효한 모델이다. 여러가지 장면에 쉽게 활용할 수 있기 때문이다. 예를 들면 글에서 키워드를 뽑아낸다거나 스팸 메일을 필터링 한다거나, 긍정 vs 부정과 같은 감성 분석을 하는 등...
서포트 벡터 머신(SVM: Support Vector Machine)은 분류 과제에 사용할 수 있는 강력한 머신러닝 지도학습 모델이다. 일단 이 SVM의 개념만 최대한 쉽게 설명해본다. 중간중간 파이썬 라이브러리 scikit-learn을 사용한 아주 기초적인 실습을 통해 개념 이해를 돕는다. 서포트 벡터 머신이란 서포트 벡터 머신(이하 SVM)은 ...
그동안 심리학을 비롯한 사회과학 분야에서 연구할 때 가장 많이 쓰던 통계 프로그램은 SPSS였다. 최근에 회사에서 심리검사 결과를 가지고 이게 잘 만들어진 검사인지 검증하기 위한 통계분석, 구체적으로는 탐색적 요인분석(EFA: Exploratory Factor Analysis)과 신뢰도 계수(Cronbach’s alpha)를 확인하는 작업을 할 일이...
군집화(Clustering)란 무엇인가 만약 우리가 다루는 데이터에 “레이블”이 붙어 있다면 지도학습, 즉 미리 가지고 있는 데이터와 레이블을 기반으로 예측이나 분류를 수행하는 모델을 만들 수 있다. 그러나 실제로는 레이블(분류)이 없는 경우가 더 많다. 물론 이렇게 별도의 레이블이 없는 데이터 안에서 패턴과 구조를 발견하는 비지도 학습도 머신러닝의...
이전 포스팅에서 나이브 베이즈(Naive Bayes)를 사용해 텍스트를 어떻게 분류할 수 있는지 개념적으로 살펴보았다. 이번에는 파이썬 머신러닝 라이브러리 scikit-learn에서 실제로 어떻게 구현하고 동작하는지 코드를 알아볼 차례. scikit-learn 사용법 1. CounterVectorizer scikit-learn에서 Naive B...
나이브 베이즈 분류기(Naive Bayes Classifier)는 “베이즈 정리”를 활용하여 분류를 수행하는 머신러닝 지도학습 알고리즘이다. 특히 텍스트(문서)의 분류에 많이 사용되는데, 실제로 어떤 계산을 통해 분류하게 되는지 그 과정을 최대한 쉽게 소개해본다. 베이즈 정리 “베이즈 정리”에 대해서는 이전 포스팅에서 짤막하게 개념을 다룬 바 있다...
머신러닝 알고리즘 나이브 베이즈(Naive Bayes)를 사용하기 위해서는 일단 베이즈 정리(Bayes’ Theorem)라는 걸 먼저 이해해야 한다. 본 포스팅에서는 베이즈 정리의 개념만 최대한 쉽게 설명해본다. 베이즈 정리(Bayes’ Theorem)란 베이즈 정리(Bayes’ Theorem)는 새로운 사건의 확률을 계산하기 전에 이미 일어난 사...
의사결정 나무는 매우 훌륭한 모델이지만, 학습 데이터에 오버피팅 하는 경향이 있다. 가지치기(pruning) 같은 방법을 통해 그런 부작용을 최소하하는 전략이 있긴 하나 역시나 좀 부족하다. 그래서 본 포스팅에서는 의사결정 트리의 오버피팅 한계를 극복하기 위한 전략으로 랜덤 포레스트(Random Forest)를 소개하고자 한다. 랜덤 포레스트란 ...
의사결정 나무(Decision Tree)는 각 데이터들이 가진 속성들로부터 패턴을 찾아내서 분류 과제를 수행할 수 있도록 하는 지도학습 머신러닝 모델이다. 일단 이 모델의 개념만 최대한 쉽게 설명해본다. 의사결정 나무란 무엇인가 시험에서 A를 받은 데이터를 초록색 동그라미로 표현했다고 하자. 의사결정 나무는 대체 어떤 사람들이 그 A를 받았는...