아무튼 워라밸

머신러닝 공부 - K-최근접 이웃(K-Nearest Neighbor) 쉽게 이해하기

K-최근접 이웃(K-Nearest Neighbor)은 머신러닝에서 사용되는 분류(Classification) 알고리즘이다. 유사한 특성을 가진 데이터는 유사한 범주에 속하는 경향이 있다는 가정하에 사용한다. K-최근접 이웃 알고리즘의 개념 원리를 쉽게 이해하기 위해 아래 그림을 보자. 녹색 점을 파란 사각형으로 혹은 빨간 삼각형으로 분류할지 결정하...

머신러닝 공부 - 정규화(Normalization) 쉽게 이해하기

왜 정규화를 해야 하는가 머신러닝 알고리즘은 데이터가 가진 feature(특성)들을 비교하여 데이터의 패턴을 찾는다. 그런데 여기서 주의해야 할 점이 있다. 데이터가 가진 feature의 스케일이 심하게 차이가 나는 경우 문제가 되기 때문이다. 예를 들어 ‘주택’에 관한 정보가 담긴 데이터를 생각해보자. 그 안에 feature로 방의 개수(개),...

머신러닝 공부 - 다중선형회귀(Multiple Linear Regression) 파이썬 코드 예시

이전에 선형회귀에 대한 개념을 소개한 바 있다. X의 값에 따라 Y값이 어떻게 달라질지 예측하는, 기울기와 절편만 있는 단순한 1차 방정식 y = m*X + b로 설명했는데, 이건 그냥 단순선형회귀라고 부른다. 아무튼 우리가 사는 세상은 단순선형회귀로 설명할 수 있을만큼 그렇게 단순하지 않다. 고려해야 하는 변수 X가 하나가 아니라는 의미다. 예를...

머신러닝 공부 - 두 점 사이의 거리 공식(Distance Formula) 쉽게 이해하기

본 포스팅에서는 두 점 사이의 거리를 구하는 여러가지 방법을 알아본다. 그런데 거리(distance)를 왜 구해야 할까? 거리는 일종의 유사도(Similarity) 개념이기 때문이다. 거리가 가까울수록 그 특성(feature)들이 비슷하다는 뜻이니까. 그래서 머신러닝 알고리즘에서도 매우 널리 사용된다. 예를 들면 K-최근접 이웃(K-Nearest N...

머신러닝 공부 - 선형회귀(Linear Regression) 파이썬 코드 예시

본 포스팅에서는 파이썬 라이브러리 scikit-learn을 통해 선형회귀(Linear Regression) 분석을 직접 수행하는 예시를 소개한다. 누구나 쉽게 따라할 수 있는 수준으로 작성했다. sklearn LinearRegression 사용법 실제 데이터 돌려보기 전에 사용법부터 익히고 가자. 일단 파이썬 머신러닝 라이브러리 싸이킷런을 불러오...

머신러닝 공부 - 선형회귀(Linear Regression) 쉽게 이해하기

본 포스팅에서는 머신러닝에서 사용할 선형 회귀 분석에 대한 개념 설명을 누구나 이해할 수 있을 정도의 수준으로 가볍게 소개한다. 선형 회귀란 무엇인가 머신 러닝의 가장 큰 목적은 실제 데이터를 바탕으로 모델을 생성해서 만약 다른 입력 값을 넣었을 때 발생할 아웃풋을 예측하는 데에 있다. 이때 우리가 찾아낼 수 있는 가장 직관적이고 간단한 모델은 ...

머신러닝 공부 - 학습세트, 평가세트를 나누는 이유와 방법

우리는 머신러닝을 통해서 예측이나 분류를 할 수 있다. 그런데 이 예측이나 분류가 얼마나 정확한지 자문하는 것이 중요하다. 분류 모델을 만들어놨는데, 그 예측이 얼마나 맞고 틀릴지 모르니까. 지도학습(supervised learning)에서는 다행히도 이미 레이블링 된(정답이 있는) 데이터가 있기 때문에 그걸 활용해서 알고리즘의 정확도를 테스트 할 ...

파이썬 웹 크롤링 기초 (BeautifulSoup 사용 방법)

본 포스팅에서는 파이썬으로 누구나 따라할 수 있는 웹 크롤링 방법을 소개한다. 들어가기에 앞서 일단 웹 사이트라는 걸 이해해야 한다. 기본적으로 웹사이트는 문서다. HTML이라는 형식으로 쓰여진 문서. 그래서 우리는 HTML 문서에 담긴 내용을 가져 오도록 request(요청) 해야 한다. 파이썬에는 애초에 requests라는 라이브러리로 편리하...

통계, SPSS 대신 파이썬으로 해결하기 (T-검정, ANOVA, 카이제곱 등)

예전에는 나도 통계 돌릴 일이 있으면 대부분 SPSS를 활용했다. 대학교에서 SPSS를 가르쳐줬으니까. 대학교에서는 아직도 많은 사람들이 SPSS를 사용한다. 특히 심리학을 비롯한 사회과학 쪽 분야에서. 그런데 SPSS는 유료다. 물론 학교에서야 라이센스를 구매해서 학생들이 사용할 수 있도록 해두었다 쳐도 정작 사회에 나와서 SPSS를 사용하는 건 ...

사람들이 추구하는 가치에 대해 – Schwartz의 보편적 가치 이론(Basic Human Values)을 중심으로

 회사에서 사람들의 가치관(value)에 대한 심리 검사를 개발한 적이 있다. 그 때 관련 연구들을 꽤나 많이 찾아봤는데 중요한 것들만 요약해서 남겨보기로 한다. Schwartz의 보편적 가치 이론 가치에 대한 가장 대표적인 연구자는 Shalom H. Schwartz라는 사람이다. 이 사람은 전세계 다양한 문화권에서 사람들이 추구하는 가치를 조사했...