아무튼 워라밸

머신러닝 공부 - 학습세트, 평가세트를 나누는 이유와 방법

우리는 머신러닝을 통해서 예측이나 분류를 할 수 있다. 그런데 이 예측이나 분류가 얼마나 정확한지 자문하는 것이 중요하다. 분류 모델을 만들어놨는데, 그 예측이 얼마나 맞고 틀릴지 모르니까. 지도학습(supervised learning)에서는 다행히도 이미 레이블링 된(정답이 있는) 데이터가 있기 때문에 그걸 활용해서 알고리즘의 정확도를 테스트 할 ...

파이썬 웹 크롤링 기초 (BeautifulSoup 사용 방법)

본 포스팅에서는 파이썬으로 누구나 따라할 수 있는 웹 크롤링 방법을 소개한다. 들어가기에 앞서 일단 웹 사이트라는 걸 이해해야 한다. 기본적으로 웹사이트는 문서다. HTML이라는 형식으로 쓰여진 문서. 그래서 우리는 HTML 문서에 담긴 내용을 가져 오도록 request(요청) 해야 한다. 파이썬에는 애초에 requests라는 라이브러리로 편리하...

통계, SPSS 대신 파이썬으로 해결하기 (T-검정, ANOVA, 카이제곱 등)

예전에는 나도 통계 돌릴 일이 있으면 대부분 SPSS를 활용했다. 대학교에서 SPSS를 가르쳐줬으니까. 대학교에서는 아직도 많은 사람들이 SPSS를 사용한다. 특히 심리학을 비롯한 사회과학 쪽 분야에서. 그런데 SPSS는 유료다. 물론 학교에서야 라이센스를 구매해서 학생들이 사용할 수 있도록 해두었다 쳐도 정작 사회에 나와서 SPSS를 사용하는 건 ...

사람들이 추구하는 가치에 대해 – Schwartz의 보편적 가치 이론(Basic Human Values)을 중심으로

 회사에서 사람들의 가치관(value)에 대한 심리 검사를 개발한 적이 있다. 그 때 관련 연구들을 꽤나 많이 찾아봤는데 중요한 것들만 요약해서 남겨보기로 한다. Schwartz의 보편적 가치 이론 가치에 대한 가장 대표적인 연구자는 Shalom H. Schwartz라는 사람이다. 이 사람은 전세계 다양한 문화권에서 사람들이 추구하는 가치를 조사했...

파이썬 람다(Lambda) 이해하기

파이썬 스크립트를 짜다 보면 여러번 사용할 기능은 함수로 코드를 짜는 경우가 많은데, 잠깐 쓰고 버릴 것들은 람다(Lambda) 함수를 사용하는 게 훨씬 간편하다. 처음 파이썬 공부할 때 lambda라는 게 좀 생소했는데 막상 쓰다보니 간편해서 자주 쓰게 되더라. 이 기회에 복습할 겸 메모로 개념 설명과 예시만 간단히 남겨본다. Lambda 함수 ...

파이썬 리스트 컴프리헨션(List Comprehension) 이해하기

파이썬을 공부하다가 리스트 컴프리헨션(List Comprehension)을 접하게 되었다. 처음 접할 땐 살짝 어색하지만 막상 익히고 나면 정말 유용하다. 이 기회에 복습할 겸 간략히 개념 설명을 남겨두려 한다. 개인적으로 데이터를 직접 다룰 일이 많은데 그때 리스트를 요리조리 잘 변형할 수 있어서 특히 자주 사용한다. 파이썬 리스트 컴프리헨션 기...

채용 인적성 검사의 비밀

인터넷에 돌아다니는 취업 컨설팅 찌라시를 읽어 보면 “인적성검사 이렇게 준비하라!”는 글이 많다. 뭐라도 잡고 싶은 취준생들에게 질 낮은 혹은 허위 정보를 제공하며 장사를 하는 경우가 대부분이다. 기업 채용 전형에 사용하는 인적성검사를 직접 출제, 개발해본 입장에서 취업을 준비하는 청춘들을 응원하는 마음에 몇자 남겨본다. “내가 해봐서 아는데...

파이썬으로 드롭박스 API를 활용해 파일 업로드하기

오늘은 로컬 PC와 연동하지 않고, 곧바로 드롭박스에 파일을 업로드하는 파이썬 스크립트를 짜보았다. (경로를 한글로 설정할 때 시행착오가 있었기 때문에 나중에 보려고 기록으로 남겨놓는 글.) 참고로 드롭박스 API는 v1이 2017년 여름에 서비스를 종료하고, v2를 지원하고 있다. 그래서 본 포스팅도 v2를 기준으로 설명한다. 드롭박스 API 활...

파이썬으로 나라장터 입찰공고 크롤링

회사에서 조달청 나라장터에 올라오는 입찰공고를 주기적으로 확인하고 싶다는 요구가 있어서 파이썬 selenium으로 크롤링하는 코드를 직접 짜봤다. 사실 다른 블로그에서도 소스코드를 좀 확인할 수 있는데 너무 복잡한 방식으로 되어 있고 필요 없는 정보들도 너무 많이 가져오는 것처럼 보였다. 나는 필요한 정보만 소식지처럼 받아보는 것이 주된 목적이었기...