축구에서도 통계, 데이터 분석이 주목 받고 있다
개인적으로 해외 축구에 관심이 많아서 이런저런 유튜브 채널들도 좀 구독을 하는 편이다. 그 중 〈 독서축구〉라는 채널이 있는데, 주로 “독일”과 “스페인” 축구를 다루기 때문에 “독 & 서”이고, 축구를 읽어준다는 의미도 있다. 여기서 축구 통계에 대해 한 번 다룬 적이 있다. 참고로 이 채널을 운영하는 골닷컴 김현민 기자는 내가 전부터...
개인적으로 해외 축구에 관심이 많아서 이런저런 유튜브 채널들도 좀 구독을 하는 편이다. 그 중 〈 독서축구〉라는 채널이 있는데, 주로 “독일”과 “스페인” 축구를 다루기 때문에 “독 & 서”이고, 축구를 읽어준다는 의미도 있다. 여기서 축구 통계에 대해 한 번 다룬 적이 있다. 참고로 이 채널을 운영하는 골닷컴 김현민 기자는 내가 전부터...
파이썬으로 코드를 짜다 보면 함수를 작성해서 사용할 일이 많아진다. 함수를 짜는 방법은 쉬우니 넘어가고, 그 외에 추가적으로 알고 있으면 좋은 내용들을 메모 차 남겨본다. 내용은 아래와 같다. return을 명시하지 않았을 때 기본값은 None이다. 함수는 인수(매개변수)를 선택적으로 받을 수 있고, 기본 값 설정이 가능하다. 함수의 ...
프로그래밍 입문 언어로 파이썬을 공부하게 되면 우선 여러가지 자료형, 조건문, 반복문, 함수를 익혀 어느정도 기초를 다지는 커리큘럼을 따른다. 그런데 그 다음에 클래스(Class)라는 개념을 접하고 여기서부터 뭔가 어려워서 이해를 포기하게 된다. 나도 그랬다. 그래서 이번 기회에 클래스에 대해 좀 공부한 걸 최대한 쉽게 남겨보려 한다. 본 포스팅의...
이전에 ”채용 인적성 검사의 비밀”이라는 글을 쓴 적이 있다. 사실 이건 전통적인 인성검사에 대한 이야기다. 이제 채용 시장에서는 AI 면접이 인기다. 그런데 사람들이 이 ✌AI 면접✌라는 단어를 사용하는 걸 보면 애초에 개념에 대한 오해가 좀 있는 것 같기도 하고, 정작 그 원리를 모른 채 용어만 남발하는 경우가 많은 것 같다. 유튜브에는 “AI...
자연어 처리(NLP: Natural Language Processing), 흔히 말하는 텍스트 마이닝을 할 때 Bag-of-Words(이하 BoW)는 정말 단순하지만 여전히 유효한 모델이다. 여러가지 장면에 쉽게 활용할 수 있기 때문이다. 예를 들면 글에서 키워드를 뽑아낸다거나 스팸 메일을 필터링 한다거나, 긍정 vs 부정과 같은 감성 분석을 하는 등...
서포트 벡터 머신(SVM: Support Vector Machine)은 분류 과제에 사용할 수 있는 강력한 머신러닝 지도학습 모델이다. 일단 이 SVM의 개념만 최대한 쉽게 설명해본다. 중간중간 파이썬 라이브러리 scikit-learn을 사용한 아주 기초적인 실습을 통해 개념 이해를 돕는다. 서포트 벡터 머신이란 서포트 벡터 머신(이하 SVM)은 ...
그동안 심리학을 비롯한 사회과학 분야에서 연구할 때 가장 많이 쓰던 통계 프로그램은 SPSS였다. 최근에 회사에서 심리검사 결과를 가지고 이게 잘 만들어진 검사인지 검증하기 위한 통계분석, 구체적으로는 탐색적 요인분석(EFA: Exploratory Factor Analysis)과 신뢰도 계수(Cronbach’s alpha)를 확인하는 작업을 할 일이...
군집화(Clustering)란 무엇인가 만약 우리가 다루는 데이터에 “레이블”이 붙어 있다면 지도학습, 즉 미리 가지고 있는 데이터와 레이블을 기반으로 예측이나 분류를 수행하는 모델을 만들 수 있다. 그러나 실제로는 레이블(분류)이 없는 경우가 더 많다. 물론 이렇게 별도의 레이블이 없는 데이터 안에서 패턴과 구조를 발견하는 비지도 학습도 머신러닝의...
이전 포스팅에서 나이브 베이즈(Naive Bayes)를 사용해 텍스트를 어떻게 분류할 수 있는지 개념적으로 살펴보았다. 이번에는 파이썬 머신러닝 라이브러리 scikit-learn에서 실제로 어떻게 구현하고 동작하는지 코드를 알아볼 차례. scikit-learn 사용법 1. CounterVectorizer scikit-learn에서 Naive B...
나이브 베이즈 분류기(Naive Bayes Classifier)는 “베이즈 정리”를 활용하여 분류를 수행하는 머신러닝 지도학습 알고리즘이다. 특히 텍스트(문서)의 분류에 많이 사용되는데, 실제로 어떤 계산을 통해 분류하게 되는지 그 과정을 최대한 쉽게 소개해본다. 베이즈 정리 “베이즈 정리”에 대해서는 이전 포스팅에서 짤막하게 개념을 다룬 바 있다...