교수 김지수, jkim82133[AT] snu [DOT] ac [DOT] kr
조교 김희천, heech97 [AT] snu [DOT] ac [DOT] kr
수업시간 월, 수 15:30 - 16:45
수업장소 25동 405호
면담시간(교수) 목 09:00 - 11:30 또는 약속
면담장소(교수) 25동 335호
면담시간(조교) 약속
면담장소(조교) 25동 303호
eTL
강의계획서


수업 소개

통계적 기계학습(Statistical Machine Learning) 방법은 데이터과학 및 인공지능 분야에서 핵심 방법론으로 사용되고 있다. 본 강의에서는 통계적 기계학습 방법론을 소개하고 기본 이론을 배운다. 주로 지도학습(supervised learning)을 위주로 데이터마이닝에서 널리 쓰이는 회귀(regression) 및 분류(classification) 알고리즘 및 기반 통계적 이론을 배운다. 모형을 평가하는 여러 개념을 배우고, 고급 데이터마이닝 기법인 앙상블 기법(bagging, boosting 등)을 배운다. 커널을 이용한 방법론 및 이론적 기반인 Reproducing Kernel Hilbert Space를 배운다. 또한, 비지도학습(unsupervised learning)의 예로 군집분석(clustering)을 배운다. 미니맥스(minimax) 이론과 심층학습(deep learning) 관련 통계 이론도 간단히 배운다.

  • • 키워드: 지도학습(supervised learning), 비지도학습(unsupervised learning), 회귀(regression), 분류(classification), 앙상블 기법(ensemble methods), 군집분석(clustering), 미니맥스(minimax), 심층학습(deep learning)


수업 목표

  • 통계적 기계학습(Statistical Machine Learning)을 접하고 이해한다.

  • 통계적 기계학습에 어떤 통계적 도구가 쓰이는지 이해한다.

  • 상황에 맞게 적절한 데이터마이닝 내지는 기계학습 방법론을 선택할 수 있다.

  • 기계학습 알고리즘에 따라 적절한 통계적 분석을 할 수 있다.


선이수 교과목

  • 확률(probability)의 기본적 개념에 최소한 학부 수준으로는 익숙해야 하며, 학부에서는 확률의 개념 및 응용(326.211), 측도이론과 확률(M1407.002500), 실변수함수론(881.425), 대학원에서는 확률론 1(326.513), 실해석학(3341.503) 등과 같은 과목에서 다룬다.

  • 수리통계(mathematical statistics)의 기본적 개념에 최소한 학부 수준으로는 익숙해야 하며, 수리통계 1(326.311), 수리통계(M1399.000900) 등과 같은 과목에서 다룬다.

  • 선형사상, 기저, 차원 등 선형대수(linear algebra)의 기본 개념에 익숙해야 하며, 선형대수학 1(300.203A), 선형대수학(881.007) 등과 같은 과목에서 다룬다.

위의 필수과목들 외에 다음의 개념을 접해보면 좋으나 필수는 아니며, 수업에서 사용하는 개념들은 수업에서 정의한다.

  • 회귀분석을 접해보면 좋으며, 회귀분석 및 실습(326.313) 등과 같은 과목에서 다룬다.

  • 볼록 최적화(convex optimization)를 접해보면 좋으며, 최적화의 수학적 이론 및 계산(3341.454) 등과 같은 과목에서 다룬다.


교재 및 참고문헌

정해진 교재의 내용을 처음부터 끝까지 따라가진 않지만, 다음 책들을 참조한다.

  • Trevor Hastie, Robert Tibshirani, Jerome Friedman, The Elements of Statistical Learning: Data Mining, Inference and Prediction, Second Edition, 2009. https://hastie.su.domains/ElemStatLearn/

  • Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani, An Introduction to Statistical Learning: With Applications in R, 2021. https://statlearning.com/

  • Mehryar Mohri, Afshin Rostamizadeh, Ameet Talwalkar, Foundations of Machine Learning, Second Edition, 2018. https://cs.nyu.edu/~mohri/mlbook/

그 외에 각 주제에 맞춰서 참조하는 많은 참고문헌들이 있다.


일정표

아래의 일정표는 잠정적으로 작성한 것으로, 최신 일정표는 항상 홈페이지에서 확인한다.

날짜 주제 비고
1주 (3/5) Introduction to statistical learning, Review on Probability
2주 (3/10, 3/12) Review on Probability, Overview of Supervised Learning
3주 (3/17, 3/19) Overview of Supervised Learning, R Script, Linear classifier
4주 (3/24, 3/26) Linear classifier, R markdown (Rmd), R markdown (html), R script, Shrinkage methods 과제1 마감 (3/28)
5주 (3/31, 4/2) Shrinkage methods, Basis expansion and Kernel methods
6주 (4/7, 4/9) Basis expansion and Kernel methods, Ensemble
7주 (4/14, 4/16) Ensemble 과제2 마감 (4/15)
8주 (4/21, 4/23) Model assessment and selection, Function estimation on high dimensions 중간고사 (4/24)
9주 (4/28, 4/30) Reproducing Kernel Hilbert Space
10주 (5/7) Reproducing Kernel Hilbert Space
11주 (5/12, 5/14) Clustering, Concentration of Measure 과제3 마감 (5/16)
12주 (5/19, 5/21) Concentration of Measure, Minimax
13주 (5/26, 5/28) Minimax
14주 (6/2, 6/4) Deep learning: Introduction 과제4 마감 (6/3)
15주 (6/9, 6/11) Other topics 기말고사 (6/14)