교수 | 김지수, jkim82133[AT] snu [DOT] ac [DOT] kr |
조교 | 김희천, heech97 [AT] snu [DOT] ac [DOT] kr |
수업시간 | 월, 수 15:30 - 16:45 |
수업장소 | 25동 405호 |
면담시간(교수) | 목 09:00 - 11:30 또는 약속 |
면담장소(교수) | 25동 335호 |
면담시간(조교) | 약속 |
면담장소(조교) | 25동 303호 |
eTL | |
강의계획서 |
통계적 기계학습(Statistical Machine Learning) 방법은 데이터과학 및 인공지능 분야에서 핵심 방법론으로 사용되고 있다. 본 강의에서는 통계적 기계학습 방법론을 소개하고 기본 이론을 배운다. 주로 지도학습(supervised learning)을 위주로 데이터마이닝에서 널리 쓰이는 회귀(regression) 및 분류(classification) 알고리즘 및 기반 통계적 이론을 배운다. 모형을 평가하는 여러 개념을 배우고, 고급 데이터마이닝 기법인 앙상블 기법(bagging, boosting 등)을 배운다. 커널을 이용한 방법론 및 이론적 기반인 Reproducing Kernel Hilbert Space를 배운다. 또한, 비지도학습(unsupervised learning)의 예로 군집분석(clustering)을 배운다. 미니맥스(minimax) 이론과 심층학습(deep learning) 관련 통계 이론도 간단히 배운다.
통계적 기계학습(Statistical Machine Learning)을 접하고 이해한다.
통계적 기계학습에 어떤 통계적 도구가 쓰이는지 이해한다.
상황에 맞게 적절한 데이터마이닝 내지는 기계학습 방법론을 선택할 수 있다.
기계학습 알고리즘에 따라 적절한 통계적 분석을 할 수 있다.
확률(probability)의 기본적 개념에 최소한 학부 수준으로는 익숙해야 하며, 학부에서는 확률의 개념 및 응용(326.211), 측도이론과 확률(M1407.002500), 실변수함수론(881.425), 대학원에서는 확률론 1(326.513), 실해석학(3341.503) 등과 같은 과목에서 다룬다.
수리통계(mathematical statistics)의 기본적 개념에 최소한 학부 수준으로는 익숙해야 하며, 수리통계 1(326.311), 수리통계(M1399.000900) 등과 같은 과목에서 다룬다.
선형사상, 기저, 차원 등 선형대수(linear algebra)의 기본 개념에 익숙해야 하며, 선형대수학 1(300.203A), 선형대수학(881.007) 등과 같은 과목에서 다룬다.
위의 필수과목들 외에 다음의 개념을 접해보면 좋으나 필수는 아니며, 수업에서 사용하는 개념들은 수업에서 정의한다.
회귀분석을 접해보면 좋으며, 회귀분석 및 실습(326.313) 등과 같은 과목에서 다룬다.
볼록 최적화(convex optimization)를 접해보면 좋으며, 최적화의 수학적 이론 및 계산(3341.454) 등과 같은 과목에서 다룬다.
정해진 교재의 내용을 처음부터 끝까지 따라가진 않지만, 다음 책들을 참조한다.
Trevor Hastie, Robert Tibshirani, Jerome Friedman, The Elements of Statistical Learning: Data Mining, Inference and Prediction, Second Edition, 2009. https://hastie.su.domains/ElemStatLearn/
Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani, An Introduction to Statistical Learning: With Applications in R, 2021. https://statlearning.com/
Mehryar Mohri, Afshin Rostamizadeh, Ameet Talwalkar, Foundations of Machine Learning, Second Edition, 2018. https://cs.nyu.edu/~mohri/mlbook/
그 외에 각 주제에 맞춰서 참조하는 많은 참고문헌들이 있다.
아래의 일정표는 잠정적으로 작성한 것으로, 최신 일정표는 항상 홈페이지에서 확인한다.
날짜 | 주제 | 비고 |
---|---|---|
1주 (3/5) | Introduction to statistical learning, Review on Probability | |
2주 (3/10, 3/12) | Review on Probability, Overview of Supervised Learning | |
3주 (3/17, 3/19) | Overview of Supervised Learning, R Script, Linear classifier | |
4주 (3/24, 3/26) | Linear classifier, R markdown (Rmd), R markdown (html), R script, Shrinkage methods | 과제1 마감 (3/28) |
5주 (3/31, 4/2) | Shrinkage methods, Basis expansion and Kernel methods | |
6주 (4/7, 4/9) | Basis expansion and Kernel methods, Ensemble | |
7주 (4/14, 4/16) | Ensemble | 과제2 마감 (4/15) |
8주 (4/21, 4/23) | Model assessment and selection, Function estimation on high dimensions | 중간고사 (4/24) |
9주 (4/28, 4/30) | Reproducing Kernel Hilbert Space | |
10주 (5/7) | Reproducing Kernel Hilbert Space | |
11주 (5/12, 5/14) | Clustering, Concentration of Measure | 과제3 마감 (5/16) |
12주 (5/19, 5/21) | Concentration of Measure, Minimax | |
13주 (5/26, 5/28) | Minimax | |
14주 (6/2, 6/4) | Deep learning: Introduction | 과제4 마감 (6/3) |
15주 (6/9, 6/11) | Other topics | 기말고사 (6/14) |