■ Key words
ㆍ
■ 주요내용
ㆍ
- logistic regression : 선형회귀한 것을 범주화 답으로 나타낼 수 있는 한 단계 나아간 것
→ 0/1 두 가지로만 확률로 분류하는 모델. 3 이상의 선택지가 있다면 다른 모델을 활용해야 한다.
- 기계학습의 과정을 이해하고, 그 특성을 이해하기
- 표본이 한정되어 있다면, 굳이 val/test data를 분리하여 ML을 진행할 필요는 없다.
- train/validation/test data set을 나누는 것, 시행하는 횟수, 교차검증 후 최종적으로 모델에 반영할지 여부 등은 결국 분석자에게 달려있다; 방법론의 문제. data가 충분하다면 1번씩만 시행해도 문제없을 수 있지만, 데이터가 적을 경우 test까지 모델에 반영할 필요가 있을 것이고, 이는 분석자가 판단할 문제이다.
⇒ train으로 인한 과적합은 validation으로 평가하지만, validation으로 인한 과적합도 발생할 수 있다
- 데이터 수집의 목적을 생각해보자; 시계열 데이터를 수집하는 이유
- 해결할 문제 설정 -> target(label) 설정 -> 분류/회귀 등 분석 방법 설정
- 훈련정확도가 1이 나오면 : 1. 정규화 검토 2. target/feature 확인 3. train/validation/target 확인
■ 주요함수
ㆍ
■ Reference
ㆍHow and why to create a good validation set : https://www.fast.ai/2017/11/13/validation-sets/
ㆍLogistic Regression에서 max_iter의 의미(경사하강법, gradient descent 시행 횟수) : https://www.inflearn.com/questions/75980
ㆍSKlearn의 train_test_split 사용 방법: http://blog.naver.com/PostView.nhn?blogId=siniphia&logNo=221396370872
'Data Science > 2. 기계학습' 카테고리의 다른 글
[n222]Random Forests (0) | 2021.06.21 |
---|---|
[n221]결정트리(Decision Trees) (0) | 2021.06.21 |
[n213]Ridge Regression (0) | 2021.06.21 |
[n212]다중선형회귀(Multiple Linear Regression) (0) | 2021.06.21 |
[n211]Simple Regression (0) | 2021.06.21 |