[n214]Logistic Regression

■ Key words

ㆍ

■ 주요내용

ㆍ

- logistic regression : 선형회귀한 것을 범주화 답으로 나타낼 수 있는 한 단계 나아간 것

→ 0/1 두 가지로만 확률로 분류하는 모델. 3 이상의 선택지가 있다면 다른 모델을 활용해야 한다.

- 기계학습의 과정을 이해하고, 그 특성을 이해하기

- 표본이 한정되어 있다면, 굳이 val/test data를 분리하여 ML을 진행할 필요는 없다.

- train/validation/test data set을 나누는 것, 시행하는 횟수, 교차검증 후 최종적으로 모델에 반영할지 여부 등은 결국 분석자에게 달려있다; 방법론의 문제. data가 충분하다면 1번씩만 시행해도 문제없을 수 있지만, 데이터가 적을 경우 test까지 모델에 반영할 필요가 있을 것이고, 이는 분석자가 판단할 문제이다.

⇒ train으로 인한 과적합은 validation으로 평가하지만, validation으로 인한 과적합도 발생할 수 있다

- 데이터 수집의 목적을 생각해보자; 시계열 데이터를 수집하는 이유

- 해결할 문제 설정 -> target(label) 설정 -> 분류/회귀 등 분석 방법 설정

- 훈련정확도가 1이 나오면 : 1. 정규화 검토 2. target/feature 확인 3. train/validation/target 확인

■ 주요함수

ㆍ

■ Reference

ㆍHow and why to create a good validation set : https://www.fast.ai/2017/11/13/validation-sets/

ㆍLogistic Regression에서 max_iter의 의미(경사하강법, gradient descent 시행 횟수) : https://www.inflearn.com/questions/75980

ㆍSKlearn의 train_test_split 사용 방법: http://blog.naver.com/PostView.nhn?blogId=siniphia&logNo=221396370872

'Data Science > 2. 기계학습' 카테고리의 다른 글

[n222]Random Forests (0)	2021.06.21
[n221]결정트리(Decision Trees) (0)	2021.06.21
[n213]Ridge Regression (0)	2021.06.21
[n212]다중선형회귀(Multiple Linear Regression) (0)	2021.06.21
[n211]Simple Regression (0)	2021.06.21

진화곰의 소소한 일상 이야기

[n214]Logistic Regression

'Data Science > 2. 기계학습' 카테고리의 다른 글

티스토리툴바

[n214]Logistic Regression

'Data Science > 2. 기계학습' 카테고리의 다른 글

'Data Science/2. 기계학습' Related Articles

티스토리툴바