본문 바로가기

Data Science/2. 기계학습

[n212]다중선형회귀(Multiple Linear Regression)

■ Key words

  ㆍ

 

■ 주요내용

  ㆍ

- 표본이 있다면 학습할 수 있는 데이터가 많을 수록 좋은 것이 아닌가?

  → 테스트로 사용할 표본도 학습에 사용되더라도, 추론된 회귀식에서 나오는 결과값이 표본값이랑 달라 오차를 확인할 수 있을텐데...

  → 과거의 데이터로 미래를 추론하는 것이기 때문에 일반적으로 시간순에 따라 trainin/test data를 나눔

     ; 학습하는 중 편향되지 않은 data로 그 성능을 검정할 필요가 있음

  → 지도학습도 사람이 정답을 알고 있진 않고, 여러 표본을 토대로 기계가 추정할 수 있게 하는 것이다

  → test data는 50%를 넘지 않도록 쓰고, 일반적으로 20% 전후를 사용한다

- R^2 = 1일 경우, 회귀선과 표본이 정확히 일치함을 의미한다

- 회귀모델을 평가하는 평가지표들(evaluation metrics)

  1. 잔차와 무슨 연관이 있나

  2. 해당 평가지표의 범위, 변화 정도에 따라 어떻게 해석할 것인가

  ⇒ 데이터 분석의 목적, 문제해결의 목적, 문제해결의 정도에 따라 가장 적합한 평가지표를 적용하여 회귀한다.

     ; 해당 지표를 사용하게 된 logic을 코드에 나타내야함

- 과소적합 : 학습이 덜 된 상태. 성능평가를 하는 단계에 아직 미치지 못함.

- 다중 vs 다항

- 회귀계수가 큰 것이 상관계수가 높다고 할 수 있는가

- Test data로 추가학습을 진행하는가

- R^2값이 나오면 1. 데이터 좀 더 2. 다른 모델 적용 3. 다른 특성 적용

- Train과 Test의 R^2값이 차이가 난다면, 과적합이라 판단할 수도 있으므로, 모델을 개선할 방법을 강구하고 적용해볼 필요가 있다.

- Kaggle 데이터 정보 : data에서 설명 확인

 

■ 주요함수

  ㆍ

 

 

 

■ Reference

  ㆍTrain/Test data 분할 : https://sosoeasy.tistory.com/373

  ㆍNormalization : http://hleecaster.com/ml-normalization-concept/

'Data Science > 2. 기계학습' 카테고리의 다른 글

[n222]Random Forests  (0) 2021.06.21
[n221]결정트리(Decision Trees)  (0) 2021.06.21
[n214]Logistic Regression  (0) 2021.06.21
[n213]Ridge Regression  (0) 2021.06.21
[n211]Simple Regression  (0) 2021.06.21