본문 바로가기

전체 글

(51)
[n221]결정트리(Decision Trees) ■ Key words ㆍPipelines ㆍDecision Tree - Information Gain - Gini Impurity ㆍFeature importances ■ 주요내용 ㆍ결정트리(Decision Tree) 모델 : 특성들을 기준으로 샘플을 분류하는 알고리즘 - Node : 질문 혹은 말단의 정답. Root / Internal / External, leaf, terminal로 구분 - Edge : 노드를 연결하는 선 - 분류와 회귀 모두 적용 가능 - 새로운 데이터가 특정 말단 노드에 속한다는 정보를 확인한 뒤 말단노드의 빈도가 가장 높은 범주로 데이터 분류 - Scale 적용 불필요 - 분류과정을 tree 구조로 직관적으로 확인 가능 - Ensemble 기법인 Random Forests, G..
[n214]Logistic Regression ■ Key words ㆍ ■ 주요내용 ㆍ - logistic regression : 선형회귀한 것을 범주화 답으로 나타낼 수 있는 한 단계 나아간 것 → 0/1 두 가지로만 확률로 분류하는 모델. 3 이상의 선택지가 있다면 다른 모델을 활용해야 한다. - 기계학습의 과정을 이해하고, 그 특성을 이해하기 - 표본이 한정되어 있다면, 굳이 val/test data를 분리하여 ML을 진행할 필요는 없다. - train/validation/test data set을 나누는 것, 시행하는 횟수, 교차검증 후 최종적으로 모델에 반영할지 여부 등은 결국 분석자에게 달려있다; 방법론의 문제. data가 충분하다면 1번씩만 시행해도 문제없을 수 있지만, 데이터가 적을 경우 test까지 모델에 반영할 필요가 있을 것이고,..
[n213]Ridge Regression ■ Key words ㆍ ■ 주요내용 ㆍ - λ : try a bunch of values for λ and use Cross Validation, to determine which one results in the lowest Variance - ridge regression model 수식 - L2 Norm - 선형회귀모델의 식과 Ridge 회귀모델의 식이 무엇이 다른가 : λ의 역할 확인 - λ값로 편향을 시키면서 과적합을 조정하고, 일반화한다; 과적합을 조정 → 한 가지 특성에 대해 덜 민감하게 만들어주는 것 → 회귀선의 설명력을 더 크게 해주는 것 / 변화가 적은 특성을 민감도를 떨어뜨려서 설명에서 배제 → 영향력이 큰 / 설명력이 큰 특성만 남기는 것 → feature selection! - ..
[n212]다중선형회귀(Multiple Linear Regression) ■ Key words ㆍ ■ 주요내용 ㆍ - 표본이 있다면 학습할 수 있는 데이터가 많을 수록 좋은 것이 아닌가? → 테스트로 사용할 표본도 학습에 사용되더라도, 추론된 회귀식에서 나오는 결과값이 표본값이랑 달라 오차를 확인할 수 있을텐데... → 과거의 데이터로 미래를 추론하는 것이기 때문에 일반적으로 시간순에 따라 trainin/test data를 나눔 ; 학습하는 중 편향되지 않은 data로 그 성능을 검정할 필요가 있음 → 지도학습도 사람이 정답을 알고 있진 않고, 여러 표본을 토대로 기계가 추정할 수 있게 하는 것이다 → test data는 50%를 넘지 않도록 쓰고, 일반적으로 20% 전후를 사용한다 - R^2 = 1일 경우, 회귀선과 표본이 정확히 일치함을 의미한다 - 회귀모델을 평가하는 평..
[n211]Simple Regression ■ Key words ㆍ선형회귀(Linear Regression) ㆍ지도학습(Supervised Learning) ㆍ기준모델(Baseline Model) ㆍScikit-learn ㆍTabular Data(row/column) ㆍRegression / Classification ㆍ선형회귀모델의 계수(coefficients) ■ 주요내용 ㆍLinear Regression Analysis(선형회귀분석법) : 여러 표본의 분포를 선형으로 회귀분석하는 분석법. - 최소제곱법(least square method) : 회귀선과 종속변수(dependent variables, y)의 y값 잔차(편차)의 총합이 가장 적도록 하는 회귀선을 구하는 법. ㆍTabular Data : 테이블 형태의 2차원 데이터. row(가로)..
[n134]Linear Algebra_Clustering TBR ■ Key words ㆍScree Plots ■ 주요내용 ㆍScree Plots import matplotlib.pyplot as plt import seaborn as sns import pandas as pd import numpy as np %matplotlib inline from sklearn.datasets import make_blobs from sklearn import decomposition X, Y = make_blobs(n_features = (차원 수), n_samples = (샘플 수), centers = (차원 수)×(샘플 수) 분포의 중심 수, random_state = n, cluster_std = (클러스터 수)) ## random 하게 simulation data..
[n133]Linear Algebra_Dimension Reduction TBR ■ Key words ㆍ ■ 주요내용 ㆍ ■ Session note ㆍ ■ 주요함수 ㆍ ■ Reference ㆍhttps://excelsior-cjh.tistory.com/167 ㆍ https://velog.io/@eyebrow93/PCA-%EC%A3%BC%EC%84%B1%EB%B6%84%EB%B6%84%EC%84%9D ㆍ Eigenvalue, Eigenvector : https://rfriend.tistory.com/tag/eigenvector
[n132]Linear Algebra_Linear Algebra + TBR ■ Key words ㆍ ■ 주요내용 ㆍ - normalize : 바로 PCA 가능 - standard scaled : pd.DataFrame(StandardScaler().fit_transform(df))으로 Data Frame에 넣어줘야 함 ■ Session note ㆍ ■ 주요함수 ㆍ ■ Reference ㆍ정규화(normalize/standardized/regularize) : https://realblack0.github.io/2020/03/29/normalization-standardization-regularization.htmlv