Data Science (51) 썸네일형 리스트형 [n312]Docker ■ Key words ㆍDocker ㆍDocker Hub ㆍDocker Registry(strorage) ㆍDocker Image(static; programe) ㆍDocker Container(running; process) ㆍDocker Compose ■ 주요내용 ㆍDocker : 프로그램 실행을 위해 Linux 환경을 쉽게 구성해주는 도구. App 실행환경을 코드로 작성하고, OS를 격리화하여 관리하는 기술. * 개발자와 사용자, 그리고 관리자가 같은 환경에서 프로그램을 사용할 수 있도록 도와줌. - 환경표준화 - 수작업으로 환경 구성 일치화 - 리소스 격리성 : 가상머신(Virtual Machine) / Docker ㆍLinux Container : 필요한 library와 App.을 모아 별도의 .. [n311]개발환경 ■ Key words ㆍGit ㆍGithub ㆍTerminal(터미널) ㆍPython Artifical Environment(가상환경) ㆍAnaconda ■ 주요내용 ㆍ가상환경 : 운영체제와 이를 사용하는 환경이 다르기 때문에 사용환경과 개발환경을 동일하게 맞추기 위해 사용하는 것.(i. e. python, numpy, pandas의 개발환경과 사용환경의 version 등) 각 가상환경 마다 python 및 package version을 별도로 관리함. - System Package : python이 설치될 때 같이 설치되는 python standard library에 속해 python이 사용하는 package - Third party libraries : System package와는 다르게 별도로 추.. [n234]Interpreting ML Model ■ Key words ㆍ부분의존도그림(Partial Depnedence Plot, PDP) ㆍShap(SHapley Additive exPlanations) Value Plot을 이용한 계별 예측 사례 설명 ■ 주요내용 ㆍ부분의존도그림(Partial Depnedence Plot, PDP) : 특정 feautre가 target에 미치는 영향 확인 가능 - 복잡한 모델 : 이해하기 어렵지만, 성능이 좋음 - 단순한 모델 : 이해하기 쉽지만, 성능이 부족 ⇒ feature의 값 변화에 따라 target의 변화에 어떻게 영향을 미치는지 알 수 있음 ㆍICE(Individual Conditional Expectation, 개별 조건부 기대치) curves : 특성값이 변경될 때 인스턴스(Instance)의 예측값.. [n233]Feature Importances ■ Key words ㆍ특성중요도 계산 - Drop-Column Importance - Permutation importance(순열 중요도) : Mean Decrease Accuracy(MDA) - Feature importance, etc. ㆍAdaBoost와 RandomForest의 차이 ㆍGradient Boosting / xgboost ■ 주요내용 ㆍ ■ Session note ㆍ결측치가 50%가 넘는 feature의 경우, 경험 혹은 도메인 지식을 바탕으로 설명력에 따라 보존하거나 drop을 하면 된다 ㆍ중요한 feature의 결측값 : 해당 imputer 사용 / train에서 클러스터링 하여 유사한 값을 넣도록 고민해보기 ㆍfeature 중요도는 해당 feature의 설명력 혹은 중요도(영.. [n232]Data Wrangling ■ Key words ㆍ데이터 랭글링(Data Wrangling) ㆍ지도학습(Supervised Machine Learning)을 위한 데이터셋 생성 ㆍ지도학습을 위한 Data Engineering 방법 이해 및 올바른 특성 생성 ■ 주요내용 ㆍ데이터 랭글링(Data Wrangling) : 분석을 하거나 모델을 만들기 전에 데이터를 사용하기 쉽게 변형하거나 맵핑하는 과정. 모델링 과정 중 가장 많은 시간 소요. - wrangling 전, 문제를 정의하고, 데이터를 분석하는 목적을 먼저 세우는 것을 잊지 말자! - 각 데이터셋의 인덱스를 보고 퍼즐 맞추듯 merge해 나가거나 log 적용 혹은 분류를 위한 데이터 가공을 해야 함 * 원본 데이터셋으로부터 더 좋은 특성(설명력)을 가진 학습데이터를 만들어 내.. [n231]Choose Your ML Problem ■ Key words ㆍ타겟 선택과 분포 확인 ㆍTest - Train data / Target - Feature leakage ㆍ상황별 적합한 검증지표(Metrics) ■ 주요내용 ㆍData Scientist 실무 과정 - 비즈니스 문제 정의 : 실무자들과 대화를 통해 문제점 도출 - 데이터 수집 : 문제와 관련된 데이터 수집 - 데이터 문제 해결 : 데이터 처리 및 시각화 / 머신러닝 및 통계 활용 - 비즈니스 문제 해결 : 데이터 문제 해결을 통해 실무자들과 함께 해결 ㆍ타겟 선정 : 지도학습(Supervised Learning)에는 문제를 먼저 정의하고, 타겟을 선정해야 한다. - 이산형, 순서형, 범주형 타겟 특성도 회귀문제 또는 다중클래스 분류 문제로 볼 수 있음 - 회귀, 다중클래스분류 문제.. [n223]Evaluation Metrics for Classification ■ Key words ㆍConfusion Matrix ㆍ정확도(Accuracy), 정밀도(Precision), 재현율(Recall) ㆍROC(Receiver Operating Characteristic) Curve, AUC(Area Under the Curve) Score ■ 주요내용 ㆍConfusion Matrix : 모델의 성능을 확인하기 위해 예측 × 실제를 2 × 2차원으로 나눈 matrix. TP/FP/FN/TN로 되어있다. ㆍ정확도(Accuracy) : 모두 맞춘 경우(True Positive + True Negative)를 전체 표본 수(Total)로 나눈 값 ㆍ정밀도(Precision) : Positive로 예측한 경우 중 맞춘 비율(True positive ÷ (True positive .. [n222]Random Forests ■ Key words ㆍEnsemble ㆍRandom Forests - Bagging(Bootstrap Aggregating) - Out-Of-Bag(OOB) sample ㆍ순서형 인코딩(Ordinal Encoding) ㆍ범주형 변수의 인코딩 방법이 Tree model과 Linear Regression Model에 끼치는 영향 ■ 주요내용 ㆍ앙상블(Ensemble) : 한 종류의 데이터로 여러 머신러닝 학습모델(Weak Base Learner, 기본모델)을 만들어 그 모델들의 예측결과를 다수결이나 평균을 내어 예측하는 방법 ㆍRandom Forests : Tree Decision Model을 기본모델로 하는 앙상블 방법 - 결정트리들은 독립적으로 만들어지며, 각각 랜덤으로 예측하는 성능보다 좋을 경우 랜.. 이전 1 2 3 4 5 6 7 다음