Go together

If you want to go fast, go alone. If you want to go far, go together.

파이썬 머신 러닝 완벽 가이드 23

회귀 실습 - 캐글 주택 가격: 고급 회귀 기법

배운 내용 DataFrame.isnull() & DataFrame.sum() sns.distplot(Series) pd.get_dummies(DataFrame) Figure.tight_layout() pd.concat() Axes.tick_params Axes.get_xticklabels() sns.barplot() cross_val_score() GridSearchCV().fit() GridSearchCV().best_params_ scipy.stats.skew() 회귀 모델의 예측 결과 혼합을 통한 최종 예측 스태킹 앙상블 모델을 통한 회귀 예측 House Prices: Advanced Regression Techniques 데이터 세트는 https://www.kaggle.com/c/house-pri..

회귀 실습 - 자전거 대여 수요 예측

배운 내용 DataFrame.apply(pd.to_datetime) DF.sort_values('Column', ascending=False)[:n_tops] DataFrame.hist() sns.barplot(x, y) pd.get_dummies() 자전거 대여 수요 예측 자전거 대여 수요(Bike Sharing Demand) 예측 경연에서 사용된 데이터 세트를 이용해 선형 회귀와 트리 기반 회귀를 비교해보겠습니다. 데이터 세트는 https://www.kaggle.com/c/bike-sharing-demand/data에서 내려받을 수 있습니다. Bike Sharing Demand | Kaggle www.kaggle.com 데이터 세트의 주요 칼럼은 다음과 같습니다. datetime: hourly dat..

분류 - 스태킹 앙상블

배운 내용 Stacking Esemble np.array() np.transpose() CV 세트 기반의 스태킹 np.concatenate() 스태킹 앙상블 스태킹(Stacking)은 개별 알고리즘의 예측 결과 데이터 세트를 메타 데이터 세트로 만들어 별도의 ML 알고리즘으로 최종 학습을 수행하고 테스트 데이터를 기반으로 다시 최종 예측을 수행하는 방식입니다. (이렇게 개별 모델의 예측된 데이터 세트를 다시 기반으로 하여 학습하고 예측하는 방식을 메타 모델이라고 합니다.) 스태킹 모델은 두 종류의 모델이 필요합니다. 첫 번째는 개별적인 기반 모델이고, 두 번째는 이 개별 기반 모델의 예측 데이터를 학습 데이터로 만들어서 학습하는 최종 메타 모델입니다. 스태킹 모델의 핵심은 여러 개별 모델의 예측 데이터를..

분류 실습 - 캐글 신용카드 사기 검출

배운 내용 XGBoost imbalanced-learn DataFrame.copy() Series.value_counts() LogisticRegression LGBMClassifier, boost_from_average=False np.log1p() DataFrame.corr() & sns.heatmap() DataFrame.index SMOTE.fit_resample() precision_recall_curve() 분류 실습 - 캐글 신용카드 사기 검출 데이터는 https://www.kaggle.com/mlg-ulb/creditcardfraud 에서 내려 받을 수 있습니다. 해당 데이터 세트의 레이블인 Class 속성은 매우 불균형한 분포를 가지고 있습니다. 0은 정상적인 신용카드 트랜잭션 데이터, ..

분류 실습 - 캐글 산탄데르 고객 만족 예측

배운 내용 XGBoost DataFrame.describe() Series.fillna() or DataFrame.fillna() Series.replace() plot_importance() LightGBM GridSearchCV 분류 실습 - 캐글 산탄데르 고객 만족 예측 산탄데르 은행이 370개의 피처로 주어진 데이터 세트 기반에서 고객 만족 여부를 예측하는 것입니다. 클래스 레이블 명은 TARGET이며, 이 값이 1이면 불만족, 0이면 만족한 고객입니다. 모델의 성능 명가는 ROC-AUC로 평가합니다. 대부분 만족이고, 불만족인 데이터는 일부일 것이기 때문입니다. 데이터는 아래의 링크를 통해 내려받을 수 있습니다. https://www.kaggle.com/c/santander-customer-sa..

피마 인디언 당뇨병 예측

배운 내용 DataFrame.describe() plt.hist() Binarizer 피마 인디언 당뇨병 데이터 세트는 북아메리카 피마 지역 원주민의 Type-2 당뇨병 결과 데이터입니다. 당뇨병의 원인으로는 서구화된 식습관과 유전을 꼽습니다. 피마 지역은 고립된 지역에서 인디언 고유의 혈통이 오랫동안 지속된 곳이었습니다. import numpy as np import pandas as pd import matplotlib.pyplot as plt %matplotlib inline from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score, precision_score, recall_score..

평가

배운 내용 BaseEstimator load_digits confusion_matrix() precision_score() recall_score() LogisticRegression predict_proba() np.concatenate() Binarizer.fit_transform() precision_recall_curve() f1_score() roc_curve() 머신러닝은 데이터 가공/변환, 모델 학습/예측, 그리고 평가(Evaluation)의 프로세스로 구성됩니다. 모델 예측 성능의 평가를 위해 지금까지 정확도(Accuracy)를 이용해왔습니다. 머신러닝 모델은 여러 가지 방법으로 예측 성능을 평가할 수 있습니다. 성능 평가 지표(Evaluation Metric)는 보통 모델이 회귀냐 분류이..

타이타닉 생존자 예측

배운 내용 DataFrame.info() DataFrame.fillna() DataFrame.isnull() Series.value_counts() DataFrame.groupby() DataFrame.drop() sns.barplot(x, y, hue, data=DataFrame) LabelEncoder.fit(), LabelEncoder.transform() train_test_split() enumerate(data) DataFrame.values[index] KFold cross_val_score() GridSearchCV 타이타닉 탑승자 데이터에 대한 개략적인 설명 Passengerid: 탑승자 데이터 일련번호 survived: 생존 여부, 0 = 사망, 1 = 생존 pclass: 티켓의 선실 ..