'파이썬 머신 러닝 완벽 가이드' 카테고리의 글 목록 (2 Page)

파이썬 머신 러닝 완벽 가이드 23

배운 내용 DataFrame.isnull() & DataFrame.sum() sns.distplot(Series) pd.get_dummies(DataFrame) Figure.tight_layout() pd.concat() Axes.tick_params Axes.get_xticklabels() sns.barplot() cross_val_score() GridSearchCV().fit() GridSearchCV().best_params_ scipy.stats.skew() 회귀 모델의 예측 결과 혼합을 통한 최종 예측 스태킹 앙상블 모델을 통한 회귀 예측 House Prices: Advanced Regression Techniques 데이터 세트는 https://www.kaggle.com/c/house-pri..

파이썬 머신 러닝 완벽 가이드 2021.11.24

회귀 실습 - 자전거 대여 수요 예측

배운 내용 DataFrame.apply(pd.to_datetime) DF.sort_values('Column', ascending=False)[:n_tops] DataFrame.hist() sns.barplot(x, y) pd.get_dummies() 자전거 대여 수요 예측 자전거 대여 수요(Bike Sharing Demand) 예측 경연에서 사용된 데이터 세트를 이용해 선형 회귀와 트리 기반 회귀를 비교해보겠습니다. 데이터 세트는 https://www.kaggle.com/c/bike-sharing-demand/data에서 내려받을 수 있습니다. Bike Sharing Demand | Kaggle www.kaggle.com 데이터 세트의 주요 칼럼은 다음과 같습니다. datetime: hourly dat..

파이썬 머신 러닝 완벽 가이드 2021.11.23

회귀

배운 내용 경사하강법 np.random.rand() np.random.randn() np.zeros_like() np.ones() np.zeros() LinearRegression sns.regplot() plt.subplots() pd.Series(data, index) Series.sortvalue(ascending) cross_val_score() PolynomialFeatures Pipeline 편향 - 분산 트레이드 오프 (Bias - Variance Trade-off) Ridge (L2 regularization) Lasso (L1 regularization) ElasticNet (L2 + L1) StandardScaler MinMaxScaler np.log1p() LogisticRegress..

파이썬 머신 러닝 완벽 가이드 2021.11.19

분류 - 스태킹 앙상블

배운 내용 Stacking Esemble np.array() np.transpose() CV 세트 기반의 스태킹 np.concatenate() 스태킹 앙상블 스태킹(Stacking)은 개별 알고리즘의 예측 결과 데이터 세트를 메타 데이터 세트로 만들어 별도의 ML 알고리즘으로 최종 학습을 수행하고 테스트 데이터를 기반으로 다시 최종 예측을 수행하는 방식입니다. (이렇게 개별 모델의 예측된 데이터 세트를 다시 기반으로 하여 학습하고 예측하는 방식을 메타 모델이라고 합니다.) 스태킹 모델은 두 종류의 모델이 필요합니다. 첫 번째는 개별적인 기반 모델이고, 두 번째는 이 개별 기반 모델의 예측 데이터를 학습 데이터로 만들어서 학습하는 최종 메타 모델입니다. 스태킹 모델의 핵심은 여러 개별 모델의 예측 데이터를..

파이썬 머신 러닝 완벽 가이드 2021.11.16

분류 실습 - 캐글 신용카드 사기 검출

배운 내용 XGBoost imbalanced-learn DataFrame.copy() Series.value_counts() LogisticRegression LGBMClassifier, boost_from_average=False np.log1p() DataFrame.corr() & sns.heatmap() DataFrame.index SMOTE.fit_resample() precision_recall_curve() 분류 실습 - 캐글 신용카드 사기 검출 데이터는 https://www.kaggle.com/mlg-ulb/creditcardfraud 에서 내려 받을 수 있습니다. 해당 데이터 세트의 레이블인 Class 속성은 매우 불균형한 분포를 가지고 있습니다. 0은 정상적인 신용카드 트랜잭션 데이터, ..

파이썬 머신 러닝 완벽 가이드 2021.11.14

분류 실습 - 캐글 산탄데르 고객 만족 예측

배운 내용 XGBoost DataFrame.describe() Series.fillna() or DataFrame.fillna() Series.replace() plot_importance() LightGBM GridSearchCV 분류 실습 - 캐글 산탄데르 고객 만족 예측 산탄데르 은행이 370개의 피처로 주어진 데이터 세트 기반에서 고객 만족 여부를 예측하는 것입니다. 클래스 레이블 명은 TARGET이며, 이 값이 1이면 불만족, 0이면 만족한 고객입니다. 모델의 성능 명가는 ROC-AUC로 평가합니다. 대부분 만족이고, 불만족인 데이터는 일부일 것이기 때문입니다. 데이터는 아래의 링크를 통해 내려받을 수 있습니다. https://www.kaggle.com/c/santander-customer-sa..

파이썬 머신 러닝 완벽 가이드 2021.11.14

분류

배운 내용 결정 트리 Graphviz export_graphviz() DecisionTreeClassifier.feature_importances_ sns.barplot() make_classification() DataFrame.GroupBy.cumcount() DataFrame.reset_index() GridSearchCV grid_cv.best_score_ & grid_cv.best_params_ grid_cv.best_estimator_ Estimator.feature_importance_ Series.sort_values() Ensemble learning VoringClassifier load_breast_cancer() RandomForestClassifier GradientBoosting..

파이썬 머신 러닝 완벽 가이드 2021.11.06

피마 인디언 당뇨병 예측

배운 내용 DataFrame.describe() plt.hist() Binarizer 피마 인디언 당뇨병 데이터 세트는 북아메리카 피마 지역 원주민의 Type-2 당뇨병 결과 데이터입니다. 당뇨병의 원인으로는 서구화된 식습관과 유전을 꼽습니다. 피마 지역은 고립된 지역에서 인디언 고유의 혈통이 오랫동안 지속된 곳이었습니다. import numpy as np import pandas as pd import matplotlib.pyplot as plt %matplotlib inline from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score, precision_score, recall_score..

파이썬 머신 러닝 완벽 가이드 2021.11.05

평가

배운 내용 BaseEstimator load_digits confusion_matrix() precision_score() recall_score() LogisticRegression predict_proba() np.concatenate() Binarizer.fit_transform() precision_recall_curve() f1_score() roc_curve() 머신러닝은 데이터 가공/변환, 모델 학습/예측, 그리고 평가(Evaluation)의 프로세스로 구성됩니다. 모델 예측 성능의 평가를 위해 지금까지 정확도(Accuracy)를 이용해왔습니다. 머신러닝 모델은 여러 가지 방법으로 예측 성능을 평가할 수 있습니다. 성능 평가 지표(Evaluation Metric)는 보통 모델이 회귀냐 분류이..

파이썬 머신 러닝 완벽 가이드 2021.10.27

타이타닉 생존자 예측

배운 내용 DataFrame.info() DataFrame.fillna() DataFrame.isnull() Series.value_counts() DataFrame.groupby() DataFrame.drop() sns.barplot(x, y, hue, data=DataFrame) LabelEncoder.fit(), LabelEncoder.transform() train_test_split() enumerate(data) DataFrame.values[index] KFold cross_val_score() GridSearchCV 타이타닉 탑승자 데이터에 대한 개략적인 설명 Passengerid: 탑승자 데이터 일련번호 survived: 생존 여부, 0 = 사망, 1 = 생존 pclass: 티켓의 선실 ..

파이썬 머신 러닝 완벽 가이드 2021.10.20

1 2 3

공부한 것을 기록하는 곳

WordNetLemmatizer, scikit learn, Kaggle, stackign ensemble, LightGBM, okt, DBSCAN, NMF, nlp, truncated svd, LinearRegression, Silhouette Evaluation, Mercari Price Suggestion Challenge, clustering, 피마 인디언 당뇨병 예측, kmeans, SentimentIntetsityAnalyzer, konlpy, 파이썬 머신러닝 완벽 가이드, 결정 트리,

my-github

Today :
Yesterday :

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

공부 기록

파이썬 머신 러닝 완벽 가이드 23

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

2025. 04
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30