Go together

If you want to go fast, go alone. If you want to go far, go together.

분류 전체보기 59

군집화 실습 - 고객 세그먼테이션

배운 내용 DataFrame.isnull() Series.value_counts() DataFrame.astype() DataFrame.groupby(columns).method() GroupBy.agg() dt.datetime() pd.to_datetime() Series.apply(lambda) silhouette_score silhouette_samples 고객 세그먼테이션의 정의와 기법 고객을 세그먼테이션(Customer Segmentation)은 다양한 기준으로 고객을 분류하는 기법을 지칭합니다. 고객 세그먼테이션은 CRM이나 마케팅의 중요 기반 요소입니다. 고객 세그먼테이션의 주요 목표는 타깃 마케팅입니다. 타깃 마케팅이란 고객을 여러 특성에 맞게 세분화해서 그 유형에 따라 맞춤형 마케팅이나 ..

군집화

배운 내용 KMeans.fit() make_blobs() & np.unique() KMeans.fit_predict() KMeans.cluster_centers_ sihouette_samples() silhouette_score() DataFrame.groupby() MeanShift MeanShift.fit_predict() sklearn.cluster.estimate_bandwidth MeanShift.cluster_centers_ sklearn.mixture.GaussianMixture GaussianMixture.fit() GaussianMixture.predict() sklearn.cluster.DBSCAN 본문 K-평균은 군집화(Clustering)에서 가장 일반적으로 사용되는 알고리즘입니다...

차원 축소

배운 내용 PCA StandardScaler sklearn.decomposition.PCA PCA.explained_variance_ratio_ RandomForestClassifier cross_val_score DataFrame.rename(columns) DataFrame.corr() sns.heatmap() LDA LinearDiscriminantAnalysis SVD numpy.linalg.svd np.diag() np.dot() scipy.sparse.linalg.svds scipy.linalg.svd sklearn.decomposition.TruncatedSVD NMF 본문 차원 축소는 피처가 매우 많은 다차원 데이터 세트의 차원을 더 적은 피처(차원)를 갖도록 축소하는 것입니다. 차원이 증..

회귀 실습 - 캐글 주택 가격: 고급 회귀 기법

배운 내용 DataFrame.isnull() & DataFrame.sum() sns.distplot(Series) pd.get_dummies(DataFrame) Figure.tight_layout() pd.concat() Axes.tick_params Axes.get_xticklabels() sns.barplot() cross_val_score() GridSearchCV().fit() GridSearchCV().best_params_ scipy.stats.skew() 회귀 모델의 예측 결과 혼합을 통한 최종 예측 스태킹 앙상블 모델을 통한 회귀 예측 House Prices: Advanced Regression Techniques 데이터 세트는 https://www.kaggle.com/c/house-pri..

회귀 실습 - 자전거 대여 수요 예측

배운 내용 DataFrame.apply(pd.to_datetime) DF.sort_values('Column', ascending=False)[:n_tops] DataFrame.hist() sns.barplot(x, y) pd.get_dummies() 자전거 대여 수요 예측 자전거 대여 수요(Bike Sharing Demand) 예측 경연에서 사용된 데이터 세트를 이용해 선형 회귀와 트리 기반 회귀를 비교해보겠습니다. 데이터 세트는 https://www.kaggle.com/c/bike-sharing-demand/data에서 내려받을 수 있습니다. Bike Sharing Demand | Kaggle www.kaggle.com 데이터 세트의 주요 칼럼은 다음과 같습니다. datetime: hourly dat..

matplotlib 개념

배운 내용 plt.figure() Figure.add_subplot() Axes.set() Axes.plot() Axes.scatter() Figure 생성 plt.figure() import numpy as np import matplotlib.pyplot as plt # 새로운 figure 생성 fig = plt.figure() # 생성된 모든 figure을 보여준다. plt.show() ''' ''' plt.figure(figsize=(9, 9))로 figsize에 튜플값을 주면, 창 크기를 가로 세로 9x9 인치로 줄 수 있다. figsize=(6, 9)와 (9, 9)의 차이는 아래와 같다. 실제로 axes를 생성하지 않으면 그래프가 보이지 않지만, 비교를 위해 아래 처럼 그림을 첨부했다. axe..

matplotlib 2021.11.22

분류 - 스태킹 앙상블

배운 내용 Stacking Esemble np.array() np.transpose() CV 세트 기반의 스태킹 np.concatenate() 스태킹 앙상블 스태킹(Stacking)은 개별 알고리즘의 예측 결과 데이터 세트를 메타 데이터 세트로 만들어 별도의 ML 알고리즘으로 최종 학습을 수행하고 테스트 데이터를 기반으로 다시 최종 예측을 수행하는 방식입니다. (이렇게 개별 모델의 예측된 데이터 세트를 다시 기반으로 하여 학습하고 예측하는 방식을 메타 모델이라고 합니다.) 스태킹 모델은 두 종류의 모델이 필요합니다. 첫 번째는 개별적인 기반 모델이고, 두 번째는 이 개별 기반 모델의 예측 데이터를 학습 데이터로 만들어서 학습하는 최종 메타 모델입니다. 스태킹 모델의 핵심은 여러 개별 모델의 예측 데이터를..

분류 실습 - 캐글 신용카드 사기 검출

배운 내용 XGBoost imbalanced-learn DataFrame.copy() Series.value_counts() LogisticRegression LGBMClassifier, boost_from_average=False np.log1p() DataFrame.corr() & sns.heatmap() DataFrame.index SMOTE.fit_resample() precision_recall_curve() 분류 실습 - 캐글 신용카드 사기 검출 데이터는 https://www.kaggle.com/mlg-ulb/creditcardfraud 에서 내려 받을 수 있습니다. 해당 데이터 세트의 레이블인 Class 속성은 매우 불균형한 분포를 가지고 있습니다. 0은 정상적인 신용카드 트랜잭션 데이터, ..

분류 실습 - 캐글 산탄데르 고객 만족 예측

배운 내용 XGBoost DataFrame.describe() Series.fillna() or DataFrame.fillna() Series.replace() plot_importance() LightGBM GridSearchCV 분류 실습 - 캐글 산탄데르 고객 만족 예측 산탄데르 은행이 370개의 피처로 주어진 데이터 세트 기반에서 고객 만족 여부를 예측하는 것입니다. 클래스 레이블 명은 TARGET이며, 이 값이 1이면 불만족, 0이면 만족한 고객입니다. 모델의 성능 명가는 ROC-AUC로 평가합니다. 대부분 만족이고, 불만족인 데이터는 일부일 것이기 때문입니다. 데이터는 아래의 링크를 통해 내려받을 수 있습니다. https://www.kaggle.com/c/santander-customer-sa..