2.數據認識和清洗的總體要求
理解問題 :我們將分析每一個變量,然后較全面地理解它的含義,以及對我們問題的重要性。
單變量研究:我們將重點關注因變量(SalePrice),并且對這個變量做一些了解。
多變量研究:我們嘗試理解因變量和自變量之間的關系。
基礎清洗: 我們將清洗數據并且處理缺失值,離群點數據和分類型變量。
測試驗證: 我們將通過多變量技術來檢測數據是否符合目標需求。
3. 具體過程
這里以kaggle的預測房價比賽為例:
相關鏈接:https://www.kaggle.com/c/house-prices-advanced-regression-techniques
導入相應的python包
#invite people for the Kaggle party
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from scipy.stats import norm
from sklearn.preprocessing import StandardScaler
from scipy import stats
import warnings
warnings.filterwarnings('ignore')
%matplotlib inline
加載數據到內存
df_train = pd.read_csv('./data/train.csv')
df_test = pd.read_csv('./data/test.csv')