학습목표

  1. 범주형 데이터 전처리 하기(one-hot encoding)
In [ ]:
import pandas as pd
In [ ]:
# data 출처: https://www.kaggle.com/hesh97/titanicdataset-traincsv/data
train_data = pd.read_csv('./train.csv')
train_data.head()

One-hot encoding

  • 범주형 데이터는 분석단계에서 계산이 어렵기 때문에 숫자형으로 변경이 필요함
  • 범주형 데이터의 각 범주(category)를 column레벨로 변경
  • 해당 범주에 해당하면 1, 아니면 0으로 채우는 인코딩 기법
  • pandas.get_dummies 함수 사용
    • drop_first : 첫번째 카테고리 값은 사용하지 않음
In [ ]: