학습목표

  1. transform 함수 이해하기
In [ ]:
import numpy as np
import pandas as pd
In [ ]:
# data 출처: https://www.kaggle.com/hesh97/titanicdataset-traincsv/data
df = pd.read_csv('./train.csv')
df.head()

transform 함수

  • groupby 후 transform 함수를 사용하면 원래의 index를 유지한 상태로 통계함수를 적용
  • 전체 데이터의 집계가 아닌 각 그룹에서의 집계를 계산
  • 따라서 새로 생성된 데이터를 원본 dataframe과 합치기 쉬움
In [ ]:
df.groupby('Pclass').mean()
In [ ]:
df.groupby('Pclass').transform(np.mean)
In [ ]:
df['Age2'] = df.groupby('Pclass').transform(np.mean)['Age']
df
In [ ]:
df.groupby(['Pclass', 'Sex']).mean()
In [ ]:
df['Age3'] = df.groupby(['Pclass', 'Sex']).transform(np.mean)['Age']
df
In [ ]: