Remind 이전 글에서 모델링 적합을 위해 데이터 전처리를 진행해 줬다.이번 글에는 본격적으로 모델링 작업을 해보려 한다. 데이터 사이언스 [Data Science] - HR - 전처리(인코딩 및 스케일링)Remind이전 글에서 EDA 작업을 통해 데이터를 분석하였다.이번에는 데이터 전처리 작업을 진행해보려고 한다. 데이터 사이언스 [Data Science] - HR - EDA(탐색적 데이터 분석)Remind이전 글에서 HR 도메인daino.tistory.com Train data, Test data 분류 모델 적합에 앞서 원본 데이터를 75 : 25 비율로 분류해 준다. from sklearn.model_selection import train_test_splitX_train, X_test, y_tr..
Remind이전 글에서 EDA 작업을 통해 데이터를 분석하였다.이번에는 데이터 전처리 작업을 진행해보려고 한다. 데이터 사이언스 [Data Science] - HR - EDA(탐색적 데이터 분석)Remind이전 글에서 HR 도메인 지식을 정리하고 모델링 구축을 계획했다.모델링에 앞서 데이터를 이해하고 문제 해결을 위한 가설을 형성하기 위해 EDA 작업이 필요하다. 데이터 사이언스 [Data Sciencdaino.tistory.com 인코딩 데이터 샘플 확인데이터를 살펴보면 범주형 데이터와 수치형 데이터가 혼합된 것을 알 수 있다 범주형 vs 숫자형범주형 : 특정 그룹이나 범주를 나타내는 데이터숫자형 : 숫자로 표현되며, 계산 가능한 데이터 범주형 데이터 분리범주형 데이터는 인코딩을 하여야 머신러닝 모델..