본문 바로가기

전체 글

태블로[Tableau] - Visual Vocabulary (부분-전체, 크기, 공간) Part-to-Whole(부분-전체) 부분-전체란전체(Whole)와 부분(Part)의 관계를 시각적으로 나타내는 차트이다.전체 데이터를 100%로 보고, 각 부분이 전체에서 차지하는 비율을 보여줄때 사용한다. 차트 종류1.Stacked Column여러 범주의 데이터를 하나의 세로 막대 안에 쌓아서(스택) 표현하는 차트이다.전체 대비 각 부분의 기여도를 비교할 때 유용하다.  2. Pie Chart전체를 100%로 보고 각 범주의 데이터를 부채꼴 형태로 나누어 비율을 표현하는 차트이다.부분과 전체의 관계를 직관적으로 비교할 때 유용하다.  3. Donut Chart파이 차트와 유사하지만 중앙이 비어 있는 원형 차트이다.부분과 전체의 비율을 비교하면서도 추가적인 정보를 중앙에 표시할 때 유용하다.  4.. 더보기
태블로[Tableau] - Visual Vocabulary (분포, 시계열) Distribution(분포) 분포란분포는 데이터가 특정 범위 내에서 어떻게 퍼져 있는지 나타내는 개념이다.즉, 데이터 값이 특정 범위 내에서 어떤 형태로 존재하는지를 설명하는 방법이다. 차트 종류1. Histogram데이터를 구간(Bin)으로 나누고, 각 구간의 빈도를 막대그래프로 표시한다.히스토그램은 연속형(Continuous) 데이터의 분포를 분석하는 데 사용하고,데이터의 빈도(Frequency)를 시각화하여 데이터가 어떻게 퍼져 있는지(분포 형태)를 이해하는 데 유용하다.  2. Boxplot데이터의 분포, 중앙값(Median), 사분위수, 이상값을 시각적으로 표현하는 그래프이다.데이터의 변동성과 이상값을 한눈에 파악할 수 있는 차트로 통계 분석에서 자주 사용된다.  3. Violin PlotBo.. 더보기
태블로[Tableau] - Visual Vocabulary (편차, 상관관계, 순위) Deviation(편차) 편차란편차는 변량이 평균으로부터 얼마나 떨어져 있는지 나타내는 값이다.그러므로 편차를 구하는 이유는 값이 평균과 얼마나 떨어졌는지 알기 위해 구한다는 것을 알 수 있다.시각화에서의 편차는 기준을 평균에만 한정하는 게 아닌 여러 값으로 지정할 수 있다. 차트 종류1. Diverging Bar고정된 기준점으로부터의 변화(+/-)를 알고 싶을때 사용한다.대조적인 값을 중심선을 기준으로 양쪽을 분리하여 보여주고 싶을 때 사용된다.아래와 같이 정렬과 색상을 통해 양수와 음수를 구분하여 더욱 효과적으로 편차를 보여줄 수 있다.  2. Spin Chart두 가지 대조적인 그룹을 나누어 비교할때 사용한다.단일 값을 2개의 대조적인 구성 요소로 분할 비교할 수 있다.일반적으로 편차의 기준점은 0.. 더보기
데이터 사이언스 [Data Science] - HR - 모델링(선형회귀, 램덤포레스트, Sequential) Remind 이전 글에서 모델링 적합을 위해 데이터 전처리를 진행해 줬다.이번 글에는 본격적으로 모델링 작업을 해보려 한다. 데이터 사이언스 [Data Science] - HR - 전처리(인코딩 및 스케일링)Remind이전 글에서 EDA 작업을 통해 데이터를 분석하였다.이번에는 데이터 전처리 작업을 진행해보려고 한다. 데이터 사이언스 [Data Science] - HR - EDA(탐색적 데이터 분석)Remind이전 글에서 HR 도메인daino.tistory.com Train data, Test data 분류 모델 적합에 앞서 원본 데이터를 75 : 25 비율로 분류해 준다. from sklearn.model_selection import train_test_splitX_train, X_test, y_tr.. 더보기
머신러닝[Machine Learning] - 비지도학습 비지도 학습이란 문제만 있고 정답은 없는 경우 사용하는 머신러닝 기법군집화(Clustering)와 연관관계 분석이 대표적군집화 : 데이터를 비슷한 유형별로 묶음연관관계 분석 : 데이터 간 연관 규칙을 파악 분류(Classification)와 군집(Clustering)의 차이는?라벨(정답)의 유무분류는 라벨이 있지만 군집은 라벨이 없다. 군집화 알고리즘 잘된 군집화동일한 군집의 데이터들은 서로 유사할수록 좋음 (High intra-cluster similarity)다른 군집에 속한 데이터들은 서로 다를수록 좋음 (Low inter-cluster similarity) K-평균 군집화(K-means Clustering)대표적인 분할적 군집화 알고리즘사전에 군집 수(K)를 지정각 군집은 하나의 중심점이 존재초기.. 더보기
머신러닝[Machine Learning] - 선형회귀(Linear Regression) 회귀 지도학습분류 지도학습은 범주를 예측하는 것에 반해 회귀 지도학습은 수치를 예측한다.분류 -> 비가 오거나 오지 않거나를 예측회귀 -> 비가 얼마나 몇 mm 오지는지를 예측 X 변수 개수에 따라 그래프의 형태 변화머신러닝은 함수를 만들어 내는 것회귀계수(기울기와 y절편)을 찾는 것이 핵심변수가 곧 차원이 됨변수가 하나일 때 - 2차원(직선의 방정식)변수가 두 개일 때 - 3차원 최소 제곱법(Method of Least Squeare)오차의 제곱 합(Sum of the Squared Errors, SSE)이 최소가 되는 해를 구하는 방법선형 회귀에서 해 = 기울기즉, 최소 제곱법을 이용하여 기울기 추정 성능평가 지표MAE(Means Absolute Error)오차의 절대값의 평균MSE(Means Squ.. 더보기
데이터 사이언스 [Data Science] - HR - 전처리(인코딩 및 스케일링) Remind이전 글에서 EDA 작업을 통해 데이터를 분석하였다.이번에는 데이터 전처리 작업을 진행해보려고 한다. 데이터 사이언스 [Data Science] - HR - EDA(탐색적 데이터 분석)Remind이전 글에서 HR 도메인 지식을 정리하고 모델링 구축을 계획했다.모델링에 앞서 데이터를 이해하고 문제 해결을 위한 가설을 형성하기 위해 EDA 작업이 필요하다. 데이터 사이언스 [Data Sciencdaino.tistory.com 인코딩 데이터 샘플 확인데이터를 살펴보면 범주형 데이터와 수치형 데이터가 혼합된 것을 알 수 있다  범주형 vs 숫자형범주형 : 특정 그룹이나 범주를 나타내는 데이터숫자형 : 숫자로 표현되며, 계산 가능한 데이터 범주형 데이터 분리범주형 데이터는 인코딩을 하여야 머신러닝 모델.. 더보기
데이터 사이언스 [Data Science] - HR - EDA(탐색적 데이터 분석) Remind 이전 글에서 HR 도메인 지식을 정리하고 모델링 구축을 계획했다.모델링에 앞서 데이터를 이해하고 문제 해결을 위한 가설을 형성하기 위해 EDA 작업이 필요하다. 데이터 사이언스 [Data Science] - HR - 비즈니스 사례 이해 및 모델 구축 계획Introduction 기업에서 직원 고용 및 유지는 자본, 시간 그리고 전문 기술이 요구된다.이는 기업의 성과와 안정성에 직결되는 중요한 과제로, 효율적인 관리가 필수적입니다.최근 데이터 기반 접근daino.tistory.com  데이터의 기본 구조 이해 데이터의 크기, 칼럼(변수) 이름과 데이터 타입 확인info 매서드로 데이터의 타입 확인35개의 컬럼1470개의 행int64(26)와 object(9) 타입으로 이루어져 있음employee.. 더보기