비지도 학습이란 문제만 있고 정답은 없는 경우 사용하는 머신러닝 기법군집화(Clustering)와 연관관계 분석이 대표적군집화 : 데이터를 비슷한 유형별로 묶음연관관계 분석 : 데이터 간 연관 규칙을 파악 분류(Classification)와 군집(Clustering)의 차이는?라벨(정답)의 유무분류는 라벨이 있지만 군집은 라벨이 없다. 군집화 알고리즘 잘된 군집화동일한 군집의 데이터들은 서로 유사할수록 좋음 (High intra-cluster similarity)다른 군집에 속한 데이터들은 서로 다를수록 좋음 (Low inter-cluster similarity) K-평균 군집화(K-means Clustering)대표적인 분할적 군집화 알고리즘사전에 군집 수(K)를 지정각 군집은 하나의 중심점이 존재초기..
회귀 지도학습분류 지도학습은 범주를 예측하는 것에 반해 회귀 지도학습은 수치를 예측한다.분류 -> 비가 오거나 오지 않거나를 예측회귀 -> 비가 얼마나 몇 mm 오지는지를 예측 X 변수 개수에 따라 그래프의 형태 변화머신러닝은 함수를 만들어 내는 것회귀계수(기울기와 y절편)을 찾는 것이 핵심변수가 곧 차원이 됨변수가 하나일 때 - 2차원(직선의 방정식)변수가 두 개일 때 - 3차원 최소 제곱법(Method of Least Squeare)오차의 제곱 합(Sum of the Squared Errors, SSE)이 최소가 되는 해를 구하는 방법선형 회귀에서 해 = 기울기즉, 최소 제곱법을 이용하여 기울기 추정 성능평가 지표MAE(Means Absolute Error)오차의 절대값의 평균MSE(Means Squ..
Remind이전 글에서 EDA 작업을 통해 데이터를 분석하였다.이번에는 데이터 전처리 작업을 진행해보려고 한다. 데이터 사이언스 [Data Science] - HR - EDA(탐색적 데이터 분석)Remind이전 글에서 HR 도메인 지식을 정리하고 모델링 구축을 계획했다.모델링에 앞서 데이터를 이해하고 문제 해결을 위한 가설을 형성하기 위해 EDA 작업이 필요하다. 데이터 사이언스 [Data Sciencdaino.tistory.com 인코딩 데이터 샘플 확인데이터를 살펴보면 범주형 데이터와 수치형 데이터가 혼합된 것을 알 수 있다 범주형 vs 숫자형범주형 : 특정 그룹이나 범주를 나타내는 데이터숫자형 : 숫자로 표현되며, 계산 가능한 데이터 범주형 데이터 분리범주형 데이터는 인코딩을 하여야 머신러닝 모델..
Remind 이전 글에서 HR 도메인 지식을 정리하고 모델링 구축을 계획했다.모델링에 앞서 데이터를 이해하고 문제 해결을 위한 가설을 형성하기 위해 EDA 작업이 필요하다. 데이터 사이언스 [Data Science] - HR - 비즈니스 사례 이해 및 모델 구축 계획Introduction 기업에서 직원 고용 및 유지는 자본, 시간 그리고 전문 기술이 요구된다.이는 기업의 성과와 안정성에 직결되는 중요한 과제로, 효율적인 관리가 필수적입니다.최근 데이터 기반 접근daino.tistory.com 데이터의 기본 구조 이해 데이터의 크기, 칼럼(변수) 이름과 데이터 타입 확인info 매서드로 데이터의 타입 확인35개의 컬럼1470개의 행int64(26)와 object(9) 타입으로 이루어져 있음employee..
Introduction 기업에서 직원 고용 및 유지는 자본, 시간 그리고 전문 기술이 요구된다.이는 기업의 성과와 안정성에 직결되는 중요한 과제로, 효율적인 관리가 필수적입니다.최근 데이터 기반 접근법으로 이러한 복잡한 과정을 혁신하는 연구들이 활발히 진행되고 있다. 커리어 플랫폼 '사람인'에 따르면 직원 1명을 채용하는데 평균 32일과 1,272만 원의 비용이 소모되는 걸 알 수 있다. 또한 채용된 인원 연봉의 15-25%가 헤드 헌팅 수수료로 지출이 된다.특히 50인 미만의 소규모 사업장의 사업주는 HR 전담 인력 부족으로 많은 어려움을 겪는다. 데이터 분석과 이직 예측 모델의 필요성이처럼 직원 이직은 운영의 효율성 및 경제성을 저하시킬 뿐만 아니라, 인재를 잃게 만들어 경쟁력을 약화시킨다.이직 ..
온프레미스(on-premise)사용자가 관리하는 시설 내에 서버 등의 기기를 설치해 운용하는 환경정보 시스템을 구축하기 위해 자체적으로 관련 기기를 준비하고 설정 클라우드(Cloud)클라우드 서비스 제공자가 서버 등의 기기를 준비하고 구축된 가상 서버나 응용 프로그램 등을 사용자에게 제공하여 이용료를 받는 형태물리적 기기, 네트워크는 서비스 제공자가 준비하기에 사용자는 바로 정보 시스템 구축 가능 가상화(Virtualization)클라우드 서비스에서 사용자는 서버를 임대하여 사용사용자가 원하는 사양으로 서버를 선택하면 가상화 기술을 이용해 해당 서버를 가상으로 생성해 사용가상 서버는 하나 또는 클러스터링 된 물리 서버 내에 만들어짐클러스터링이란?똑같은 구성의 여러대의 서버를 병렬로 연결한 상태 서버리스(..