보호되어 있는 글입니다.
AI&Data

공식 X(Twitter) API는 유료화와 요청 제한으로 인해전문적인 데이터를 필요로 하는 개인이나 소규모 프로젝트에서 사용하기 어렵습니다.이를 대체할 수 있는 오픈소스 도구인 twscrape는트위터 계정 로그인 기반으로 키워드, 사용자, 기간 조건 등 자유롭게 트윗을 수집하고 분석할 수 있는 비공식 API 도구입니다.이 글에서는 twscrape를 활용해 트위터 계정 등록부터 키워드 기반 트윗 수집, CSV 저장까지 전 과정을 소개합니다. 📌 목표트위터 계정을 twscrape에 등록하고로그인하여키워드 기반으로 트윗을 수집하는 방법 1단계. Python 패키지 설치pip install twscrape 2단계. 계정 정보 파일 만들기 + 캐시 저장 설명파일명: login_accounts.txt형식:u..

Part-to-Whole(부분-전체) 부분-전체란전체(Whole)와 부분(Part)의 관계를 시각적으로 나타내는 차트이다.전체 데이터를 100%로 보고, 각 부분이 전체에서 차지하는 비율을 보여줄때 사용한다. 차트 종류1.Stacked Column여러 범주의 데이터를 하나의 세로 막대 안에 쌓아서(스택) 표현하는 차트이다.전체 대비 각 부분의 기여도를 비교할 때 유용하다. 2. Pie Chart전체를 100%로 보고 각 범주의 데이터를 부채꼴 형태로 나누어 비율을 표현하는 차트이다.부분과 전체의 관계를 직관적으로 비교할 때 유용하다. 3. Donut Chart파이 차트와 유사하지만 중앙이 비어 있는 원형 차트이다.부분과 전체의 비율을 비교하면서도 추가적인 정보를 중앙에 표시할 때 유용하다. 4..

Distribution(분포) 분포란분포는 데이터가 특정 범위 내에서 어떻게 퍼져 있는지 나타내는 개념이다.즉, 데이터 값이 특정 범위 내에서 어떤 형태로 존재하는지를 설명하는 방법이다. 차트 종류1. Histogram데이터를 구간(Bin)으로 나누고, 각 구간의 빈도를 막대그래프로 표시한다.히스토그램은 연속형(Continuous) 데이터의 분포를 분석하는 데 사용하고,데이터의 빈도(Frequency)를 시각화하여 데이터가 어떻게 퍼져 있는지(분포 형태)를 이해하는 데 유용하다. 2. Boxplot데이터의 분포, 중앙값(Median), 사분위수, 이상값을 시각적으로 표현하는 그래프이다.데이터의 변동성과 이상값을 한눈에 파악할 수 있는 차트로 통계 분석에서 자주 사용된다. 3. Violin PlotBo..

Deviation(편차) 편차란편차는 변량이 평균으로부터 얼마나 떨어져 있는지 나타내는 값이다.그러므로 편차를 구하는 이유는 값이 평균과 얼마나 떨어졌는지 알기 위해 구한다는 것을 알 수 있다.시각화에서의 편차는 기준을 평균에만 한정하는 게 아닌 여러 값으로 지정할 수 있다. 차트 종류1. Diverging Bar고정된 기준점으로부터의 변화(+/-)를 알고 싶을때 사용한다.대조적인 값을 중심선을 기준으로 양쪽을 분리하여 보여주고 싶을 때 사용된다.아래와 같이 정렬과 색상을 통해 양수와 음수를 구분하여 더욱 효과적으로 편차를 보여줄 수 있다. 2. Spin Chart두 가지 대조적인 그룹을 나누어 비교할때 사용한다.단일 값을 2개의 대조적인 구성 요소로 분할 비교할 수 있다.일반적으로 편차의 기준점은 0..

Remind 이전 글에서 모델링 적합을 위해 데이터 전처리를 진행해 줬다.이번 글에는 본격적으로 모델링 작업을 해보려 한다. 데이터 사이언스 [Data Science] - HR - 전처리(인코딩 및 스케일링)Remind이전 글에서 EDA 작업을 통해 데이터를 분석하였다.이번에는 데이터 전처리 작업을 진행해보려고 한다. 데이터 사이언스 [Data Science] - HR - EDA(탐색적 데이터 분석)Remind이전 글에서 HR 도메인daino.tistory.com Train data, Test data 분류 모델 적합에 앞서 원본 데이터를 75 : 25 비율로 분류해 준다. from sklearn.model_selection import train_test_splitX_train, X_test, y_tr..

비지도 학습이란 문제만 있고 정답은 없는 경우 사용하는 머신러닝 기법군집화(Clustering)와 연관관계 분석이 대표적군집화 : 데이터를 비슷한 유형별로 묶음연관관계 분석 : 데이터 간 연관 규칙을 파악 분류(Classification)와 군집(Clustering)의 차이는?라벨(정답)의 유무분류는 라벨이 있지만 군집은 라벨이 없다. 군집화 알고리즘 잘된 군집화동일한 군집의 데이터들은 서로 유사할수록 좋음 (High intra-cluster similarity)다른 군집에 속한 데이터들은 서로 다를수록 좋음 (Low inter-cluster similarity) K-평균 군집화(K-means Clustering)대표적인 분할적 군집화 알고리즘사전에 군집 수(K)를 지정각 군집은 하나의 중심점이 존재초기..

회귀 지도학습분류 지도학습은 범주를 예측하는 것에 반해 회귀 지도학습은 수치를 예측한다.분류 -> 비가 오거나 오지 않거나를 예측회귀 -> 비가 얼마나 몇 mm 오지는지를 예측 X 변수 개수에 따라 그래프의 형태 변화머신러닝은 함수를 만들어 내는 것회귀계수(기울기와 y절편)을 찾는 것이 핵심변수가 곧 차원이 됨변수가 하나일 때 - 2차원(직선의 방정식)변수가 두 개일 때 - 3차원 최소 제곱법(Method of Least Squeare)오차의 제곱 합(Sum of the Squared Errors, SSE)이 최소가 되는 해를 구하는 방법선형 회귀에서 해 = 기울기즉, 최소 제곱법을 이용하여 기울기 추정 성능평가 지표MAE(Means Absolute Error)오차의 절대값의 평균MSE(Means Squ..