보호되어 있는 글입니다.
분류 전체보기

공식 X(Twitter) API는 유료화와 요청 제한으로 인해전문적인 데이터를 필요로 하는 개인이나 소규모 프로젝트에서 사용하기 어렵습니다.이를 대체할 수 있는 오픈소스 도구인 twscrape는트위터 계정 로그인 기반으로 키워드, 사용자, 기간 조건 등 자유롭게 트윗을 수집하고 분석할 수 있는 비공식 API 도구입니다.이 글에서는 twscrape를 활용해 트위터 계정 등록부터 키워드 기반 트윗 수집, CSV 저장까지 전 과정을 소개합니다. 📌 목표트위터 계정을 twscrape에 등록하고로그인하여키워드 기반으로 트윗을 수집하는 방법 1단계. Python 패키지 설치pip install twscrape 2단계. 계정 정보 파일 만들기 + 캐시 저장 설명파일명: login_accounts.txt형식:u..

최근 Next.js 프로젝트를 진행하면서 무한 로딩과 빌드 실패 현상으로 인해 예상보다 많은 시간을 소비했습니다.오류 메시지:Error: Static page generation for /api/file-upload is still timing out after 3 attempts.처음에는 단순한 API 오류로 생각했지만, 원인은 매우 단순하고 구조적인 충돌이었습니다. 바로 route.ts와 page.tsx가 같은 경로에 존재하고 있었던 것입니다.🧩 문제 상황 요약경로: /app/api/file-upload/구성:page.tsx: 파일 업로드 UI를 렌더링하는 브라우저 페이지route.ts: 파일 업로드 요청을 처리하는 API 핸들러Next.js App Router 구조에서는 같은 폴더에 page.ts..
Why지난주에 동아리에서 Tableau를 활용한 데이터 시각화 1차 미니 프로젝트를 마쳤다.공모전을 목표로 하고 있었기에 매년 열리는 서울 교육 공모전으로 포커싱 했고,유치원의 현황을 분야별로 정리된 유치원 알리미 데이터를 활용하기로 했고,최종 프로젝트 주제로 "유치원 평가 지표를 만들어 지표가 낮은 유치원에 원인을 파악해 선제적으로 대응하자라"는 결론에 이르렀다.이렇게 미니 프로젝트는 공모전 탐색 -> 데이터셋 탐색 -> 주제 선정 이렇게 순서가 진행되었다. 성공적으로 프로젝트를 마감했지만, 문득 공모전을 통해 진행된 프로젝트에 아쉬움이 있었다.이유는 아래와 같다.오직 공모전을 위한 프로젝트 : 유치원 프로젝트는 팀원들의 관심사와는 상관없이 오르지 공모전을 위한 프로젝트였다.실무와의 거리감 : 실제 ..

Part-to-Whole(부분-전체) 부분-전체란전체(Whole)와 부분(Part)의 관계를 시각적으로 나타내는 차트이다.전체 데이터를 100%로 보고, 각 부분이 전체에서 차지하는 비율을 보여줄때 사용한다. 차트 종류1.Stacked Column여러 범주의 데이터를 하나의 세로 막대 안에 쌓아서(스택) 표현하는 차트이다.전체 대비 각 부분의 기여도를 비교할 때 유용하다. 2. Pie Chart전체를 100%로 보고 각 범주의 데이터를 부채꼴 형태로 나누어 비율을 표현하는 차트이다.부분과 전체의 관계를 직관적으로 비교할 때 유용하다. 3. Donut Chart파이 차트와 유사하지만 중앙이 비어 있는 원형 차트이다.부분과 전체의 비율을 비교하면서도 추가적인 정보를 중앙에 표시할 때 유용하다. 4..

Distribution(분포) 분포란분포는 데이터가 특정 범위 내에서 어떻게 퍼져 있는지 나타내는 개념이다.즉, 데이터 값이 특정 범위 내에서 어떤 형태로 존재하는지를 설명하는 방법이다. 차트 종류1. Histogram데이터를 구간(Bin)으로 나누고, 각 구간의 빈도를 막대그래프로 표시한다.히스토그램은 연속형(Continuous) 데이터의 분포를 분석하는 데 사용하고,데이터의 빈도(Frequency)를 시각화하여 데이터가 어떻게 퍼져 있는지(분포 형태)를 이해하는 데 유용하다. 2. Boxplot데이터의 분포, 중앙값(Median), 사분위수, 이상값을 시각적으로 표현하는 그래프이다.데이터의 변동성과 이상값을 한눈에 파악할 수 있는 차트로 통계 분석에서 자주 사용된다. 3. Violin PlotBo..

Deviation(편차) 편차란편차는 변량이 평균으로부터 얼마나 떨어져 있는지 나타내는 값이다.그러므로 편차를 구하는 이유는 값이 평균과 얼마나 떨어졌는지 알기 위해 구한다는 것을 알 수 있다.시각화에서의 편차는 기준을 평균에만 한정하는 게 아닌 여러 값으로 지정할 수 있다. 차트 종류1. Diverging Bar고정된 기준점으로부터의 변화(+/-)를 알고 싶을때 사용한다.대조적인 값을 중심선을 기준으로 양쪽을 분리하여 보여주고 싶을 때 사용된다.아래와 같이 정렬과 색상을 통해 양수와 음수를 구분하여 더욱 효과적으로 편차를 보여줄 수 있다. 2. Spin Chart두 가지 대조적인 그룹을 나누어 비교할때 사용한다.단일 값을 2개의 대조적인 구성 요소로 분할 비교할 수 있다.일반적으로 편차의 기준점은 0..

Remind 이전 글에서 모델링 적합을 위해 데이터 전처리를 진행해 줬다.이번 글에는 본격적으로 모델링 작업을 해보려 한다. 데이터 사이언스 [Data Science] - HR - 전처리(인코딩 및 스케일링)Remind이전 글에서 EDA 작업을 통해 데이터를 분석하였다.이번에는 데이터 전처리 작업을 진행해보려고 한다. 데이터 사이언스 [Data Science] - HR - EDA(탐색적 데이터 분석)Remind이전 글에서 HR 도메인daino.tistory.com Train data, Test data 분류 모델 적합에 앞서 원본 데이터를 75 : 25 비율로 분류해 준다. from sklearn.model_selection import train_test_splitX_train, X_test, y_tr..