모델명
학습태도 및 성향관찰 분석
모델링크
데이터가 적은 모델
- 클래스당 24장
- 총 120장
데이터가 많은 모델
- 클래스당 170장
- 총 850장
모델 제작 동기
공개 데이터셋(Public Datasets) 사용 결정 이유
모델을 제작하기에 앞서 데이터가 적은 모델과 데이터가 많은 모델을 비교하려면 충분한 양의 데이터가 있어야 한다고 생각했다.
데이터를 수집하는 방법에는 크롤링 등 여러가지 방법이 있지만 검증된 데이터를 빠르게 접근하는 것이 중요했기에 공개 데이터셋을 활용하기로 했다.
이번 모델링 작업에서는 AI Hub에 데이터 셋을 사용하기로 결정했다.
“학습태도 및 성향관찰 분석” 데이터 선택 이유
AI를 통해 얼굴 표정이나 말투를 통해 감정을 분석하는 것은 어느 정도 가능하다고 알고 있었다.
하지만 기쁨, 슬픔, 화남처럼 명확하고 간단한 분류 체계를 가지고 있는 감정이 아닌 집중, 기억, 이해와 같은 복잡하고, 비가시성적인 특성을 가진 인지적 상태는 머신러닝이 잘 판단할 수 있을지 궁금해서 데이터를 선택하게 되었다.
데이터 출처
학습 방법
클래스를 [집중, 흥미로움 / 집중, 차분함 / 집중하지 않음, 차분함 / 집중하지 않음, 지루함 / 졸음]으로 나눴고 데이터가 적은 모델은 클래스당 24장씩, 많은 모델은 클래스당 120장씩 학습을 시켰다. 이미 학습된 모델에 추가적인 데이터를 학습하는 전이 학습(Transfer Learning) 방식을 사용하여 적은 양의 데이터로도 빠르고 효과적인 학습이 가능했다.
모델 테스트 결과
집중,흥미로움
적은 데이터
많은 데이터
집중,차분함
적은 데이터
많은 데이터
집중하지 않음, 차분함
적은 데이터
많은 데이터
집중하지 않음, 지루함
적은 데이터
많은 데이터
졸음
적은 데이터
많은 데이터
총평 및 소감
데이터의 다양성
- 원본 데이터로 작업하고 싶었지만, 2TB라는 거대한 용량을 다운 받을 수 없었기에 샘플 데이터(5GB)로 진행했다. 샘플데이터는 한 객체(사람)에 대한 데이터만 제공되었기에 다른 성별, 다른 나이등에 대해서는 모델이 작동하기 어렵다고 생각했고 실제로 그랬다. 데이터의 양도 중요하지만 다양성도 중요하다는 생각이 들었다.
다중 태깅 시 부적합성
- Teachable Machine은 학습용 서비스여서 그런지 클래스 이름으로 태킹을 한 개만 지원해 다중 태그가 필요한 작업 시 적합하지 않다고 생각했다.
정성 데이터의 AI 모델 적용에 어려움
- 정량적인 데이터가 아닌 얼굴 표정이라는 정성적인 데이터로 이루어져 있기에 모델의 정확도가 높지 않았다.
인공 생성 데이터의 의문점
- 자연 발생 데이터가 아닌 인공으로 데이터를 만들어 냈기에 라벨링 되어 있는 감정 정보(차분함, 흥미로움 등)들이 정확한 분류 기준이 될 수 있는지에 의문이 들었다.
소감
- 예상했던 대로 모델의 성능이 많이 좋지 않았다. 또한 데이터의 양이 증가한다면 당연히 성능이 증가할 것이라고 생각했지만 반대로 성능이 안 좋아지는 현상도 일어났다.
- 실제로 프로그램을 돌려 모델을 학습시키는 것에는 시간이 거의 걸리지 않았다. 하지만 모델을 만드는 목적과 데이터 전처리 및 선별과정에서 시간을 많이 쓰게 되었다.
- 대량의 데이터도 중요하지만 라벨링 작업도 만만치 않게 중요하다는 것을 깨달았다.
- 오픈 데이터를 만드느라 고생하시는 관계자분들에게 감사한 마음이 들었다.
'AI&Data' 카테고리의 다른 글
데이터 사이언스 [Data Science] - HR - 전처리(인코딩 및 스케일링) (4) | 2024.11.30 |
---|---|
데이터 사이언스 [Data Science] - HR - EDA(탐색적 데이터 분석) (0) | 2024.11.29 |
데이터 사이언스 [Data Science] - HR - 비즈니스 사례 이해 및 모델 구축 계획 (1) | 2024.11.28 |
[도서 리뷰] 박태웅의 AI 특강 (1) | 2024.05.16 |
프로그래밍의 종말 (0) | 2024.05.16 |