Daino's Archiving
article thumbnail
반응형

 

썸네일

 

비지도 학습이란

 

  • 문제만 있고 정답은 없는 경우 사용하는 머신러닝 기법
  • 군집화(Clustering)와 연관관계 분석이 대표적
    • 군집화 : 데이터를 비슷한 유형별로 묶음
    • 연관관계 분석 : 데이터 간 연관 규칙을 파악

 

분류(Classification)와 군집(Clustering)의 차이는?
라벨(정답)의 유무
분류는 라벨이 있지만 군집은 라벨이 없다.

 

군집화 알고리즘

 

잘된 군집화

  • 동일한 군집의 데이터들은 서로 유사할수록 좋음 (High intra-cluster similarity)
  • 다른 군집에 속한 데이터들은 서로 다를수록 좋음 (Low inter-cluster similarity)

 

K-평균 군집화(K-means Clustering)

  • 대표적인 분할적 군집화 알고리즘
  • 사전에 군집 수(K)를 지정
  • 각 군집은 하나의 중심점이 존재
  • 초기 중심점의 영향을 받는다

 

K-평균 군집화 절차

  1. 구하고자 하는 군집의 수(K)를 설정
  2. K개의 중심점 임의 지정
  3. 각 데이터로부터 중심점까지 거리 계산해 데이터들을 가장 가까운 중심점이 속한 군집으로 할당
  4. 중심점을 해당 군집에 할당된 데이터들의 평균위치로 갱신
  5. 중심점이 변경되지 않을 때까지 2, 3 과정을 반복

 

군집화 결과 평가

  • 실루엣 계수(Silhouette coefficient)로 평가
  • a(i) : 클러스터 내의 응집이 덜된 정도
  • b(i) : 클러스터 간의 분리도
  • -1에 가까울수록 나쁜 결과이고 1에 가까울수록 좋은 결과
    • 가장 이상적일 때(클러스터가 한 점) : a(i) = 0, 실루엣지표 = 1
    • 최악의 경우(인근 클러스터와 한 점) : b(i) = 0, 실루엣지표 = -1

 

실루엣 계수 식
실루엣 계수 식

 

군집의 개수(K)의 설정

  • 평가 지표를 이용하여 최적의 군집 수 선택
  • Elbow point
    • X축 : 클러스터 개수
    • Y축 : 클러스터 내 SSE

 

군집 개수(K)에 따른 SSE

  • K가 증가할수록 SSE 감소
  • K가 데이터 개수와 같아지면 SSE는 최소(0)
  • 무조건 SSE값이 작다고 좋은게 아닌 큰 폭으로 감소할 때가 좋음

 

장단점

  • 장점
    • 알고리즘이 단순하고 빠름
  • 단점
    • 클러스터 개수(K)의 따라 결과가 크게 달라짐
    • 아웃라이어에 취약

 

연관분석 (Association Analysis)

 

아이템과 아이템 간의 상호 관계나 종속 관계를 찾아내는 분석 방법

 

연관규칙을 찾기 위한 지표

  • 신뢰도(Confidence)
    • X → Y의 신뢰도란 X를 포함하는 거래 내역 중 Y가 포함된 비율
    • 방향이 중요 → 의미가 다르기 때문
    • X 물품 구매 고객이 Y물품 구매 확률
  • 지지도(Support)
    • 전체 구매 건 중 차지하는 비율
    • 빈도가 높은 조합을 찾기 위함(빈도 낮음 의미가 없기에)
    • 전체 대비 X와 Y가 함께 구매된 비율
  • 향상도(Lift)
    • 그냥 Y를 구매할 때 대비, X를 구매하고 Y를 구매할 확률 증가 비율
    • 일반적으로 향상도가 1이상일 때 의미
      • 향상도 = 1 : X와 Y는 독립
      • 향상도 < 1 : X를 구매하면 Y를 구매하지 않을 확률이 구매할 확률보다 큼
      • 향상도 > 1 : 임의로 Y를 구매할 확률보다 X를 구매할 때 Y를 구매할 확률이 큼
  • 사용 방법
    • 향상도는 의미있 조합을 골라내기 위해
    • 지지도는 빈도가 낮은 상품을 버리기 위해
    • 지지도 기준으로 필터링 후 신뢰도와 향상도로 선별
반응형
profile

Daino's Archiving

@Daino

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!