ML

[TIL 53일차] 머신러닝 - 비지도학습 : 군집화

_한량 2025. 1. 28. 20:09
군집화

 

[목차]

  1. 군집화란?
  2. 군집화의 주요 개념
  3. K-Means란?

[주요내용]

 1. 군집화(Clustering)란?

  • 비지도 학습의 대표적인 기법 중 하나로, 유사성한 특성을 가진 데이터들을 그룹으로 묶는 작업
  • 데이터의 label(정답)이 없는 상태에서 데이터 간의 유사성이나 거리를 기준으로 그룹(클러스터)을 형성

 2. 군집화의 주요 개념

  1. 클러스터(Cluster)
    • 유사한 데이터를 묶은 그룹 같은 클러스터에 속한 데이터는 서로 비슷하고, 다른 클러스터에 속한 데이터는 서로 다름
  2. 유사성(Similarity)
    • 데이터를 클러스터로 묶는 기준, 일반적으로 거리(예: 유클리드, 맨헤튼 거리)를 사용하거나, 데이터 간의 상관관계를 측정
  3. 목표 : 같은 클러스터 내부의 데이터는 최대한 유사하게 다른 클러스터 간의 데이터는 최대한 다르게 함

 3. K-Means란?

  • 비지도 학습의 대표적인 군집화 알고리즘으로. 데이터를 K개의 클러스터로 나누는 기법이며, 각 데이터 포인트는 가장 가까운 
    클러스터 중심에 할당되며, 중심을 반복적으로 업데이트하여 최적의 클러스터 형성

[출처] https://www.ejable.com/tech-corner/ai-machine-learning-and-deep-learning/k-means-clustering/

  1. K-Means Clustering
    • 작동 원리
      1. 초기 클러스터 중심(K개의 중심)을 임의로 설정
      2. 각 데이터를 가장 가까운 중심에 할당하여 클러스터 형성
      3. 클러스터 내 데이터의 평균을 계산해 새로운 중심으로 업데이트
      4. 중심이 더 이상 변하지 않을 때까지 반복

  • 장점 : 대규모 데이터에 적합하며, 이해와 구현이 쉬움
  • 단점 : 클러스터 개수(K)를 미리 지정하며, 초기 중심값에 따라 결과가 달라 질 수 있음. 비구형 데이터에 적합하지 않음
  • 활용 사례 : 고객 세분화, 이미지 압축, 이상 탐지 등

 

  2. K-Means 평가 방법

    2-1) 엘보우 기법 (Elbow method) : WCSS(클러스터 내 거리 제곱 합) 감소율이 꺾이는 지점 선택

   2-2) 실루엣(Silhouette Score) 지표

  • 클러스터 내부 응집력과 외부 분리도를 평가하여 최적의 k 선택
  • 실루엣 점수 범위: −1 에서+1
    • 1: 데이터 포인트가 완벽하게 적절한 클러스터에 속함
    • 0: 클러스터 경계에 위치
    • -1: 잘못된 클러스터에 할당됨
  • 클러스터 개수 K를 선택할 떄, 실루엣 점수를 참고
  • 실루엣 점수가 높을수록 클러스터링 품질이 좋음을 나타냄

  3. K-Means의 장점과 단점

  • 장점 
    • 빠르고 효율적 O(n)
    • 해석이 쉬움 & 다양한 데이터에 적용 가능
  • 단점
    • 초기 중심 선택에 따라 성능 변화 (해결책 : K-Means++)
    • 이상치(outlier)에 민감
    • k 값을 미리 정해야 함

  4. K-Means 적용 시 팁

  1. 초기화 방법 개선:
    • K-평균++(K-Means++)를 사용하면 초기 중심값을 더 효율적으로 설정 가능.
  2. 클러스터 개수 선택:
    • 엘보우 방법이나 실루엣 계수를 사용해 적절한 KK를 선택.
  3. 정규화:
    • 데이터의 스케일이 다를 경우, 정규화를 통해 거리를 균일하게 조정.
  4. 이상치 처리:
    • 이상치 제거 또는 DBSCAN 같은 밀도 기반 알고리즘과 결합.

  5. 정리

K-Means를 간단하면서도 강력한 군집화 알고리즘이지만, 데이터 특성과 목적에 맞는 적절한 설정과 평가가 필요합니다.
이를 통해 최적의 군집화 결과를 얻을 수 있겠죠?

그럼 고차원일때는 어떻게 해야될까요?
다음편에서 PCA를 알아보겠습니다.