군집화
[목차]
- 군집화란?
- 군집화의 주요 개념
- K-Means란?
[주요내용]
1. 군집화(Clustering)란?
- 비지도 학습의 대표적인 기법 중 하나로, 유사성한 특성을 가진 데이터들을 그룹으로 묶는 작업
- 데이터의 label(정답)이 없는 상태에서 데이터 간의 유사성이나 거리를 기준으로 그룹(클러스터)을 형성
2. 군집화의 주요 개념
- 클러스터(Cluster)
- 유사한 데이터를 묶은 그룹 같은 클러스터에 속한 데이터는 서로 비슷하고, 다른 클러스터에 속한 데이터는 서로 다름
- 유사성(Similarity)
- 데이터를 클러스터로 묶는 기준, 일반적으로 거리(예: 유클리드, 맨헤튼 거리)를 사용하거나, 데이터 간의 상관관계를 측정
- 목표 : 같은 클러스터 내부의 데이터는 최대한 유사하게 다른 클러스터 간의 데이터는 최대한 다르게 함
3. K-Means란?
- 비지도 학습의 대표적인 군집화 알고리즘으로. 데이터를 K개의 클러스터로 나누는 기법이며, 각 데이터 포인트는 가장 가까운
클러스터 중심에 할당되며, 중심을 반복적으로 업데이트하여 최적의 클러스터 형성
- K-Means Clustering
- 작동 원리
- 초기 클러스터 중심(K개의 중심)을 임의로 설정
- 각 데이터를 가장 가까운 중심에 할당하여 클러스터 형성
- 클러스터 내 데이터의 평균을 계산해 새로운 중심으로 업데이트
- 중심이 더 이상 변하지 않을 때까지 반복
- 작동 원리
- 장점 : 대규모 데이터에 적합하며, 이해와 구현이 쉬움
- 단점 : 클러스터 개수(K)를 미리 지정하며, 초기 중심값에 따라 결과가 달라 질 수 있음. 비구형 데이터에 적합하지 않음
- 활용 사례 : 고객 세분화, 이미지 압축, 이상 탐지 등
2. K-Means 평가 방법
2-1) 엘보우 기법 (Elbow method) : WCSS(클러스터 내 거리 제곱 합) 감소율이 꺾이는 지점 선택
2-2) 실루엣(Silhouette Score) 지표
- 클러스터 내부 응집력과 외부 분리도를 평가하여 최적의 k 선택
- 실루엣 점수 범위: −1 에서+1
- 1: 데이터 포인트가 완벽하게 적절한 클러스터에 속함
- 0: 클러스터 경계에 위치
- -1: 잘못된 클러스터에 할당됨
- 클러스터 개수 K를 선택할 떄, 실루엣 점수를 참고
- 실루엣 점수가 높을수록 클러스터링 품질이 좋음을 나타냄
3. K-Means의 장점과 단점
- 장점
- 빠르고 효율적 O(n)
- 해석이 쉬움 & 다양한 데이터에 적용 가능
- 단점
- 초기 중심 선택에 따라 성능 변화 (해결책 : K-Means++)
- 이상치(outlier)에 민감
- k 값을 미리 정해야 함
4. K-Means 적용 시 팁
- 초기화 방법 개선:
- K-평균++(K-Means++)를 사용하면 초기 중심값을 더 효율적으로 설정 가능.
- 클러스터 개수 선택:
- 엘보우 방법이나 실루엣 계수를 사용해 적절한 KK를 선택.
- 정규화:
- 데이터의 스케일이 다를 경우, 정규화를 통해 거리를 균일하게 조정.
- 이상치 처리:
- 이상치 제거 또는 DBSCAN 같은 밀도 기반 알고리즘과 결합.
5. 정리
K-Means를 간단하면서도 강력한 군집화 알고리즘이지만, 데이터 특성과 목적에 맞는 적절한 설정과 평가가 필요합니다.
이를 통해 최적의 군집화 결과를 얻을 수 있겠죠?
그럼 고차원일때는 어떻게 해야될까요?
다음편에서 PCA를 알아보겠습니다.
'ML' 카테고리의 다른 글
[TIL 62일차] 머신러닝 프로젝트 - 노래 추천 시스템 개발(Spotify 활용) (1) | 2025.02.11 |
---|---|
[TIL 56일차] 머신러닝 - Scaler (0) | 2025.01.31 |
[TIL 55일차] 머신러닝 - 지도학습 (0) | 2025.01.30 |
[TIL 54일차] 머신러닝 - 비지도학습 : PCA(주성분 분석) (0) | 2025.01.30 |
[TIL 52일차] 머신러닝 - 비지도 학습 (0) | 2025.01.28 |