[TIL 53일차] 머신러닝 - 비지도학습 : 군집화

_한량 2025. 1. 28. 20:09

군집화

[목차]

[주요내용]

 1. 군집화(Clustering)란?

2. 군집화의 주요 개념

클러스터(Cluster)
- 유사한 데이터를 묶은 그룹 같은 클러스터에 속한 데이터는 서로 비슷하고, 다른 클러스터에 속한 데이터는 서로 다름
유사성(Similarity)
- 데이터를 클러스터로 묶는 기준, 일반적으로 거리(예: 유클리드, 맨헤튼 거리)를 사용하거나, 데이터 간의 상관관계를 측정
목표 : 같은 클러스터 내부의 데이터는 최대한 유사하게 다른 클러스터 간의 데이터는 최대한 다르게 함

3. K-Means란?

비지도 학습의 대표적인 군집화 알고리즘으로. 데이터를 K개의 클러스터로 나누는 기법이며, 각 데이터 포인트는 가장 가까운
클러스터 중심에 할당되며, 중심을 반복적으로 업데이트하여 최적의 클러스터 형성

2. K-Means 평가 방법

2-1) 엘보우 기법 (Elbow method) : WCSS(클러스터 내 거리 제곱 합) 감소율이 꺾이는 지점 선택

2-2) 실루엣(Silhouette Score) 지표

클러스터 내부 응집력과 외부 분리도를 평가하여 최적의 k 선택
실루엣 점수 범위: −1 에서+1
- 1: 데이터 포인트가 완벽하게 적절한 클러스터에 속함
- 0: 클러스터 경계에 위치
- -1: 잘못된 클러스터에 할당됨
클러스터 개수 K를 선택할 떄, 실루엣 점수를 참고
실루엣 점수가 높을수록 클러스터링 품질이 좋음을 나타냄

3. K-Means의 장점과 단점

4. K-Means 적용 시 팁

5. 정리

K-Means를 간단하면서도 강력한 군집화 알고리즘이지만, 데이터 특성과 목적에 맞는 적절한 설정과 평가가 필요합니다.
이를 통해 최적의 군집화 결과를 얻을 수 있겠죠?

그럼 고차원일때는 어떻게 해야될까요?
다음편에서 PCA를 알아보겠습니다.

[TIL 62일차] 머신러닝 프로젝트 - 노래 추천 시스템 개발(Spotify 활용) (1)	2025.02.11
[TIL 56일차] 머신러닝 - Scaler (0)	2025.01.31
[TIL 55일차] 머신러닝 - 지도학습 (0)	2025.01.30
[TIL 54일차] 머신러닝 - 비지도학습 : PCA(주성분 분석) (0)	2025.01.30
[TIL 52일차] 머신러닝 - 비지도 학습 (0)	2025.01.28

나부터 찍먹

흠...🤔

나부터 찍먹