ML

[TIL 52일차] 머신러닝 - 비지도 학습

_한량 2025. 1. 28. 19:16
비지도학습

 

[목차]

  1. 비지도학습이란?
  2. 비지도학습의 주요 활용 사례

[주요내용]

 1. 비지도 학습(Unsupervised Learning) :

  • 정답(label)이 없는 데이터를 학습하여 데이터의 구조나 패턴을 찾아내는 머신러닝 기법
  • 입력 데이터만 주어지며, 모델은 이를 분석해 숨겨진 구조, 군집, 분포 등 새로운 규칙성을 알아내는 과정
  • 이 학습은 지도학습 또는 강화학습과 달리 입력값에 대한 목표치인 label (y)이 없음.
즉, 정답 맞히는데 목적이 아님!!!

위) 지도학습, 아래) 비지도학습

 

  • 주요 특징
    1. 정답(label) 없음 : 정답이 없는 데이터로 특성과 관계를 스스로 탐색하고 이해함.
    2. 목표 : 데이터의 숨겨진 패턴이나 관계를 발견하거나, 데이터를 요약 및 축소함.
  • 주요 목적
    1. 데이터의 구조 이해 : 데이터의 숨겨진 패턴이나 관계를 찾아내는 것
    2. 데이터 요약 : 고차원 데이터를 저차원으로 축소하거나, 중요한 특징을 추출
    3. 새로운 지식 발견 : 데이터의 특성을 분석하여 새로운 정보나 통찰을 얻음
  • 주요 유형
    1. 군집화(Clustering)
      • 데이터를 유사한 특성을 가진 그룹으로 나누는 작업
        • 예) 고객 데이터를 분석하여 비슷한 구매 패턴을 가진 그룹으로 분류
        •  
      • 주요 알고리즘
        1. K-Means : 데이터를 미리 정한 개수의 군집으로 나누는 알고리즘
        2. 계층적 군집화(Hierarchical Clustering) : 데이터의 계층적 구조를 탐색하며 군집화
        3. DBSCAN : 밀도 기반 군집화 알고리즘으로, 이상치 처리에 강점
    2. 차원 축소(Dimensionality Reduction)
      • 고차원 데이터를 저차원으로 압축하여 데이터의 핵심 정보만 남기는 작업
        • 예) 100개의 변수로 이루어진 데이터를 2차원으로 축소해 시각화
      • 주요 알고리즘 
        1. PCA : 데이터의 분산을 최대화하는 축을 찾아 차원을 축소
        2. t-SNE : 고차원 데이터를 2D 또는 3D로 변환하여 시각화
        3. UMAP : t-SNE보다 빠르고 보존율이 높은 차원 축소 기법
    3. 연관 규칙 학습(Association Rule Learning)
      • 데이터 항목 간의 연관성을 찾는 작업.
        • 예: "우유를 구매한 고객은 빵을 구매할 확률이 높다"와 같은 관계 발견.
      • 주요 알고리즘:
        1. Apriori: 데이터에서 빈번한 항목 집합을 탐색해 규칙을 도출.
        2. FP-Growth: Apriori보다 효율적인 빈번 항목 집합 탐색 알고리즘.
    4. 이상 탐지(Anomaly Detection)
      • 데이터에서 일반적인 패턴에서 벗어난 이상치(Outlier)를 탐지.
        • 예: 네트워크 트래픽 데이터에서 해킹 시도를 탐지.

  2. 비지도 학습의 주요 활용 사례

 

  • 마케팅:
    • 고객 세분화: 고객을 비슷한 구매 행동이나 특성을 가진 그룹으로 나눔.
    • 추천 시스템: 유사한 사용자 그룹을 기반으로 추천 콘텐츠 제공.
  • 의료:
    • 질병 분류: 환자 데이터를 분석해 유사한 증상을 가진 그룹으로 나눔.
    • 유전자 데이터 분석: 유사한 유전자 패턴을 가진 그룹을 식별.
  • 이미지 처리:
    • 이미지 분류: 유사한 이미지 특징을 학습하여 자동 분류.
    • 이미지 생성: GAN(Generative Adversarial Networks)을 사용해 새로운 이미지 생성.
  • 이상 탐지:
    • 금융 사기 탐지: 비정상적인 거래 패턴을 탐지.
    • 네트워크 보안: 비정상적인 네트워크 트래픽 탐지.
  • 자연어 처리(NLP):
    • 문서 군집화: 유사한 주제를 가진 문서 그룹화.
    • 단어 임베딩: 단어 간의 관계를 벡터로 표현해 유사 단어를 찾음.
비지도 학습은 데이터의 구조를 이해하거나 새로운 패턴을 발견하는 데 중요한 도구로,
다양한 분야에서 활용이 되고 있습니다.하지만 정답(label)이 없는 데이터의 특성상 결과를 해석하고 평가하는 데에는 신중함이 필요하다고 생각합니다.