ML 7

[TIL 63일차] 머신러닝 프로젝트 - 모델링 (Spotify 활용)

모델링(Spotify 활용) [목차]최종 파라미터 확인다중공선성 -> 산점도 확인데이터 스케일k 값 찾기각 클러스터별 핵심변수로 시각화추가 분석[주요내용] 1.최종 파라미터 확인먼저 모델링에 사용할 특성을 확인valence(노래의 긍정적인 감정 수준)acousticness (음악의 어쿠스틱 성격)danceability (춤추기 적합한 정도)energy (에너지 수준)loudness (곡의 음량)tempo (곡의 템포)use_features = ['valence', 'acousticness', 'danceability', 'energy', 'loudness', 'tempo'] 상관계수가 높은  loudness - energy 변수 쌍 존재 >> 다중공선성 의심use_features = ['valence',..

ML 2025.02.11

[TIL 62일차] 머신러닝 프로젝트 - 노래 추천 시스템 개발(Spotify 활용)

노래 추천 시스템 개발(Spotify 활용) [목차]프로젝트명프로젝트 목표프로젝트 핵심 내용데이터 준비데이터 EDA 및 전처리[주요내용] 1.프로젝트명영어 노래 취향 기반 최신 K-pop 추천 시스템 개발https://www.kaggle.com/datasets/yamaerenay/spotify-dataset-19212020-600k-tracks Spotify Dataset 1921-2020, 600k+ TracksAudio features of 600k+ tracks, popularity metrics of 1M+ artistswww.kaggle.com  2. 프로젝트 목표Kaggle에서 Spotify Dataset 데이터로 노래 추천 시스템을 개발로 프로젝트를 진행하려고 한다영어권 노래 데이터와 Spo..

ML 2025.02.11

[TIL 56일차] 머신러닝 - Scaler

지도학습 [목차]Scaler 란?Scaler가 필요한 이유 (왜 스케일 조정을 해야 할까요?)지도학습에서 사용되는 Scaler 종류비지도학습에서 사용되는 Scaler 종류Scaler 비교 요약[주요내용] 1. Scaler란?Scaler(스케일러)는 머신러닝에서 데이터의 크기를 조정(정규화 또는 표준화)하는 변환기이다.데이터의 스케일(값의 범위)이 다르면 모델의 학습 성능이 저하될 수 있기 때문에 Scaler를 사용하여 값을 조정함 2. Scaler가 필요한 이유 (왜 스케일 조정을 해야 할까요?)   2-1) 모델의 학습 성능 향상스케일이 큰 변수는 모델이 더 중요하다고 착각할 수 있음예) 키 170, 몸무게 70 -> 모델이 키를 더 중요하다고 오해할 수 있음.   2-2) 최적화 알고리즘(Gradi..

ML 2025.01.31

[TIL 55일차] 머신러닝 - 지도학습

지도학습 [목차]지도학습이란?지도학습의 주요 유형지도학습의 과정대표적인 분류 알고리즘이진(Binary) 분류와 다항(Multi-class) 분류의 차이데이터 불균형(Unbalanced Data) 처리 방법차원이 많을 경우 차원 축소(PCA)정규 분포를 가정하는 모델 모델별 주요 하이퍼파라미터 튜닝 방법모델 평가 지표와 방법베이스라인 모델 수립모델 성능 향상 팁[주요내용] 1. 지도학습(Supervised Learning)이란?정답(label)이 있는 데이터를 학습하여 새로운 입력에 대한 출력을 예측하는 학습 방법즉, 입력(input)과 정답(output)이 주어진 상태에서 입력과 출력간의 관계를 학습하는 방식 2. 지도학습의 주요 유형   2-1) 분류(Classification)출력값이 이산적(Dis..

ML 2025.01.30

[TIL 54일차] 머신러닝 - 비지도학습 : PCA(주성분 분석)

PCA(주성분 분석) [목차]PCA란?간단한 활용 예시[주요내용] 1. PCA(Principal Component Analysis)란?고차원 데이터를 저차원으로 변환하는 차원 축소(dimensionality reduction) 기법변수의 개수 = 차원의 개수ex) 4개의 독립변인들이 하나의 공간에 표현되기 위해서는 공간이 4차원이어야 함-> 차원이 증가할수록 데이터가 표현해야 하는 공간이 복잡해짐따라서, 변수가 너무 많아 기존 변수를 조합해 새로운 변수를 가지고 모델링을 하려고 할 때 주로 PCA 사용그럼?? PCA가 왜 필요한가??   1-1) PCA의 목적활용feature engineering 과정에서 차원을 줄이면서 과적합(overfitting)위험감소 & 모델 학습 속도 증가 시킬 수 있음회귀분..

ML 2025.01.30

[TIL 53일차] 머신러닝 - 비지도학습 : 군집화

군집화 [목차]군집화란?군집화의 주요 개념K-Means란?[주요내용] 1. 군집화(Clustering)란?비지도 학습의 대표적인 기법 중 하나로, 유사성한 특성을 가진 데이터들을 그룹으로 묶는 작업데이터의 label(정답)이 없는 상태에서 데이터 간의 유사성이나 거리를 기준으로 그룹(클러스터)을 형성 2. 군집화의 주요 개념클러스터(Cluster)유사한 데이터를 묶은 그룹 같은 클러스터에 속한 데이터는 서로 비슷하고, 다른 클러스터에 속한 데이터는 서로 다름유사성(Similarity)데이터를 클러스터로 묶는 기준, 일반적으로 거리(예: 유클리드, 맨헤튼 거리)를 사용하거나, 데이터 간의 상관관계를 측정목표 : 같은 클러스터 내부의 데이터는 최대한 유사하게 다른 클러스터 간의 데이터는 최대한 다르게 함 ..

ML 2025.01.28

[TIL 52일차] 머신러닝 - 비지도 학습

비지도학습 [목차]비지도학습이란?비지도학습의 주요 활용 사례[주요내용] 1. 비지도 학습(Unsupervised Learning) : 정답(label)이 없는 데이터를 학습하여 데이터의 구조나 패턴을 찾아내는 머신러닝 기법입력 데이터만 주어지며, 모델은 이를 분석해 숨겨진 구조, 군집, 분포 등 새로운 규칙성을 알아내는 과정이 학습은 지도학습 또는 강화학습과 달리 입력값에 대한 목표치인 label (y)이 없음.즉, 정답 맞히는데 목적이 아님!!! 주요 특징정답(label) 없음 : 정답이 없는 데이터로 특성과 관계를 스스로 탐색하고 이해함.목표 : 데이터의 숨겨진 패턴이나 관계를 발견하거나, 데이터를 요약 및 축소함.주요 목적데이터의 구조 이해 : 데이터의 숨겨진 패턴이나 관계를 찾아내는 것데이터 요..

ML 2025.01.28