품질관리(QAQC) 데이터 부트캠프(본캠프)

본캠프_8주차(목)_TIL(2차 프로젝트 시작)

Wat_zy 2025. 11. 6. 08:55

✅ 오늘 한 것

심화 프로젝트, 머신러닝 특강


✏️ 오늘 배운 점

머신러닝 특강

K-means 군집화: 가장 널리 사용되는 군집화 알고리즘

# 필요한 라이브러리 import
from sklearn.cluster import KMeans
from sklearn.datasets import load_iris
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

kmeans = KMeans(
    n_clusters=3,        # 생성할 클러스터의 개수 지정
    random_state=42,     # 주로 42 설정
    n_init=10,          # Run 10 times with different initializations
    max_iter=300,       # 수렴하지 않을 때 강제 종료할 반복 횟수
)

# fit_predict: 학습과 예측을 한 번에 수행
cluster_labels = kmeans.fit_predict(X)

 

DBSCAN(Density-Based Spatial Clustering of Applications with Noise): 밀도 기반 클러스터링 알고리즘, 데이터 포인트가 밀집된 영역을 클러스터로 정의

특성 K-means DBSCAN
클러스터 개수 사전 지정 필요 자동 결정
클러스터 형태 구형만 가능 임의 형태
노이즈 처리 불가능 탁월함
계산 복잡도 O(n) O(n log n)
하이퍼파라미터 k값 eps, min_samples

📌추가로 해야할 점

졸업시험, 심화 프로젝트