지도학습 & 비지도학습

머신러닝

지도학습 & 비지도학습

Wat_zy 2025. 11. 28. 17:08

지도학습

정답이 있는 데이터로 학습하는 방식

입력(X)과 정답(y, label)이 함께 주어진 상태에서 X가 들어오면 y를 잘 맞추도록 모델을 학습시키는 방식

X: 특징

y: 예측하고자 하는 값

1) 지도학습의 흐름

문제 정의
- 예측해야 할 y가 무엇인지
- 회귀인지 분류인지 결정
데이터 수집 및 라벨 확보
- 지도학습의 본질: y(label)가 반드시 필요
전처리(Preprocessing)
- 결측치 처리
- 이상치 처리
- 범주형 인코딩
- 스케일링(Standard/MinMax)
- 데이터 분포 확인(EDA)
Train/Test 분리
- 일반적으로 70:30 또는 80:20
- 분류 문제는 stratify=y 추천
모델 학습(Fit)
- 여러 모델을 시도해보고 비교
성능 평가(Evaluation)
- 회귀 → RMSE, MAE, R²
- 분류 → Accuracy, Precision, Recall, F1, ROC-AUC
모델 개선(Hyperparameter Tuning)
- GridSearchCV, RandomizedSearchCV, Optuna 등
모델 해석(Feature Importance / Coef)
- 선형 회귀 계수
- 트리 기반 모델 Feature Importance
배포 및 모니터링(Serving)
- 실무에서는 꼭 필요

2) 지도학습의 전제 조건

라벨 양이 충분해야 한다
데이터가 너무 적으면 과적합.
Feature와 Target 간 관계가 존재해야 한다
아무 상관도 없는 데이터를 넣으면 모델은 절대 잘 맞출 수 없음.
Data Leakage 방지 필요
- 테스트 정보가 학습에 들어가면 절대 안 됨
- 미래 정보가 과거 예측에 포함되면 잘못된 모델 생성
적절한 평가 지표 선택
Accuracy만 보고 판단하면 위험 (특히 불균형 데이터)

3) 데이터 스케일링(Scaling)

스케일링이 필요한 이유

거리 기반 알고리즘(KNN, SVM)에서 필수
선형 회귀도 스케일이 다르면 회귀계수 해석이 왜곡됨
신경망에서는 학습 속도 향상

스케일링 방법

StandardScaler
MinMaxScaler
RobustScaler

4) 지도학습의 두 가지 목적

① “예측(Prediction)” 목적 모델

목표: 정확도 최대화
예시: XGBoost, RandomForest, LightGBM

② “해석(Interpretation)” 목적 모델

목표: 변수 영향력 이해
예시: Linear Regression, Logistic Regression

해석이 필요하면 선형 계열
성능이 중요하면 트리 계열(XGBoost 등)

5) 교차검증(Cross Validation, CV)

왜 필요한가?

데이터가 적어도 안정적인 성능 평가 가능
특정 Train/Test split에 과도하게 의존하지 않음

유형:

k-fold
stratified k-fold (분류에서 필수)
time-series split (시계열에서 필수)

회귀(Regression):

타깃 y가 연속적인 숫자일 때

집값 예측 (300,000원, 3억2천만 원 등)
시험 점수 예측 (0~100점)
온도 예측 (23.4°C)
매출액 예측

회귀에 사용하는 알고리즘:

선형 회귀(Linear Regression)
다항 회귀(Polynomial Regression)
랜덤 포레스트 회귀(RandomForestRegressor)
XGBoost / LightGBM Regressor
SVR (Support Vector Regression)

평가 지표: RMSE, MAE, R², MAPE

회귀의 주요 유형

선형 회귀: 데이터가 직선 형태로 분포한다고 가정하여 예측
다항 회귀: 데이터를 비선형적으로 모델링할 때 사용
릿지 회귀 / 라쏘 회귀: 다중 공선성 문제를 해결하기 위해 규제를 추가한 선형 회귀
서포트 벡터 회귀(SVR): SVM을 기반으로 연속적인 값 예측
결정 트리 회귀 / 랜덤 포레스트 회귀: 의사결정 트리를 기반으로 데이터를 나누어 예측
딥러닝 기반 회귀: 신경망을 활용하여 복잡한 관계 학습

분류(Classification):

타깃 y가 카테고리(클래스)일 때

이탈/유지 (0/1)
스팸/정상 메일
불량/정상
병 진단(양성/음성)
품종 A/B/C (다중 클래스)

이럴 때 쓰는 알고리즘:

로지스틱 회귀(Logistic Regression)
KNN
SVM (Support Vector Machine)
의사결정트리(Decision Tree)
랜덤포레스트(Random Forest)
XGBoost / LightGBM
나이브 베이즈(Naive Bayes)

평가 지표: Accuracy, Precision, Recall, F1, ROC-AUC

분류의 주요 유형

이진 분류: 데이터가 두 개의 카테고리(예: "정상" 또는 "비정상")로 분류되는 경우
다중 분류: 데이터가 세 개 이상의 카테고리로 분류되는 경우
다중 레이블 분류: 하나의 데이터가 여러 개의 카테고리를 가질 수 있는 경우

비지도학습

정답(y, label)이 없는 데이터를 분석하여 데이터 간의 관계, 그룹, 패턴 등을 찾는 알고리즘

특징:
- 정답이 없기 때문에 정확도보다는 데이터 간의 유사성과 차이를 측정하는 데 중점.
- 주로 탐색적 데이터 분석(EDA)과 데이터 전처리 단계에서 활용.

비지도 학습의 주요 유형

1. 클러스터링(Clustering)

데이터를 유사한 그룹으로 묶는 작업

대표 알고리즘:
- K-Means, DBSCAN, 계층적 클러스터링.

2. 차원 축소(Dimensionality Reduction)

데이터를 더 간결하고 중요한 특징들만 남기는 작업

대표 알고리즘:
- PCA(주성분 분석), t-SNE, UMAP.

3. 연관 규칙 학습(Association Rule Learning)

데이터 간의 상관관계를 발견하는 작업

예시:
- 장바구니 분석, 사용자 행동 분석

강화 학습

보상을 통해 상은 최대화, 벌은 최소화하는 방향으로 행위를 강화하는 학습

'머신러닝' 카테고리의 다른 글

회귀 분석 (Regression Analysis) (0)	2025.12.22
스케일링(Scaling) (0)	2025.12.01
인코딩(Encoding) (0)	2025.12.01

현재글지도학습 & 비지도학습

장우석

watzy 님의 블로그 입니다.

Today :
Yesterday :

장우석