✅ 오늘 한 것
Streamlit 라이브세션, Tableau 과제 해설, 머신러닝 복습
✏️ 오늘 배운 점
머신러닝
2025.11.28 - [머신러닝] - 지도학습 & 비지도학습
지도학습 & 비지도학습
지도학습정답이 있는 데이터로 학습하는 방식입력(X)과 정답(y, label)이 함께 주어진 상태에서 X가 들어오면 y를 잘 맞추도록 모델을 학습시키는 방식X: 특징y: 예측하고자 하는 값 1) 지도학습의
watzy.tistory.com
지도학습은 정답(y)이 있는 예측 문제,
비지도학습은 정답 없이 구조를 찾는 문제,
강화학습은 보상을 최대화하는 행동 학습 문제이다.
2025.12.01 - [머신러닝] - 인코딩(Encoding)
인코딩(Encoding)
인코딩: 범주형 데이터를 숫자로 변환하는 과정 왜 필요할까?머신러닝 모델은 숫자만 입력받을 수 있음문자열 그대로 넣으면 모델이 학습하지 못함One-Hot Encoding순서가 없는 범주형 변수(Nominal)
watzy.tistory.com
인코딩은 범주형 데이터를 숫자로 변환하는 과정이며,
One-hot은 순서 없는 범주, Label은 순서 있는 범주,
Target/Frequency/Binary는 범주가 많을 때 사용한다.
모델 특성에 따라 사용할 인코딩을 선택해야 한다.
2025.12.01 - [머신러닝] - 스케일링(Scaling)
스케일링(Scaling)
스케일링:수치형 데이터의 단위·크기·범위를 일정하게 맞추는 전처리 과정머신러닝은 스케일이 다른 변수들이 섞여 있으면 모델이 특정 변수에 과도하게 영향을 받는 문제가 발생한다. ⚠ 스
watzy.tistory.com
스케일링은 수치형 변수의 단위와 범위를 맞춰 모델의 성능과 안정성을 높이는 전처리 과정이며, KNN·SVM·선형/로지스틱 회귀·딥러닝·PCA 같은 스케일 민감 모델에서는 필수이고, RandomForest·XGBoost 같은 트리 기반 모델에서는 필요하지 않다. StandardScaler는 정규분포형 데이터에, MinMaxScaler는 범위 통일이나 딥러닝에, RobustScaler는 이상치가 많은 경우에 적합하며, 스케일링은 반드시 Train/Test split 이후에 수행해야 데이터 누수를 방지할 수 있다.
Streamlit
Streamlit을 왜 사용하는가?
대시보드 내에 무한한 기능 삽입이 가능하기에 활용도가 높다.
✏️ 오늘의 질문
1. 그러면 KNN, SVM, 선형 회귀/로지스틱 회귀, 신경망(딥러닝), PCA 등을 사용하기 전에 train/test split 이후 스케일링을 진행해야 하는거야?
split 이전에 scaling을 하면 데이터 누수가 발생할 수 있다.
이 때문에 scaler.fit()은 항상 Train 데이터를 기준으로만 해야 한다, Test에는 transform()만 적용해야 한다.
📌추가로 해야 할 점
실전 프로젝트
'품질관리(QAQC) 데이터 부트캠프(본캠프)' 카테고리의 다른 글
| 본캠프_12주차(수)_TIL(실전 프로젝트) (0) | 2025.12.03 |
|---|---|
| 본캠프_12주차(화)_TIL(실전 프로젝트) (0) | 2025.12.02 |
| 본캠프_11주차(금)_TIL(시계열) (0) | 2025.11.28 |
| 본캠프_11주차(목)_TIL(시계열, 심화 프로젝트[바이오]) (0) | 2025.11.27 |
| 본캠프_11주차(수)_TIL(Tableau, 시계열) (0) | 2025.11.26 |