✅ 오늘 한 것
최종 프로젝트
✏️ 오늘 배운 점
자연어: 사람들이 의사소통을 위해 자연스럽게 발전시켜 온 언어(현재 프로젝트에서는 단백질 서열 → 임베딩, 질병 및 실험 정보 → Encoding시키는 과정이 포함되어 있다.)
F1-score와 Macro-F1의 차이:
- F1-score
- 'binary':지정된 클래스에 대한 결과만 보고합니다
- 1(Positive)를 얼마나 잘 찾아내는가에 대한 점수
- Macro-F1
- 'macro':각 레이블에 대한 지표를 계산하고 가중치가 없는 평균값을 구합니다.
- 0과 1의 각각의 F1-score를 구한 후 평균으로 처리
https://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html
1차 선별한 머신러닝 모델
- MLP (Multi-Layer Perceptron)
- 가장 기본적인 형태의 딥러닝
- 데이터 사이의 복잡하고 비선형적인 관계를 학습하는 것이 강점
- XGBoost
- 여러 개의 결정 트리를 결합하여 예측 모델을 만드는 앙상블 기법
- 과적합 방지 기능이 뛰어나고, 정형 데이터 분석에서 강점
- CatBoost
- 범주형 변수 처리에 특화된 부스팅 모델
- OHE를 따로 하지 않아도 범주형 데이터를 스스로 잘 처리함
- SMOTE 사용 대신 class_weights를 사용하는 것이 훨씬 효율적임
- LightGBM
- XGBoost와 비슷하나 속도와 메모리 효율을 극대화한 모델
- 대용량 데이터셋 가속에 최적
- LDA
- 클래스 간의 차이를 최대화하는 직선을 찾아 데이터를 분류하는 고전 통계 모델
- 단순하고 빠르며, 데이터가 선형적으로 잘 분리되어 있을 때 강함
Precision & Recall
- Precision
- 정답이라고 예측한 것 중 실제로 정답인 비율
- Recall
- 실제 정답인 것 중 모델이 정답이라고 예측한 비율
1. 데이터 아키텍처 및 전처리 (Data Architecture)
- 고차원 피처 결합: ProtT5-XL 기반의 Antigen(1,024D) 및 Epitope(1,024D) 임베딩과 실험 환경 메타데이터(Assay, Method 등, ~22D)를 결합하여 총 2,070차원의 하이브리드 데이터셋 구축.
- 메모리 최적화: 2,000차원 이상의 대용량 연산을 위해 데이터 타입을 float32로 지정하여 메모리 효율성 확보.
- 데이터 누수 방지: train_test_split을 최우선으로 수행한 후, Train 셋 기준으로 인코딩(OHE) 및 증강(SMOTE)을 적용하는 엄격한 파이프라인 수립.
2. 성능 지표의 재정의: '골든 쿼텟(Golden Quartet)'
단순 Accuracy나 F1-score를 넘어, 불균형 데이터(Positive 7.1%)에 최적화된 4대 핵심 지표 도입:
- ROC-AUC: 모델의 전반적인 변별력(Ranking) 측정.
- AUPRC (Precision-Recall AUC): 소수 클래스 탐지 성능을 매우 엄격하게 평가.
- Macro-F1: 다수 클래스 편향을 방지하는 균형 지표.
- MCC (Matthews Correlation Coefficient): 혼동 행렬의 모든 요소를 고려하는 가장 신뢰도 높은 통계 지표.
3. Precision-Recall 상충 관계 (Trade-off)
- 반비례 관계: 분류 임계값(Threshold)을 낮추면 Recall(꼼꼼함)은 올라가나 Precision(신중함)은 떨어짐.
- 비즈니스 로직: 실험 비용이 중요한 경우 Precision을, 타겟 발굴이 우선인 경우 Recall을 중시하도록 임계값 튜닝이 필요함.
- F1-score: 이 두 지표의 균형을 조화 평균(Harmonic Mean)으로 나타낸 지표임.
4. 앙상블 전략 (Ensemble Strategy)
서로 다른 학습 메커니즘을 가진 모델들을 결합하여 일반화 성능 극대화:
- LGBM + XGBoost: 서로 다른 트리 성장 방식을 가진 부스팅 모델 간의 결합.
- 부스팅 + MLP (Hybrid): 규칙 기반(Tree)과 패턴 기반(Neural Network) 해석 능력을 상호 보완.
- Triple Ensemble (LGBM+XGB+MLP): 가장 견고한 예측을 수행하는 최종 아키텍처.
5. 모델 해석력 확보 (Feature Importance)
- 그룹화 분석: 2,000개가 넘는 피처를 [Antigen / Epitope / 환경변수 4종] 총 6개 그룹으로 묶어 기여도 합산.
- Permutation Importance: MLP나 앙상블 모델처럼 내장 중요도가 없는 경우, 데이터를 섞었을 때 성능 하락 폭을 측정하여 기여도를 산출하는 모델-무관(Model-agnostic) 기법 활용.
📌추가로 해야 할 점
최종 프로젝트
'품질관리(QAQC) 데이터 부트캠프(본캠프)' 카테고리의 다른 글
| 본캠프_17주차(금)_TIL(최종 프로젝트) (0) | 2026.01.09 |
|---|---|
| 본캠프_17주차(목)_TIL(최종 프로젝트) (0) | 2026.01.08 |
| 본캠프_17주차(화)_TIL(최종 프로젝트) (1) | 2026.01.06 |
| 본캠프_17주차(월)_TIL(최종 프로젝트) (0) | 2026.01.05 |
| 본캠프_16주차(금)_TIL(최종 프로젝트) (0) | 2026.01.02 |