✅ 오늘 한 것
최종 프로젝트
✏️ 오늘 배운 점
이해하기 위한 성능 지표
- Recall
- 실제 정답 중 얼마나 정답을 잘 찾을 수 있는가?
- 탐색 과정에서 중요하기에 BLMPred를 활용하여 새로운 염기 서열이 제공될 때 Epitope 후보를 잘 찾는가에 중요
- Precision
- 모델이 제공해준 예측 중에서 실제 정답은 얼마나 있는가?
- Precision 점수가 높은 모델을 활용해서 제공된 예측 중 실제로 그 예측이 적절한가를 찾음
- ROC-AUC
- 정답과 오답을 얼마나 잘 갈라놓는가? (전체적인 구분 능력)
- 1.0에 가까울수록 완벽하며, 0.5는 무작위 추측과 같다.
- AURPC
- 진짜 Epitope를 찾는 실력이 어떠한가? (소수 클래스 적중 능력)
- 소수 클래스를 얼마나 정확하게 찾아내는지에 집중
- 불균형 데이터에서 이 점수가 높을수록 모델이 정교하다는 증거에 활용
- MCC
- 모든 오답의 경우의 수를 고려했는가?
- 0.4 이상이면 준수, 0.6 이상이면 매우 훌륭한 모델 (+1:완벽, 0:무작위, -1:완전 반대)
불균형 데이터 정복: 에피토프 예측을 위한 5대 하이브리드 앙상블 전략
1. 프로젝트 배경 및 목표
- 목표: 항원-에피토프 결합 예측 모델 고도화.
- 역할: BLMPred가 1차로 탐색한 후보군 중, 실제 실험 성공 확률이 높은 것만 걸러내는 '2단계 검증 필터(Two-stage Verification Filter)' 구축.
- 핵심 과제: 1:14 수준의 심각한 데이터 불균형(Imbalance) 해결 및 Precision(정밀도) 방어.
2. 데이터 구성 및 전처리
- 서열 데이터: Antigen(1024차원) + Epitope(1024차원) 임베딩 벡터 결합.
- 환경 변수(Context): 실험 조건에 따른 편향을 모델에 반영하기 위해 4가지 범주형 변수 사용.
- assay, method_group, disease_group, state_group
- 전처리 전략:
- 서열 데이터: 16-mer Slicing 및 Center-Padding 적용.
- 환경 변수: One-Hot Encoding (OHE) 적용 (handle_unknown='ignore'로 미관측 범주 대응).
3. 핵심 전략: 하이브리드 불균형 처리 (Hybrid Imbalanced Handling)
모델의 특성에 따라 불균형 처리 방식을 이원화하여 앙상블의 다양성 확보.
A. MLP (신경망) → SMOTE (데이터 증강)
- 이유: MLPClassifier는 class_weight 파라미터가 없음.
- 설정: sampling_strategy=0.3
- 전략: 양성 데이터를 1:1로 무작정 늘리지 않고, 음성의 30% 수준까지만 증강. 과도한 가짜 데이터 생성으로 인한 Precision 하락 방지.
B. 트리/선형 모델 (RF, XGB, LR 등) → Class Weight (가중치)
- 이유: 손실 함수 가중치 조절이 연산 효율적이고 과적합 위험이 적음.
- 설정: Moderate Weighting (중도 전략)
- 실제 불균형 비율(약 1:15.8)을 그대로 쓰지 않고 **절반 수준(약 1:7.9)**만 적용.
- 목표: Recall을 챙기되, 모델이 무조건 "양성"이라고 우기지 않도록 오탐(False Positive) 억제.
4. 모델 아키텍처
- 구조: VotingClassifier (Soft Voting)
- 구성: 5가지 파트너 모델 + MLP의 앙상블.
- RF + MLP: (Bagging + SMOTE) - 과적합 방지
- LR + MLP: (Linear + SMOTE) - 설명력 및 높은 정밀도
- LGBM + MLP: (Boosting + SMOTE) - 속도 및 효율
- XGB + MLP: (Boosting + SMOTE) - 정교함
- Cat + MLP: (Boosting + SMOTE) - 범주형 데이터 특화
5. 주요 평가 지표 (Metrics)
단순 정확도(Accuracy)는 무의미하므로 다음 지표에 집중.
- MCC (Matthews Correlation Coefficient): 불균형 데이터에서 가장 신뢰할 수 있는 종합 지표.
- AUPRC (Area Under Precision-Recall Curve): Precision과 Recall의 균형 확인.
- Prec(0.8): 임계값을 0.8로 높였을 때의 정밀도. (실제 필터링 성능 대변)
6. 향후 계획 (Next Steps)
- 임계값 최적화: 0.8~0.9 구간에서 Precision이 극대화되는 지점 찾기.
- 해석력 강화: 6대 그룹(Antigen, Epitope, Assay, Method, Disease, State)별 Feature Importance 분석을 통해 모델의 판단 근거 검증.
📌추가로 해야 할 점
최종 프로젝트
'품질관리(QAQC) 데이터 부트캠프(본캠프)' 카테고리의 다른 글
| 본캠프_18주차(월)_TIL(최종 프로젝트) (0) | 2026.01.12 |
|---|---|
| 본캠프_17주차(금)_TIL(최종 프로젝트) (0) | 2026.01.09 |
| 본캠프_17주차(수)_TIL(최종 프로젝트) (0) | 2026.01.07 |
| 본캠프_17주차(화)_TIL(최종 프로젝트) (1) | 2026.01.06 |
| 본캠프_17주차(월)_TIL(최종 프로젝트) (0) | 2026.01.05 |