품질관리(QAQC) 데이터 부트캠프(본캠프)

본캠프_17주차(목)_TIL(최종 프로젝트)

Wat_zy 2026. 1. 8. 08:35

✅ 오늘 한 것

최종 프로젝트


✏️ 오늘 배운 점

이해하기 위한 성능 지표

  • Recall
    • 실제 정답 중 얼마나 정답을 잘 찾을 수 있는가?
    • 탐색 과정에서 중요하기에 BLMPred를 활용하여 새로운 염기 서열이 제공될 때 Epitope 후보를 잘 찾는가에 중요
  • Precision
    • 모델이 제공해준 예측 중에서 실제 정답은 얼마나 있는가?
    • Precision 점수가 높은 모델을 활용해서 제공된 예측 중 실제로 그 예측이 적절한가를 찾음
  • ROC-AUC
    • 정답과 오답을 얼마나 잘 갈라놓는가? (전체적인 구분 능력)
    • 1.0에 가까울수록 완벽하며, 0.5는 무작위 추측과 같다.
  • AURPC
    • 진짜 Epitope를 찾는 실력이 어떠한가? (소수 클래스 적중 능력)
    • 소수 클래스를 얼마나 정확하게 찾아내는지에 집중
    • 불균형 데이터에서 이 점수가 높을수록 모델이 정교하다는 증거에 활용
  • MCC
    • 모든 오답의 경우의 수를 고려했는가?
    • 0.4 이상이면 준수, 0.6 이상이면 매우 훌륭한 모델 (+1:완벽, 0:무작위, -1:완전 반대)

불균형 데이터 정복: 에피토프 예측을 위한 5대 하이브리드 앙상블 전략

1. 프로젝트 배경 및 목표

  • 목표: 항원-에피토프 결합 예측 모델 고도화.
  • 역할: BLMPred가 1차로 탐색한 후보군 중, 실제 실험 성공 확률이 높은 것만 걸러내는 '2단계 검증 필터(Two-stage Verification Filter)' 구축.
  • 핵심 과제: 1:14 수준의 심각한 데이터 불균형(Imbalance) 해결 및 Precision(정밀도) 방어.

2. 데이터 구성 및 전처리

  • 서열 데이터: Antigen(1024차원) + Epitope(1024차원) 임베딩 벡터 결합.
  • 환경 변수(Context): 실험 조건에 따른 편향을 모델에 반영하기 위해 4가지 범주형 변수 사용.
    • assay, method_group, disease_group, state_group
  • 전처리 전략:
    • 서열 데이터: 16-mer Slicing 및 Center-Padding 적용.
    • 환경 변수: One-Hot Encoding (OHE) 적용 (handle_unknown='ignore'로 미관측 범주 대응).

3. 핵심 전략: 하이브리드 불균형 처리 (Hybrid Imbalanced Handling)

모델의 특성에 따라 불균형 처리 방식을 이원화하여 앙상블의 다양성 확보.

A. MLP (신경망) → SMOTE (데이터 증강)

  • 이유: MLPClassifier는 class_weight 파라미터가 없음.
  • 설정: sampling_strategy=0.3
  • 전략: 양성 데이터를 1:1로 무작정 늘리지 않고, 음성의 30% 수준까지만 증강. 과도한 가짜 데이터 생성으로 인한 Precision 하락 방지.

B. 트리/선형 모델 (RF, XGB, LR 등) → Class Weight (가중치)

  • 이유: 손실 함수 가중치 조절이 연산 효율적이고 과적합 위험이 적음.
  • 설정: Moderate Weighting (중도 전략)
    • 실제 불균형 비율(약 1:15.8)을 그대로 쓰지 않고 **절반 수준(약 1:7.9)**만 적용.
    • 목표: Recall을 챙기되, 모델이 무조건 "양성"이라고 우기지 않도록 오탐(False Positive) 억제.

4. 모델 아키텍처

  • 구조: VotingClassifier (Soft Voting)
  • 구성: 5가지 파트너 모델 + MLP의 앙상블.
    1. RF + MLP: (Bagging + SMOTE) - 과적합 방지
    2. LR + MLP: (Linear + SMOTE) - 설명력 및 높은 정밀도
    3. LGBM + MLP: (Boosting + SMOTE) - 속도 및 효율
    4. XGB + MLP: (Boosting + SMOTE) - 정교함
    5. Cat + MLP: (Boosting + SMOTE) - 범주형 데이터 특화

5. 주요 평가 지표 (Metrics)

단순 정확도(Accuracy)는 무의미하므로 다음 지표에 집중.

  • MCC (Matthews Correlation Coefficient): 불균형 데이터에서 가장 신뢰할 수 있는 종합 지표.
  • AUPRC (Area Under Precision-Recall Curve): Precision과 Recall의 균형 확인.
  • Prec(0.8): 임계값을 0.8로 높였을 때의 정밀도. (실제 필터링 성능 대변)

6. 향후 계획 (Next Steps)

  • 임계값 최적화: 0.8~0.9 구간에서 Precision이 극대화되는 지점 찾기.
  • 해석력 강화: 6대 그룹(Antigen, Epitope, Assay, Method, Disease, State)별 Feature Importance 분석을 통해 모델의 판단 근거 검증.

📌추가로 해야 할 점

최종 프로젝트