품질관리(QAQC) 데이터 부트캠프(본캠프)

본캠프_17주차(수)_TIL(최종 프로젝트)

Wat_zy 2026. 1. 7. 08:35

✅ 오늘 한 것

최종 프로젝트


✏️ 오늘 배운 점

자연어: 사람들이 의사소통을 위해 자연스럽게 발전시켜 온 언어(현재 프로젝트에서는 단백질 서열 → 임베딩, 질병 및 실험 정보 → Encoding시키는 과정이 포함되어 있다.)

 

F1-score와 Macro-F1의 차이: 

  • F1-score
    • 'binary':지정된 클래스에 대한 결과만 보고합니다
    • 1(Positive)를 얼마나 잘 찾아내는가에 대한 점수
  • Macro-F1
    • 'macro':각 레이블에 대한 지표를 계산하고 가중치가 없는 평균값을 구합니다.
    • 0과 1의 각각의 F1-score를 구한 후 평균으로 처리

https://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html

 

 

1차 선별한 머신러닝 모델

  • MLP (Multi-Layer Perceptron)
    • 가장 기본적인 형태의 딥러닝
    • 데이터 사이의 복잡하고 비선형적인 관계를 학습하는 것이 강점
  • XGBoost
    • 여러 개의 결정 트리를 결합하여 예측 모델을 만드는 앙상블 기법
    • 과적합 방지 기능이 뛰어나고, 정형 데이터 분석에서 강점
  • CatBoost
    • 범주형 변수 처리에 특화된 부스팅 모델
    • OHE를 따로 하지 않아도 범주형 데이터를 스스로 잘 처리함
    • SMOTE 사용 대신 class_weights를 사용하는 것이 훨씬 효율적임
  • LightGBM
    • XGBoost와 비슷하나 속도와 메모리 효율을 극대화한 모델
    • 대용량 데이터셋 가속에 최적
  • LDA
    • 클래스 간의 차이를 최대화하는 직선을 찾아 데이터를 분류하는 고전 통계 모델
    • 단순하고 빠르며, 데이터가 선형적으로 잘 분리되어 있을 때 강함

Precision & Recall

  • Precision
    • 정답이라고 예측한 것 중 실제로 정답인 비율
  • Recall
    • 실제 정답인 것 중 모델이 정답이라고 예측한 비율

 

 

1. 데이터 아키텍처 및 전처리 (Data Architecture)

  • 고차원 피처 결합: ProtT5-XL 기반의 Antigen(1,024D) 및 Epitope(1,024D) 임베딩과 실험 환경 메타데이터(Assay, Method 등, ~22D)를 결합하여 총 2,070차원의 하이브리드 데이터셋 구축.
  • 메모리 최적화: 2,000차원 이상의 대용량 연산을 위해 데이터 타입을 float32로 지정하여 메모리 효율성 확보.
  • 데이터 누수 방지: train_test_split을 최우선으로 수행한 후, Train 셋 기준으로 인코딩(OHE) 및 증강(SMOTE)을 적용하는 엄격한 파이프라인 수립.

2. 성능 지표의 재정의: '골든 쿼텟(Golden Quartet)'

단순 Accuracy나 F1-score를 넘어, 불균형 데이터(Positive 7.1%)에 최적화된 4대 핵심 지표 도입:

  1. ROC-AUC: 모델의 전반적인 변별력(Ranking) 측정.
  2. AUPRC (Precision-Recall AUC): 소수 클래스 탐지 성능을 매우 엄격하게 평가.
  3. Macro-F1: 다수 클래스 편향을 방지하는 균형 지표.
  4. MCC (Matthews Correlation Coefficient): 혼동 행렬의 모든 요소를 고려하는 가장 신뢰도 높은 통계 지표.

3. Precision-Recall 상충 관계 (Trade-off)

  • 반비례 관계: 분류 임계값(Threshold)을 낮추면 Recall(꼼꼼함)은 올라가나 Precision(신중함)은 떨어짐.
  • 비즈니스 로직: 실험 비용이 중요한 경우 Precision을, 타겟 발굴이 우선인 경우 Recall을 중시하도록 임계값 튜닝이 필요함.
  • F1-score: 이 두 지표의 균형을 조화 평균(Harmonic Mean)으로 나타낸 지표임.

4. 앙상블 전략 (Ensemble Strategy)

서로 다른 학습 메커니즘을 가진 모델들을 결합하여 일반화 성능 극대화:

  • LGBM + XGBoost: 서로 다른 트리 성장 방식을 가진 부스팅 모델 간의 결합.
  • 부스팅 + MLP (Hybrid): 규칙 기반(Tree)과 패턴 기반(Neural Network) 해석 능력을 상호 보완.
  • Triple Ensemble (LGBM+XGB+MLP): 가장 견고한 예측을 수행하는 최종 아키텍처.

5. 모델 해석력 확보 (Feature Importance)

  • 그룹화 분석: 2,000개가 넘는 피처를 [Antigen / Epitope / 환경변수 4종] 총 6개 그룹으로 묶어 기여도 합산.
  • Permutation Importance: MLP나 앙상블 모델처럼 내장 중요도가 없는 경우, 데이터를 섞었을 때 성능 하락 폭을 측정하여 기여도를 산출하는 모델-무관(Model-agnostic) 기법 활용.

📌추가로 해야 할 점

최종 프로젝트