품질관리(QAQC) 데이터 부트캠프(본캠프)

본캠프_19주차(월)_TIL(최종 프로젝트)

Wat_zy 2026. 1. 19. 09:05

✅ 오늘 한 것

최종 프로젝트


✏️ 오늘 배운 점

1. 🧬 Bio-Domain Knowledge (도메인 지식)

A. 단백질 구조와 에피토프

  • Residue (잔기): 단백질 서열을 구성하는 아미노산 하나하나를 의미. (데이터의 최소 단위)
  • 2차 구조의 특징:
    • α-helix / β-sheet: 단단하고 구조적인 뼈대 역할.
    • Loop (루프): 유연하고(Flexible) 단백질 표면에 위치함. B-cell 에피토프가 존재할 확률이 가장 높은 핵심 구간.
  • Residue Cluster: 서열상으로는 멀리 떨어져 있어도, 3차원 구조상 뭉쳐 있는 아미노산 그룹. (Conformational Epitope의 핵심)

B. 면역학적 배경

  • B-cell (B세포): 항체(미사일)를 만들어내는 면역 세포.
  • PLM (Protein Language Model): 자연어 처리(BERT, GPT)처럼 단백질 서열을 학습한 AI. 단순 문자열을 생물학적 맥락(Context)이 담긴 고차원 벡터(Embedding)로 통역해 주는 역할.

2. 🤖 Machine Learning Strategy (ML 전략)

A. 불균형 데이터 (Imbalance 20:1) 평가 지표

  • 단순 정확도(Accuracy)는 무의미함.
  • MCC (Matthews Correlation Coefficient): 불균형 상황에서 가장 정직한 지표.
    • 0.3 이상: 실무 적용 가능 (Pass)
    • 0.5 이상: 매우 훌륭한 모델 (Excellent)
  • AUPRC: Precision-Recall 면적. 0.05(Random) 대비 0.3~0.6 수준이면 유의미함.

B. 2-Stage Filtering (Cascade Architecture)

실험실(Wet-lab)의 스크리닝 과정을 머신러닝으로 구현한 계층적 필터링 전략.

단계 1단계 (Screening) 2단계 (Filtering)
목표 High Recall (놓치지 않기) High Precision (속지 않기)
역할 넓은 그물망 (후보군 압축) 정밀 현미경 (가짜 제거)
설정 scale_pos_weight 높게 (30배) scale_pos_weight 낮게 (5배)
Threshold 낮게 설정 (0.1 ~ 0.3) 높게 설정 (0.7 ~ 0.9)
핵심 논리 단일 모델로는 Hard Negative(헷갈리는 오답)를 잡기 어려우므로, 역할을 분담하여 효율 극대화.  

3. 💻 Code & Implementation (구현 기술)

A. 앙상블 (Ensemble)

  • 조합: CatBoost + LightGBM (또는 XGBoost + MLP)
  • 방식: Soft Voting (확률 평균)을 통해 단일 모델의 편향(Bias)을 상쇄하고 일반화 성능 확보.

B. 임계값 튜닝 (Threshold Tuning)

  • 모델을 매번 재학습하는 것이 아니라, predict_proba로 나온 확률값의 커트라인(Threshold)을 조정하여 목표 성능(예: Recall 0.9 or Precision 0.85)을 달성하는 최적점을 찾음.
  • 분석 코드: precision_recall_curve를 활용해 목표 지점을 역산하는 로직 구현.

C. Disease/State 대분류

  • 개별 질병명이 아닌 면역학적 특성(Viral, Bacterial 등)으로 라벨을 묶어서 학습.
  • 효과: 학습하지 않은 신종 질병(Unseen Label)이 들어와도 상위 카테고리의 패턴으로 예측 가능하게 함 (Cold-start / OOV 문제 방지).

4. 🎯 Research Goal (연구의 가치)

이 프로젝트(In silico Screening)를 왜 하는가?

  1. Cost Reduction: 무작위 실험(Trial-and-Error) 대비, AI가 95%의 Negative를 미리 걸러내어 시약 및 인력 비용 절감.
  2. Time Efficiency: 수개월 걸릴 스크리닝을 수일 내로 단축.
  3. Smart Filtering: 2-Stage 전략을 통해 "놓치지 않으면서도(Recall), 확실한 것만(Precision)" 실험실에 전달하는 최적의 의사결정 지원.

📌추가로 해야 할 점

최종 프로젝트