✅ 오늘 한 것
최종 프로젝트
✏️ 오늘 배운 점
1. 🧬 Bio-Domain Knowledge (도메인 지식)
A. 단백질 구조와 에피토프
- Residue (잔기): 단백질 서열을 구성하는 아미노산 하나하나를 의미. (데이터의 최소 단위)
- 2차 구조의 특징:
- α-helix / β-sheet: 단단하고 구조적인 뼈대 역할.
- Loop (루프): 유연하고(Flexible) 단백질 표면에 위치함. B-cell 에피토프가 존재할 확률이 가장 높은 핵심 구간.
- Residue Cluster: 서열상으로는 멀리 떨어져 있어도, 3차원 구조상 뭉쳐 있는 아미노산 그룹. (Conformational Epitope의 핵심)
B. 면역학적 배경
- B-cell (B세포): 항체(미사일)를 만들어내는 면역 세포.
- PLM (Protein Language Model): 자연어 처리(BERT, GPT)처럼 단백질 서열을 학습한 AI. 단순 문자열을 생물학적 맥락(Context)이 담긴 고차원 벡터(Embedding)로 통역해 주는 역할.
2. 🤖 Machine Learning Strategy (ML 전략)
A. 불균형 데이터 (Imbalance 20:1) 평가 지표
- 단순 정확도(Accuracy)는 무의미함.
- MCC (Matthews Correlation Coefficient): 불균형 상황에서 가장 정직한 지표.
- 0.3 이상: 실무 적용 가능 (Pass)
- 0.5 이상: 매우 훌륭한 모델 (Excellent)
- AUPRC: Precision-Recall 면적. 0.05(Random) 대비 0.3~0.6 수준이면 유의미함.
B. 2-Stage Filtering (Cascade Architecture)
실험실(Wet-lab)의 스크리닝 과정을 머신러닝으로 구현한 계층적 필터링 전략.
| 단계 | 1단계 (Screening) | 2단계 (Filtering) |
| 목표 | High Recall (놓치지 않기) | High Precision (속지 않기) |
| 역할 | 넓은 그물망 (후보군 압축) | 정밀 현미경 (가짜 제거) |
| 설정 | scale_pos_weight 높게 (30배) | scale_pos_weight 낮게 (5배) |
| Threshold | 낮게 설정 (0.1 ~ 0.3) | 높게 설정 (0.7 ~ 0.9) |
| 핵심 논리 | 단일 모델로는 Hard Negative(헷갈리는 오답)를 잡기 어려우므로, 역할을 분담하여 효율 극대화. |
3. 💻 Code & Implementation (구현 기술)
A. 앙상블 (Ensemble)
- 조합: CatBoost + LightGBM (또는 XGBoost + MLP)
- 방식: Soft Voting (확률 평균)을 통해 단일 모델의 편향(Bias)을 상쇄하고 일반화 성능 확보.
B. 임계값 튜닝 (Threshold Tuning)
- 모델을 매번 재학습하는 것이 아니라, predict_proba로 나온 확률값의 커트라인(Threshold)을 조정하여 목표 성능(예: Recall 0.9 or Precision 0.85)을 달성하는 최적점을 찾음.
- 분석 코드: precision_recall_curve를 활용해 목표 지점을 역산하는 로직 구현.
C. Disease/State 대분류
- 개별 질병명이 아닌 면역학적 특성(Viral, Bacterial 등)으로 라벨을 묶어서 학습.
- 효과: 학습하지 않은 신종 질병(Unseen Label)이 들어와도 상위 카테고리의 패턴으로 예측 가능하게 함 (Cold-start / OOV 문제 방지).
4. 🎯 Research Goal (연구의 가치)
이 프로젝트(In silico Screening)를 왜 하는가?
- Cost Reduction: 무작위 실험(Trial-and-Error) 대비, AI가 95%의 Negative를 미리 걸러내어 시약 및 인력 비용 절감.
- Time Efficiency: 수개월 걸릴 스크리닝을 수일 내로 단축.
- Smart Filtering: 2-Stage 전략을 통해 "놓치지 않으면서도(Recall), 확실한 것만(Precision)" 실험실에 전달하는 최적의 의사결정 지원.
📌추가로 해야 할 점
최종 프로젝트
'품질관리(QAQC) 데이터 부트캠프(본캠프)' 카테고리의 다른 글
| 본캠프_19주차(수)_TIL(최종 프로젝트: 중간 발표회 & 피드백) (0) | 2026.01.21 |
|---|---|
| 본캠프_19주차(화)_TIL(최종 프로젝트) (0) | 2026.01.20 |
| 본캠프_18주차(금)_TIL(최종 프로젝트) (0) | 2026.01.16 |
| 본캠프_18주차(목)_TIL(최종 프로젝트) (0) | 2026.01.15 |
| 본캠프_18주차(수)_TIL(최종 프로젝트) (0) | 2026.01.14 |