품질관리(QAQC) 데이터 부트캠프(본캠프)

본캠프_21주차(월)_TIL(PPT 제작)

Wat_zy 2026. 2. 2. 08:38

✅ 오늘 한 것

PPT 제작


✏️ 오늘 배운 점

1. 모델링 전략: 2-Stage Filtering (Cascading Ensemble)

  • 핵심 개념: 1차 모델(CatBoost)로 넓게 그물을 쳐서 노이즈를 제거하고, 2차 모델(XGBoost)로 정밀하게 검증하는 직렬 구조입니다.
  • 도입 이유: 극심한 데이터 불균형 문제를 해결하기 위함입니다. 1차 필터링을 통해 음성 데이터(TN)를 90% 이상 선제적으로 제거함으로써, 2차 모델이 에피토프만의 미세한 특징 학습에 집중할 수 있는 환경을 조성했습니다.
  • 수치적 근거: 단일 모델과 최종 샘플 수(482개)는 동일하더라도, 2-Stage는 가짜 음성(FN)을 1,220개에서 909개로 줄여 유망 후보군을 더 많이 보호하고 데이터의 순도를 높였습니다.

2. 성능 지표 및 모델 선정 논리

  • 주요 지표 정의:
    • MCC: 모든 혼동 행렬 요소를 고려하는 가장 엄격하고 객관적인 지표로, 모델의 예측 안정성을 증명합니다.
    • AUPRC & Macro-F1: 불균형 데이터에서 소수 클래스(에피토프)를 얼마나 공정하고 일관되게 찾아내는지 보여주는 보조 지표입니다.
  • 선정 논리: 단순히 성능이 높아서가 아니라, 데이터 불균형에 의한 '다수 클래스 편향'을 차단하기 위해 통계적으로 가장 정직한 MCC를 최우선 지표로 삼아 모델을 선정했습니다.

3. 기술적 배경: PLM 임베딩 모델

  • ProtT5-XL-U50: 단백질 서열을 '문장'으로 인식하여 아미노산 간의 언어적 문맥과 의미를 추출합니다. (1,024차원)
  • ESM-2: 단백질의 3차원 구조와 진화적 상관관계 정보를 추출하여 입체적인 상호작용 가능성을 파악합니다. (1,280차원)
  • 활용: 서열의 문법적 완성도와 물리적 구조라는 두 가지 관점을 모두 확보하기 위해 이원화하여 사용했습니다.

4. 발표 스토리텔링 (도메인 연결)

  • Linear Epitope 선정 이유: 복잡한 3차 구조 분석 전, 기초 정보인 아미노산 서열만으로도 백신 설계의 핵심 단서를 충분히 예측할 수 있기 때문입니다.
  • 아미노산 특성 연결: 에피토프 예측은 결국 아미노산의 친수성(표면 노출)과 소수성(내부 결합) 등 물리화학적 성질을 AI가 얼마나 잘 이해하느냐의 문제임을 강조하며 기술적 해결책으로 연결했습니다.

📌추가로 해야 할 점

PPT 제작