품질관리(QAQC) 데이터 부트캠프(본캠프)

본캠프_22주차(금)_TIL(PPT & 대시보드 최종 정리)

Wat_zy 2026. 2. 6. 08:30

✅ 오늘 한 것

PPT & 대시보드 최종 정리


✏️ 오늘 배운 점

1. 튜터 피드백 및 반영 사항 (현황판 작성용)

  • 피드백 핵심: "수행 과정에 대한 논리적 근거 보완 요청"
  • 반영 사항:
    • 2-Stage 구조의 당위성: 1단계(CatBoost)의 High Recall로 후보를 확보하고, 2단계(XGBoost)의 High Precision으로 실험 리스크를 최소화하는 전략적 파이프라인 구축
    • 가중치(0.4:0.6) 선정 근거: 안정성 분석(Stability Analysis)을 통해 후보 선별의 일관성이 가장 높은 0.4 지점을 최적점으로 도출
    • 91% 노이즈 제거 효과: 단일 모델 대비 2-Stage 모델이 불필요한 음성 데이터(TN)를 91% 선제 제거하여 학습 집중도와 예측 신뢰도를 높인 점을 정량적으로 증명

2. 핵심 분석 논리: "노출된 소수성 패치 (Exposed Hydrophobic Patch)"

오늘 가장 중요하게 다루었던 물리화학적 검증의 핵심 논리입니다.

  • 일반적 특성: 소수성 아미노산(L, F 등)은 물을 싫어해 단백질 내부로 숨으려는 성질이 있음
  • 에피토프 특성: 하지만 3차 구조적 제약으로 인해 이들이 표면에 노출될 경우, 국소적 불안정성이 증가함
  • 결합 기전: 항체는 이 불안정한 소수성 부위를 덮으며 물 분자를 배제(Water Exclusion)하고 강력한 결합 에너지를 얻음. 즉, "표면에 드러난 소수성"은 가장 강력한 결합 핫스팟

3. 시각화 및 대본 수정 사항

  • 아미노산 단위 분석 그래프 수정:
    • Y축 라벨: 친수성 → 소수성으로 변경
    • 해석: "0보다 큰 구간(L6, F11 등)은 소수성이 높은 영역이며, 구조적 제약으로 표면에 노출되어 항체 결합 확률이 극대화된 지점"으로 설명 수정
  • 발표 대본 구조:
    1. 임베딩 생성: ProtT5(문맥 분석) 및 ESM-2(신규 항원 예측) 구축
    2. 모델 선정 및 튜닝: MCC 기준 상위 모델 선정 후 Recall/Precision 최적화
    3. 가중치 근거: 안정성 분석 그래프를 통한 0.4 수치 도출 과정 설명
    4. 생물학적 검증: Physicochemical Profile을 통한 노출된 소수성 잔기의 결합 타당성 입증

4. 사용 가이드 및 플랫폼 정의

  • 플랫폼 성격: 실시간 연동 DB가 아닌, 연구자의 의사결정을 보조하는 전략적 필터링 도구
  • 활용 가이드: Final Score는 상대적 우선순위이며, 실험 비용이 높은 환경을 고려해 Stage 2(정밀도)에 60% 가중치를 부여했음을 명시

📌추가로 해야 할 점

PPT & 대시보드 최종 정리