✅ 오늘 한 것
PPT & 대시보드 최종 정리
✏️ 오늘 배운 점
1. 튜터 피드백 및 반영 사항 (현황판 작성용)
- 피드백 핵심: "수행 과정에 대한 논리적 근거 보완 요청"
- 반영 사항:
- 2-Stage 구조의 당위성: 1단계(CatBoost)의 High Recall로 후보를 확보하고, 2단계(XGBoost)의 High Precision으로 실험 리스크를 최소화하는 전략적 파이프라인 구축
- 가중치(0.4:0.6) 선정 근거: 안정성 분석(Stability Analysis)을 통해 후보 선별의 일관성이 가장 높은 0.4 지점을 최적점으로 도출
- 91% 노이즈 제거 효과: 단일 모델 대비 2-Stage 모델이 불필요한 음성 데이터(TN)를 91% 선제 제거하여 학습 집중도와 예측 신뢰도를 높인 점을 정량적으로 증명
2. 핵심 분석 논리: "노출된 소수성 패치 (Exposed Hydrophobic Patch)"
오늘 가장 중요하게 다루었던 물리화학적 검증의 핵심 논리입니다.
- 일반적 특성: 소수성 아미노산(L, F 등)은 물을 싫어해 단백질 내부로 숨으려는 성질이 있음
- 에피토프 특성: 하지만 3차 구조적 제약으로 인해 이들이 표면에 노출될 경우, 국소적 불안정성이 증가함
- 결합 기전: 항체는 이 불안정한 소수성 부위를 덮으며 물 분자를 배제(Water Exclusion)하고 강력한 결합 에너지를 얻음. 즉, "표면에 드러난 소수성"은 가장 강력한 결합 핫스팟임
3. 시각화 및 대본 수정 사항
- 아미노산 단위 분석 그래프 수정:
- Y축 라벨: 친수성 → 소수성으로 변경
- 해석: "0보다 큰 구간(L6, F11 등)은 소수성이 높은 영역이며, 구조적 제약으로 표면에 노출되어 항체 결합 확률이 극대화된 지점"으로 설명 수정
- 발표 대본 구조:
- 임베딩 생성: ProtT5(문맥 분석) 및 ESM-2(신규 항원 예측) 구축
- 모델 선정 및 튜닝: MCC 기준 상위 모델 선정 후 Recall/Precision 최적화
- 가중치 근거: 안정성 분석 그래프를 통한 0.4 수치 도출 과정 설명
- 생물학적 검증: Physicochemical Profile을 통한 노출된 소수성 잔기의 결합 타당성 입증
4. 사용 가이드 및 플랫폼 정의
- 플랫폼 성격: 실시간 연동 DB가 아닌, 연구자의 의사결정을 보조하는 전략적 필터링 도구
- 활용 가이드: Final Score는 상대적 우선순위이며, 실험 비용이 높은 환경을 고려해 Stage 2(정밀도)에 60% 가중치를 부여했음을 명시
📌추가로 해야 할 점
PPT & 대시보드 최종 정리
'품질관리(QAQC) 데이터 부트캠프(본캠프)' 카테고리의 다른 글
| 본캠프_22주차(목)_TIL(PPT 정리 & 대시보드 완료) (0) | 2026.02.05 |
|---|---|
| 본캠프_22주차(수)_TIL(대시보드 수정) (0) | 2026.02.04 |
| 본캠프_22주차(화)_TIL(PPT 제작) (0) | 2026.02.03 |
| 본캠프_21주차(월)_TIL(PPT 제작) (1) | 2026.02.02 |
| 본캠프_20주차(금)_TIL(PPT 제작) (0) | 2026.01.30 |