✅ 오늘 한 것
PPT 정리 & 대시보드 완료
✏️ 오늘 배운 점
대시보드 완료
오늘은 사용자가 대시보드에 접속하였을 때 어떠한 것을 할 수 있는 사이트인지를 확인할 수 있도록 정리하였다.
https://huggingface.co/spaces/yunuk0/epitope
PPT 정리
오늘은 ppt를 확인하였을 때 적혀있는 내용을 기반으로 질문을 할 수 있는 요소들에 대한 근거를 작성하였다.
- 왜 Linear B-cell Epitope인가? (연구 범위의 근거)
신규 항원이나 바이러스 변이체의 경우 정확한 3D 구조 정보가 밝혀지지 않고 아미노산 서열만 존재하는 상황에서 사용한 PLM 모델(ESM-2, ProtT5)은 Linear Epitope를 분석하더라도 실제 입체 구조상에서 노출될 가능성이 높은 부위를 간접적으로 파악할 수 있기 때문입니다. - 왜 사전 선별(Pre-screening)이 중요한가?
기존 Wet-lab 방식은 펩타이드 1건당 최대 1,000만원의 비용과 4주의 시간이 소요되는 고비용 구조를 가지고 있습니다. 특히 결합 가능성이 낮은 데이터(TN)에 자원이 투입될 경우 발생하는 기회비용은 연구 전체의 리스크로 직결됩니다. 저희는 이를 해결하기 위해 2-Stage Filtering 아키텍처를 설계하여 제공되는 후보 서열 중 실제 Epitope 가능성이 가장 높은 상위 1% 미만의 후보를 정밀 추출하여 이론적으로 수억원대의 무분별한 실험 예산 낭비를 방지하고, 선별 소요 시간을 실시간 수준으로 단축하여 연구 효율성을 극대화하였습니다.
→ 자소서용: 단 1%의 유망 후보군 선별로 실험 비용 90% 절감 가능한 파이프라인 구축 - AlphaFold2 이후 구조 데이터가 폭증하면 굳이 Linear Epitope 예측이 필요한가요? 3D 구조 데이터를 빨리 찾을 수 있으니까 Conformational Epitope 예측 모델을 진행하면 되는 것 아니었나요?
저희는 구조 분석에 들어가는 추가적인 시간과 비용을 줄여 서열만으로도 즉각적인 1차 스크리닝이 가능한 환경을 만들고자 했습니다. 구조 정보가 부재한 신규 변이체 발생 시 저희의 Cellect-Epitope 파이프라인은 실험 대상 후보를 1% 미만으로 압축하여 수억원의 비용 낭비를 막는 가장 빠르고 경제적인 대안이 될 것입니다. - 왜 T-cell이 아닌 B-cell epitope 예측 모델을 선택했나요?
B-cell은 체내에 침투한 항원을 중화하는 항체를 직접 생성하여 감염 자체를 차단하는 역할을 합니다. 백신 개발이나 진단 키트 제작에 있어 항체 결합 부위를 찾는 것이 실무적으로 더 직접적인 가치가 높기 때문입니다. - 아미노산의 물리화학적 특성(소수성, 친수성 등)이 Epitope 예측에 왜 중요한가요?
에피토프는 항체와 결합하기 위해 단백질 표면에 노출되어야 합니다. 소수성 아미노산은 주로 단백질 내부에 배치되는 반면, 친수성 아미노산은 단백질 외부로 노출될 가능성이 높습니다. 저희 모델(ProtT5, ESM-2)은 이러한 접힘 맥락을 학습하여 결합 가능성이 높은 부위를 정밀하게 선별합니다. - 왜 에피토프의 최대 길이를 16 aa로 설정했나요? 16 aa보다 긴 에피토프(3.6%)를 제외했을 때 모델의 범용성에 문제는 없나요?
데이터 분석 결과 B-cell Linear Epitope의 96.4%가 8~16 aa 사이에 분포함을 확인했습니다. 3.6%의 예외 사례를 포함하기 위해 전체 서열 길이를 늘리는 것보다 절대다수를 차지하는 범위를 타겟팅하여 모델의 학습 효율과 집중도를 높이는 전략을 선택했습니다. - 16 aa보다 짧은 서열을 '주변 문맥'을 포함해 정규화했다고 하는데 문맥을 어느 방향(앞/뒤)으로 얼마나 포함했나요?
에피토프를 중심으로 앞뒤 항원 서열을 대칭적으로 확장하여 16 aa를 맞췄으며 만약 에피토프가 항원 서열의 맨 앞이나 맨 뒤에 위치하여 한쪽 방향으로 충분한 서열을 가져오지 못하는 경우가 발생한다면 막힌 반대 방향으로 부족한 길이만큼의 서열을 더 많이 포함하도록 설계했습니다. - 세부 컬럼을 대분류 카테고리로 통합(Tagging)한 이유는 무엇인가요?
제공된 원본 데이터에는 각 컬럼당 최대 수백 가지의 범주들이 혼재되어 있었습니다. 이처럼 세분화된 상태로 학습을 진행하면 특정 범주의 데이터에 편향되어 다른 범주는 노이즈로 인식할 위험이 있기에 학습 안정성을 확보하기 위하여 그룹화하여 모델이 유의미한 공통 패턴을 찾도록 유도하여 학습의 안정성을 높이고 과적합을 방지하기 위한 선택이었습니다. - 'High Throughput' 기법이 91%로 압도적인데, 특정 실험 기법에 모델이 편향될 가능성은 없나요?
현대의 High Throughput 기법은 한 번에 수천~수만 개의 서열을 스크리닝할 수 있어 대부분의 최신 Epitope 데이터는 이 기법을 통해 생성된 것이기에 91%로 압도적인 것은 이미 표준화된 현대 연구의 주류이기에 이 데이터를 기반으로 학습된 모델이 실제 연구 현장에서의 범용성이 더 높다고 판단했습니다. - 품질 지표 선택 시, 일반적인 Accuracy(정확도) 대신 MCC나 FP/FN 비율을 강조한 이유는 무엇입니까?
이 프로젝트에서는 데이터셋이 Label 0이 Label 1보다 압도적으로 많은 심각한 데이터 불균형 특징을 가지고 있습니다. 이러한 불균형 환경에서 정확도를 지표로 삼으면 실제 에피토프를 찾아야 하는 본 프로젝트의 목적에 부합하지 않습니다. 따라서 양성과 음성 클래스 모두에 대해 모델이 얼마나 균형 있게 예측했는지를 단일 수치로 잘 나타내는 MCC를 핵심 지표로 채택하였습니다. - 분석 기법에서 'Two-stage ML Screening'을 도입한 결정적인 이유는 무엇입니까?
High Recall과 High Precision이라는 상충적 목표를 동시에 달성하기 어렵기 때문입니다. 1단계에서 Recall을 극대화하여 유망한 후보군을 폭넓게 확보하고, 2단계에서 Precision을 높여 실제 실험에 투입될 정예 후보만을 정제하였습니다. 이 Cascade 구조를 통해 최종 후보 수를 효율적으로 압축함으로써, 단일 모델 대비 실험 비용을 구조적으로 낮추는 결과를 얻었습니다. - 데이터 불균형 해결을 위해 Oversampling이나 Undersampling 대신 'Class Weight' 기반 학습을 선택한 이유는 무엇입니까?
Undersampling은 대량의 비결합 데이터에 숨겨진 유의미한 패턴을 손실할 위험이 크고, Oversampling은 중복 데이터로 인한 과적합(Overfitting) 가능성이 높습니다. 따라서 원본 데이터의 분포를 그대로 유지하면서 모델이 소수 클래스에 더 높은 중요도를 부여하도록 하는 Class Weight 기반 학습(CatBoost, XGBoost)이 정보 손실을 최소화하는 가장 최적의 선택이라고 판단했습니다. - Assay, Method, State, Disease 같은 범주형 변수가 에피토프 예측에 실제로 어떤 기여를 한다고 보십니까?
에피토프의 결합 여부는 단순히 아미노산 서열뿐만 아니라 어떤 실험 기법(Method)으로 측정했는지, 혹은 개체의 상태(State)가 어떠한지 등의 실험적/생물학적 맥락에 큰 영향을 받습니다. 이러한 변수들을 모델에 투입함으로써 단순 시퀀스 매칭을 넘어 다양한 환경 변수를 고려한 입체적인 예측이 가능해졌습니다. - 1단계에서 CatBoost를, 2단계에서 XGBoost를 사용한 기술적 근거가 있습니까?
기본 모델 성능 비교 당시 각 알고리즘이 가지는 고유한 강점을 확인할 수 있었으며 각각의 기본 모델이 보인 성능을 튜닝시켰을 때 성능이 더 극대화될 것이라고 판단하여 CatBoost를 1단계(High Recall), XGBoost를 2단계(High Preicsion)로 하여 2-Stage Filtering을 진행하였다. - 최종 점수(FS) 산출 시 1단계(40%)보다 2단계(60%)에 더 높은 가중치를 부여한 이유는 무엇입니까?
1단계가 탐색의 관점에서 후보를 보존한다면, 2단계는 검증의 관점에서 실험 대상을 확정합니다. 저희는 실험 비용 절감이라는 비즈니스 가치에 더 집중하기 위해 정밀 타격 역할을 수행하는 2단계 점수에 더 높은 가중치를 부여하여 실제 연구 현장에서 가장 신뢰할 수 있는 최종 리스트를 도출하고자 했습니다.
📌추가로 해야 할 점
PPT 정리 & 대시보드 완료
'품질관리(QAQC) 데이터 부트캠프(본캠프)' 카테고리의 다른 글
| 본캠프_22주차(금)_TIL(PPT & 대시보드 최종 정리) (0) | 2026.02.06 |
|---|---|
| 본캠프_22주차(수)_TIL(대시보드 수정) (0) | 2026.02.04 |
| 본캠프_22주차(화)_TIL(PPT 제작) (0) | 2026.02.03 |
| 본캠프_21주차(월)_TIL(PPT 제작) (1) | 2026.02.02 |
| 본캠프_20주차(금)_TIL(PPT 제작) (0) | 2026.01.30 |