✅ 오늘 한 것
최종 프로젝트
✏️ 오늘 배운 점
최종 프로젝트
BLMPred(B-cell Linear Motif Predictor)
- 단백질 서열 데이터를 입력받아 특정 부위가 항체와 결합할 수 있는 선형 에피토프인지 아닌지를 판별
- 새로운 Antigen이 들어왔을 때 Epitope일 가능성이 높은 위치를 찾아냄
B-cell epitope
- 항체가 직접 인식하고 결합하는 항원의 특정 부위
ProtT5-XL-U50
- Protein 연구 분야에서 가장 널리 쓰이는 PLM 중 하나
- ProtT5 방식: 주변에 어떤 아미노산이 있느냐에 따라 동일한 알파벳이라도 다른 숫자로 표현한다.
- 아미노산 하나하나의 소수성, 전하량, 전하 밀도 등 복잡한 물리화학적 특성이 이 1024개 숫자 안에 압축되어 있다.
1. ProtT5-XL-U50 임베딩의 생물학적 의미
- 바이오 도메인 정보: 단순히 서열을 숫자로 바꾸는 것이 아니라 아미노산의 물리화학적 특성(소수성, 전하 등), 2차 구조 정보, 진화적 맥락을 1,024차원의 고차원 벡터로 압축함.
- 에피토프 분석 강점: 7.1%라는 극심한 불균형 데이터에서도 에피토프와 비-에피토프 간의 미세한 생물학적 차이를 공간상의 거리로 표현하여 분류 성능을 높임.
2. Context-Aware Slicing (윈도우 슬라이싱) 전략
- 문제 인지: 기존 '중심점 기준 고정 길이(18aa) 슬라이싱'은 긴 에피토프의 정보를 훼손(절단)할 위험이 있음.
- 해결 방법: Epitope(start~end) 전체를 보존하고, 그 양옆으로 N만큼 확장(N=10, 12, ..., 20)하는 방식을 채택.
- 핵심 로직: win_start = max(0, start - N), win_end = min(len(seq), end + N).
- 기대 효과: 에피토프 자체의 신호와 이를 둘러싼 항원(Antigen)의 환경 정보를 함께 학습하여 모델의 변별력을 극대화함.
3. 고성능 모델링 및 평가 전략
- 불균형 대응: 데이터 복제 대신 Class Weight(가중치)를 적용하여 소수 클래스(에피토프) 학습 강화.
- 평가지표: Accuracy보다는 불균형 데이터에 적합한 Macro-F1 Score와 AUC-ROC를 기준으로 최적의 N값(Window Size) 도출.
- 최적화: 성능이 가장 우수한 모델을 선정하여 Hyperparameter Tuning(GridSearch, Optuna 등) 진행.
4. GPU(Colab Pro) 환경 최적화 기법
- 반정밀도 연산 (dtype=torch.float16): A100/V100 GPU의 Tensor Core를 활용하여 연산 속도를 2배 이상 가속하고 메모리 점유율을 절반으로 낮춤.
- Batch Processing: batch_size를 8~16으로 설정하여 병렬 처리를 수행, 17.8만 건의 대용량 데이터를 효율적으로 처리.
- 데이터 안전장치: 대규모 작업 중 중단 사고를 방지하기 위해 10,000행 단위 중간 저장(Check-pointing) 로직 구현.
✏️ 오늘의 질문
1. Epitope 기준 Slicing 범위를 다르게 설정하면 다른 성능을 나타내기에 10, 12, 14, 16, 18, 20의 Slicing 범위로 임베딩시켜서 여러 번 진행해보는 것은 적절한가?
📌추가로 해야 할 점
최종 프로젝트
'품질관리(QAQC) 데이터 부트캠프(본캠프)' 카테고리의 다른 글
| 본캠프_17주차(수)_TIL(최종 프로젝트) (0) | 2026.01.07 |
|---|---|
| 본캠프_17주차(화)_TIL(최종 프로젝트) (1) | 2026.01.06 |
| 본캠프_16주차(금)_TIL(최종 프로젝트) (0) | 2026.01.02 |
| 본캠프_16주차(수)_TIL(최종 프로젝트) (0) | 2025.12.31 |
| 본캠프_16주차(화)_TIL(최종 프로젝트) (0) | 2025.12.30 |