✅ 오늘 한 것
최종 프로젝트
✏️ 오늘 배운 점
이전 피드백 기반으로 PPT 제작을 완료하였지만 아직 부족함이 많고 피드백이 들어오는 것으로 보아 계속 반복하면서 배우는 것이 있음을 확인할 수 있었다.
Alphafold
Google DeepMind에서 2018년부터 개발한 인공지능 기반의 단백질 3차원 구조 예측 모델
단백질 서열만으로 구조를 고정밀도로 예측하는 획기적인 기술
단백질 구조를 예측하는 문제는 지난 50년간 생물학의 최대 난제로 여겨져 왔으나, AlphaFold의 공개 이후 단백질 데이터 은행(PDB)의 데이터가 기하급수적으로 늘어남.
- T5 (Text-to-Text)
텍스트를 입력받아 텍스트를 뱉어내는 방식
- 임베딩(Embedding)
컴퓨터가 이해할 수 있도록 데이터를 숫자로 번역해 놓은 것(프로젝트에서는 각각의 아미노산을 1024개의 숫자 리스트로 변환한 것)
- Encoder - Decoder
Encoder: 단백질 서열을 읽고 그 의미와 문맥을 파악하여 임베딩(벡터)으로 변환하는 역할
Decoder: 임베딩(벡터)을 바탕으로 다시 단백질 서열을 생성하거나 복원하는 역할
- Downstream Task 성능 우수란?
AI가 사전 학습(Pre-training)으로 단백질 언어를 잘 배웠기에 적은 데이터만으로도 높은 점수를 얻을 수 있다는 의미
- FASTA 형식 파일
생물정보학에서 DNA나 단백질 정보를 저장할 때 사용하는 텍스트 파일 형식
이름표와 내용물로 AI가 각 행을 읽기 좋은 파일로 전환하는 것
- In silico Screening
컴퓨터 시뮬레이션을 통해 실험 대상을 가상으로 선별하는 기술
개발 과정에서 수십만 개의 에피토프 후보를 실제 실험으로 검증하려면 많은 시간과 비용이 소요되기에 이 단계를 AI로 대체하여 유력한 후보군을 사전에 Filtering해줌으로서 연구 효율성을 극대화하는 역할 수행
In silico(컴퓨터 내에서) Screening(선별/탐색)
- SHAP
AI(머신러닝 모델)가 왜 이 서열을 Epitope라고 판단했는가? 양성이라고 판단했는가?에 대한 답을 주는 과정
프로젝트 전체 구조: 2-Stage Filtering
🎯 1단계: Screening (광역 선별)
"놓치지 마라! (No Missing)"
- 목표: High Recall (재현율 극대화). 가짜(FP)가 좀 섞여도 좋으니, 진짜 에피토프를 그물로 다 건져 올리는 것.
- 모델: LightGBM + CatBoost 앙상블.
- 핵심 전략:
- Heavy Weight: 불균형 비율보다 1.0~3.0배 더 강한 가중치를 주어, 조금만 의심스러워도 "양성"으로 판정.
- Threshold Tuning: 0.01 ~ 0.95 전 구간을 탐색하여, Recall 점수가 0.0001점이라도 더 높은 임계값을 AI가 스스로 찾아냄.
🎯 2단계: Filtering (정밀 검증)
"속지 마라! (High Trust)"
- 목표: High Precision (정밀도 극대화). 1차에서 건진 것들 중, 실험했을 때 꽝이 안 나올 '진짜'만 골라내는 것.
- 모델: XGBoost + MLP 앙상블.
- 핵심 전략:
- Lite Weight (XGB): 불균형 비율의 0.2배(20%)만 적용. "확실한 증거 없으면 잡지 마라"는 신중한 태도 주입.
- SMOTE (MLP): 데이터를 1:1로 증강하여 패턴 학습을 도움.
- Objective: precision_score 자체를 타겟으로 튜닝하여, FP(오탐)를 극한으로 줄임.
✏️ 오늘의 질문
1. 데이터 불균형을 해결하기 위해 가중치를 조절하는 데 가중치의 수치에 따라 어느 정도의 변화가 생기는가?
높은 가중치를 제공하면 Recall은 매우 높은 결과를 받을 수 있지만 Precision은 매우 낮은 결과를 동시에 얻을 수 있다.
낮은 가중치를 제공하면 Precision은 매우 높은 결과를 얻을 수 있지만 Recall은 매우 낮은 결과를 동시에 얻을 수 있다.
따라서, 1차 & 2차 선별 모델을 가중치를 다르게 두어 각 모델이 Recall과 Precision이 높은 모델로서 작동하여 제대로 가져올 수 있도록 한다.
📌추가로 해야 할 점
최종 프로젝트
'품질관리(QAQC) 데이터 부트캠프(본캠프)' 카테고리의 다른 글
| 본캠프_19주차(화)_TIL(최종 프로젝트) (0) | 2026.01.20 |
|---|---|
| 본캠프_19주차(월)_TIL(최종 프로젝트) (0) | 2026.01.19 |
| 본캠프_18주차(목)_TIL(최종 프로젝트) (0) | 2026.01.15 |
| 본캠프_18주차(수)_TIL(최종 프로젝트) (0) | 2026.01.14 |
| 본캠프_18주차(화)_TIL(최종 프로젝트) (0) | 2026.01.13 |