품질관리(QAQC) 데이터 부트캠프(본캠프)

본캠프_17주차(월)_TIL(최종 프로젝트)

Wat_zy 2026. 1. 5. 08:49

✅ 오늘 한 것

최종 프로젝트


✏️ 오늘 배운 점

최종 프로젝트

BLMPred(B-cell Linear Motif Predictor)

  • 단백질 서열 데이터를 입력받아 특정 부위가 항체와 결합할 수 있는 선형 에피토프인지 아닌지를 판별
  • 새로운 Antigen이 들어왔을 때 Epitope일 가능성이 높은 위치를 찾아냄

B-cell epitope

  • 항체가 직접 인식하고 결합하는 항원의 특정 부위

ProtT5-XL-U50

  • Protein 연구 분야에서 가장 널리 쓰이는 PLM 중 하나
  • ProtT5 방식: 주변에 어떤 아미노산이 있느냐에 따라 동일한 알파벳이라도 다른 숫자로 표현한다.
  • 아미노산 하나하나의 소수성, 전하량, 전하 밀도 등 복잡한 물리화학적 특성이 이 1024개 숫자 안에 압축되어 있다.

1. ProtT5-XL-U50 임베딩의 생물학적 의미

  • 바이오 도메인 정보: 단순히 서열을 숫자로 바꾸는 것이 아니라 아미노산의 물리화학적 특성(소수성, 전하 등), 2차 구조 정보, 진화적 맥락을 1,024차원의 고차원 벡터로 압축함.
  • 에피토프 분석 강점: 7.1%라는 극심한 불균형 데이터에서도 에피토프와 비-에피토프 간의 미세한 생물학적 차이를 공간상의 거리로 표현하여 분류 성능을 높임.

2. Context-Aware Slicing (윈도우 슬라이싱) 전략

  • 문제 인지: 기존 '중심점 기준 고정 길이(18aa) 슬라이싱'은 긴 에피토프의 정보를 훼손(절단)할 위험이 있음.
  • 해결 방법: Epitope(start~end) 전체를 보존하고, 그 양옆으로 N만큼 확장(N=10, 12, ..., 20)하는 방식을 채택.
  • 핵심 로직: win_start = max(0, start - N), win_end = min(len(seq), end + N).
  • 기대 효과: 에피토프 자체의 신호와 이를 둘러싼 항원(Antigen)의 환경 정보를 함께 학습하여 모델의 변별력을 극대화함.

3. 고성능 모델링 및 평가 전략

  • 불균형 대응: 데이터 복제 대신 Class Weight(가중치)를 적용하여 소수 클래스(에피토프) 학습 강화.
  • 평가지표: Accuracy보다는 불균형 데이터에 적합한 Macro-F1 ScoreAUC-ROC를 기준으로 최적의 N값(Window Size) 도출.
  • 최적화: 성능이 가장 우수한 모델을 선정하여 Hyperparameter Tuning(GridSearch, Optuna 등) 진행.

4. GPU(Colab Pro) 환경 최적화 기법

  • 반정밀도 연산 (dtype=torch.float16): A100/V100 GPU의 Tensor Core를 활용하여 연산 속도를 2배 이상 가속하고 메모리 점유율을 절반으로 낮춤.
  • Batch Processing: batch_size를 8~16으로 설정하여 병렬 처리를 수행, 17.8만 건의 대용량 데이터를 효율적으로 처리.
  • 데이터 안전장치: 대규모 작업 중 중단 사고를 방지하기 위해 10,000행 단위 중간 저장(Check-pointing) 로직 구현.

✏️ 오늘의 질문

1. Epitope 기준 Slicing 범위를 다르게 설정하면 다른 성능을 나타내기에 10, 12, 14, 16, 18, 20의 Slicing 범위로 임베딩시켜서 여러 번 진행해보는 것은 적절한가?


📌추가로 해야 할 점

최종 프로젝트