품질관리(QAQC) 데이터 부트캠프(본캠프)

본캠프_17주차(금)_TIL(최종 프로젝트)

Wat_zy 2026. 1. 9. 08:35

✅ 오늘 한 것

최종 프로젝트


✏️ 오늘 배운 점

BLMPred

  • Antigen 서열만 보고 어느 부분이 항체와 결합할 가능성이 높은지(Epitope인지) 예측하는 것
  • 작동 원리
    • NLP(자연어 처리) 방식 적용: Antigen 서열을 하나의 문장으로, 아미노산을 단어로 취급
    • 양방향 학습: 정방향으로 서열 학습, 역방향으로 서열 학습
    • 특징 추출: 단순 서열뿐만 아니라 아미노산의 물성(소수성, 전하 등)이나 진화적 정보를 입력으로 사용하여 패턴 학습

 


AI 기반 신약 개발: 2단계 에피토프 발굴 파이프라인 (Two-Stage Epitope Discovery)

1. 프로젝트 핵심 목표

  • 목표: 새로운 항원(Antigen)이 주어졌을 때, 실제 실험(Wet-lab)에서 성공 확률이 높은 에피토프(Epitope)를 정밀하게 예측하는 시스템 구축.
  • 문제 정의: 기존 도구(BLMPred 등)는 후보는 잘 찾지만(High Recall), 실험 환경(Assay, Disease)을 고려하지 못해 위양성(False Positive)이 높음.
  • 해결책: "탐색(Screening)"과 "검증(Filtering)"을 분리한 2단계 파이프라인 설계.

2. 전체 파이프라인 아키텍처 (Pipeline Architecture)

Step 1: 후보 탐색 (Discovery Phase)

  • 모델: BLMPred (또는 Sequence-only Deep Learning Model)
  • 입력: 오직 항원 서열(Sequence)만 사용. (ProtT5 임베딩)
  • 전략: High Recall (재현율 중심)
    • "조금이라도 의심되면 다 잡는다."
    • 불균형 처리 시 SMOTE 1:1 적용 등 공격적인 학습 전략 사용.
  • 역할: 거대한 항원 서열을 스캔하여 에피토프 후보 위치(Coordinates)를 반환.

Step 2: 정밀 검증 (Verification Phase)

  • 모델: Context-Aware Ensemble (LGBM + CatBoost + LR)
  • 입력: 서열 임베딩 + 실험 환경 변수 (Assay, Disease, Method, State)
  • 전략: High Precision (정밀도 중심)
    • "실험 조건에 맞는 진짜만 남긴다."
    • 불균형 처리 시 Moderate Weighting (중도 전략) 사용 (실제 비율의 50% 수준만 가중치 부여).
  • 역할: 1단계에서 넘어온 후보 중, 특정 질병/실험 조건에서 유효한 것만 필터링.

3. 핵심 기술 및 구현 디테일

A. 데이터 전처리 (Standardization)

  • ProtT5-XL-U50: 단백질 서열을 기계가 이해하는 벡터로 변환하는 '번역기'. (학습/추론 모두 필수)
  • 16-mer Slicing:
    • BLMPred가 찾은 위치가 어디든, 내 모델(Step 2)의 규격에 맞게 중심 기준 앞뒤 8자(16aa)로 잘라서 벡터를 다시 추출해야 함.

B. 모델링 전략 (Ensemble & Weighting)

  • 조합의 다양성 (Diversity):
    • LightGBM: 속도와 대용량 처리.
    • CatBoost: 범주형 변수(Assay, Disease) 처리에 특화.
    • Logistic Regression: 선형적 경향성 파악 및 과적합 방지.
  • 불균형 데이터 처리:
    • 무거운 SMOTE 대신 Class Weight(가중치) 파라미터를 활용하여 효율성 극대화.

C. 성능 검증 시나리오

  • Sequence-only 모델(Step 1 모사) 실험: 환경 변수를 빼고 학습시켰을 때 Recall은 높지만 Precision이 낮음을 확인 → 2단계 필터의 필요성 증명.
  • Context-aware 모델(Step 2) 실험: 환경 변수를 넣었을 때 Precision과 AUPRC가 대폭 상승함을 확인.

4. 최종 산출물: In Silico Screening Dashboard

  • 개념: 사용자가 항원 서열과 원하는 실험 조건(예: 암 환자 대상 ELISA)을 입력하면, AI가 유망한 타겟을 추천해주는 웹 서비스.
  • 실현 가능성:
    • Backend: BLMPred(탐색) Mapping(전처리) Ensemble(검증)으로 이어지는 파이프라인 구축 완료.
    • Frontend: Streamlit 등을 활용하여 시각화 가능.

5. 오늘의 인사이트 (Insights)

  1. 모델의 역할 분담: 하나의 모델로 모든 걸 해결하려 하지 말고, 넓게 찾는 놈(Recall)과 깐깐하게 고르는 놈(Precision)으로 역할을 나누는 것이 훨씬 효과적이다.
  2. 맥락(Context)의 힘: 단순히 서열만 보는 것보다, "어떤 실험에서 쓸 것인가"라는 정보를 주입했을 때 예측 정확도가 비약적으로 상승한다.
  3. 임베딩의 재사용: 무거운 LLM(ProtT5)은 한 번만 돌려서 .npy 파일로 만들고, 가벼운 머신러닝 모델로 실험을 반복하는 것이 효율적이다.

📌추가로 해야 할 점

최종 프로젝트