본캠프_17주차(월)_TIL(최종 프로젝트)

품질관리(QAQC) 데이터 부트캠프(본캠프)

본캠프_17주차(월)_TIL(최종 프로젝트)

Wat_zy 2026. 1. 5. 08:49

✅ 오늘 한 것

최종 프로젝트

✏️ 오늘 배운 점

최종 프로젝트

BLMPred(B-cell Linear Motif Predictor)

단백질 서열 데이터를 입력받아 특정 부위가 항체와 결합할 수 있는 선형 에피토프인지 아닌지를 판별
새로운 Antigen이 들어왔을 때 Epitope일 가능성이 높은 위치를 찾아냄

B-cell epitope

항체가 직접 인식하고 결합하는 항원의 특정 부위

ProtT5-XL-U50

Protein 연구 분야에서 가장 널리 쓰이는 PLM 중 하나
ProtT5 방식: 주변에 어떤 아미노산이 있느냐에 따라 동일한 알파벳이라도 다른 숫자로 표현한다.
아미노산 하나하나의 소수성, 전하량, 전하 밀도 등 복잡한 물리화학적 특성이 이 1024개 숫자 안에 압축되어 있다.

1. ProtT5-XL-U50 임베딩의 생물학적 의미

바이오 도메인 정보: 단순히 서열을 숫자로 바꾸는 것이 아니라 아미노산의 물리화학적 특성(소수성, 전하 등), 2차 구조 정보, 진화적 맥락을 1,024차원의 고차원 벡터로 압축함.
에피토프 분석 강점: 7.1%라는 극심한 불균형 데이터에서도 에피토프와 비-에피토프 간의 미세한 생물학적 차이를 공간상의 거리로 표현하여 분류 성능을 높임.

2. Context-Aware Slicing (윈도우 슬라이싱) 전략

문제 인지: 기존 '중심점 기준 고정 길이(18aa) 슬라이싱'은 긴 에피토프의 정보를 훼손(절단)할 위험이 있음.
해결 방법: Epitope(start~end) 전체를 보존하고, 그 양옆으로 N만큼 확장(N=10, 12, ..., 20)하는 방식을 채택.
핵심 로직: win_start = max(0, start - N), win_end = min(len(seq), end + N).
기대 효과: 에피토프 자체의 신호와 이를 둘러싼 항원(Antigen)의 환경 정보를 함께 학습하여 모델의 변별력을 극대화함.

3. 고성능 모델링 및 평가 전략

불균형 대응: 데이터 복제 대신 Class Weight(가중치)를 적용하여 소수 클래스(에피토프) 학습 강화.
평가지표: Accuracy보다는 불균형 데이터에 적합한 Macro-F1 Score와 AUC-ROC를 기준으로 최적의 N값(Window Size) 도출.
최적화: 성능이 가장 우수한 모델을 선정하여 Hyperparameter Tuning(GridSearch, Optuna 등) 진행.

4. GPU(Colab Pro) 환경 최적화 기법

반정밀도 연산 (dtype=torch.float16): A100/V100 GPU의 Tensor Core를 활용하여 연산 속도를 2배 이상 가속하고 메모리 점유율을 절반으로 낮춤.
Batch Processing: batch_size를 8~16으로 설정하여 병렬 처리를 수행, 17.8만 건의 대용량 데이터를 효율적으로 처리.
데이터 안전장치: 대규모 작업 중 중단 사고를 방지하기 위해 10,000행 단위 중간 저장(Check-pointing) 로직 구현.

✏️ 오늘의 질문

1. Epitope 기준 Slicing 범위를 다르게 설정하면 다른 성능을 나타내기에 10, 12, 14, 16, 18, 20의 Slicing 범위로 임베딩시켜서 여러 번 진행해보는 것은 적절한가?

📌추가로 해야 할 점

최종 프로젝트

'품질관리(QAQC) 데이터 부트캠프(본캠프)' 카테고리의 다른 글

본캠프_17주차(수)_TIL(최종 프로젝트) (0)	2026.01.07
본캠프_17주차(화)_TIL(최종 프로젝트) (1)	2026.01.06
본캠프_16주차(금)_TIL(최종 프로젝트) (0)	2026.01.02
본캠프_16주차(수)_TIL(최종 프로젝트) (0)	2025.12.31
본캠프_16주차(화)_TIL(최종 프로젝트) (0)	2025.12.30

현재글본캠프_17주차(월)_TIL(최종 프로젝트)

장우석

watzy 님의 블로그 입니다.

Today :
Yesterday :

장우석

본캠프_17주차(월)_TIL(최종 프로젝트)

✅ 오늘 한 것

✏️ 오늘 배운 점

최종 프로젝트

1. ProtT5-XL-U50 임베딩의 생물학적 의미

2. Context-Aware Slicing (윈도우 슬라이싱) 전략

3. 고성능 모델링 및 평가 전략

4. GPU(Colab Pro) 환경 최적화 기법

✏️ 오늘의 질문

📌추가로 해야 할 점

'품질관리(QAQC) 데이터 부트캠프(본캠프)' 카테고리의 다른 글

'품질관리(QAQC) 데이터 부트캠프(본캠프)'의 다른글

티스토리툴바

« 2026/02 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

본캠프_17주차(월)_TIL(최종 프로젝트)

✅ 오늘 한 것

✏️ 오늘 배운 점

최종 프로젝트

1. ProtT5-XL-U50 임베딩의 생물학적 의미

2. Context-Aware Slicing (윈도우 슬라이싱) 전략

3. 고성능 모델링 및 평가 전략

4. GPU(Colab Pro) 환경 최적화 기법

✏️ 오늘의 질문

📌추가로 해야 할 점

'품질관리(QAQC) 데이터 부트캠프(본캠프)' 카테고리의 다른 글

'품질관리(QAQC) 데이터 부트캠프(본캠프)'의 다른글

관련글

티스토리툴바