본캠프_17주차(목)_TIL(최종 프로젝트)

품질관리(QAQC) 데이터 부트캠프(본캠프)

본캠프_17주차(목)_TIL(최종 프로젝트)

Wat_zy 2026. 1. 8. 08:35

✅ 오늘 한 것

최종 프로젝트

✏️ 오늘 배운 점

이해하기 위한 성능 지표

Recall
- 실제 정답 중 얼마나 정답을 잘 찾을 수 있는가?
- 탐색 과정에서 중요하기에 BLMPred를 활용하여 새로운 염기 서열이 제공될 때 Epitope 후보를 잘 찾는가에 중요
Precision
- 모델이 제공해준 예측 중에서 실제 정답은 얼마나 있는가?
- Precision 점수가 높은 모델을 활용해서 제공된 예측 중 실제로 그 예측이 적절한가를 찾음
ROC-AUC
- 정답과 오답을 얼마나 잘 갈라놓는가? (전체적인 구분 능력)
- 1.0에 가까울수록 완벽하며, 0.5는 무작위 추측과 같다.
AURPC
- 진짜 Epitope를 찾는 실력이 어떠한가? (소수 클래스 적중 능력)
- 소수 클래스를 얼마나 정확하게 찾아내는지에 집중
- 불균형 데이터에서 이 점수가 높을수록 모델이 정교하다는 증거에 활용
MCC
- 모든 오답의 경우의 수를 고려했는가?
- 0.4 이상이면 준수, 0.6 이상이면 매우 훌륭한 모델 (+1:완벽, 0:무작위, -1:완전 반대)

불균형 데이터 정복: 에피토프 예측을 위한 5대 하이브리드 앙상블 전략

1. 프로젝트 배경 및 목표

목표: 항원-에피토프 결합 예측 모델 고도화.
역할: BLMPred가 1차로 탐색한 후보군 중, 실제 실험 성공 확률이 높은 것만 걸러내는 '2단계 검증 필터(Two-stage Verification Filter)' 구축.
핵심 과제: 1:14 수준의 심각한 데이터 불균형(Imbalance) 해결 및 Precision(정밀도) 방어.

2. 데이터 구성 및 전처리

서열 데이터: Antigen(1024차원) + Epitope(1024차원) 임베딩 벡터 결합.
환경 변수(Context): 실험 조건에 따른 편향을 모델에 반영하기 위해 4가지 범주형 변수 사용.
- assay, method_group, disease_group, state_group
전처리 전략:
- 서열 데이터: 16-mer Slicing 및 Center-Padding 적용.
- 환경 변수: One-Hot Encoding (OHE) 적용 (handle_unknown='ignore'로 미관측 범주 대응).

3. 핵심 전략: 하이브리드 불균형 처리 (Hybrid Imbalanced Handling)

모델의 특성에 따라 불균형 처리 방식을 이원화하여 앙상블의 다양성 확보.

A. MLP (신경망) → SMOTE (데이터 증강)

이유: MLPClassifier는 class_weight 파라미터가 없음.
설정: sampling_strategy=0.3
전략: 양성 데이터를 1:1로 무작정 늘리지 않고, 음성의 30% 수준까지만 증강. 과도한 가짜 데이터 생성으로 인한 Precision 하락 방지.

B. 트리/선형 모델 (RF, XGB, LR 등) → Class Weight (가중치)

이유: 손실 함수 가중치 조절이 연산 효율적이고 과적합 위험이 적음.
설정: Moderate Weighting (중도 전략)
- 실제 불균형 비율(약 1:15.8)을 그대로 쓰지 않고 **절반 수준(약 1:7.9)**만 적용.
- 목표: Recall을 챙기되, 모델이 무조건 "양성"이라고 우기지 않도록 오탐(False Positive) 억제.

4. 모델 아키텍처

구조: VotingClassifier (Soft Voting)
구성: 5가지 파트너 모델 + MLP의 앙상블.
1. RF + MLP: (Bagging + SMOTE) - 과적합 방지
2. LR + MLP: (Linear + SMOTE) - 설명력 및 높은 정밀도
3. LGBM + MLP: (Boosting + SMOTE) - 속도 및 효율
4. XGB + MLP: (Boosting + SMOTE) - 정교함
5. Cat + MLP: (Boosting + SMOTE) - 범주형 데이터 특화

5. 주요 평가 지표 (Metrics)

단순 정확도(Accuracy)는 무의미하므로 다음 지표에 집중.

MCC (Matthews Correlation Coefficient): 불균형 데이터에서 가장 신뢰할 수 있는 종합 지표.
AUPRC (Area Under Precision-Recall Curve): Precision과 Recall의 균형 확인.
Prec(0.8): 임계값을 0.8로 높였을 때의 정밀도. (실제 필터링 성능 대변)

6. 향후 계획 (Next Steps)

임계값 최적화: 0.8~0.9 구간에서 Precision이 극대화되는 지점 찾기.
해석력 강화: 6대 그룹(Antigen, Epitope, Assay, Method, Disease, State)별 Feature Importance 분석을 통해 모델의 판단 근거 검증.

📌추가로 해야 할 점

최종 프로젝트

'품질관리(QAQC) 데이터 부트캠프(본캠프)' 카테고리의 다른 글

본캠프_18주차(월)_TIL(최종 프로젝트) (0)	2026.01.12
본캠프_17주차(금)_TIL(최종 프로젝트) (0)	2026.01.09
본캠프_17주차(수)_TIL(최종 프로젝트) (0)	2026.01.07
본캠프_17주차(화)_TIL(최종 프로젝트) (1)	2026.01.06
본캠프_17주차(월)_TIL(최종 프로젝트) (0)	2026.01.05

현재글본캠프_17주차(목)_TIL(최종 프로젝트)

장우석

watzy 님의 블로그 입니다.

Today :
Yesterday :

장우석

본캠프_17주차(목)_TIL(최종 프로젝트)

✅ 오늘 한 것

✏️ 오늘 배운 점

불균형 데이터 정복: 에피토프 예측을 위한 5대 하이브리드 앙상블 전략

📌추가로 해야 할 점

'품질관리(QAQC) 데이터 부트캠프(본캠프)' 카테고리의 다른 글

'품질관리(QAQC) 데이터 부트캠프(본캠프)'의 다른글

티스토리툴바

« 2026/02 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

본캠프_17주차(목)_TIL(최종 프로젝트)

✅ 오늘 한 것

✏️ 오늘 배운 점

불균형 데이터 정복: 에피토프 예측을 위한 5대 하이브리드 앙상블 전략

📌추가로 해야 할 점

'품질관리(QAQC) 데이터 부트캠프(본캠프)' 카테고리의 다른 글

'품질관리(QAQC) 데이터 부트캠프(본캠프)'의 다른글

관련글

티스토리툴바