본캠프_17주차(수)_TIL(최종 프로젝트)

품질관리(QAQC) 데이터 부트캠프(본캠프)

본캠프_17주차(수)_TIL(최종 프로젝트)

Wat_zy 2026. 1. 7. 08:35

✅ 오늘 한 것

최종 프로젝트

✏️ 오늘 배운 점

자연어: 사람들이 의사소통을 위해 자연스럽게 발전시켜 온 언어(현재 프로젝트에서는 단백질 서열 → 임베딩, 질병 및 실험 정보 → Encoding시키는 과정이 포함되어 있다.)

F1-score와 Macro-F1의 차이:

F1-score
- 'binary':지정된 클래스에 대한 결과만 보고합니다
- 1(Positive)를 얼마나 잘 찾아내는가에 대한 점수
Macro-F1
- 'macro':각 레이블에 대한 지표를 계산하고 가중치가 없는 평균값을 구합니다.
- 0과 1의 각각의 F1-score를 구한 후 평균으로 처리

https://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html

1차 선별한 머신러닝 모델

MLP (Multi-Layer Perceptron)
- 가장 기본적인 형태의 딥러닝
- 데이터 사이의 복잡하고 비선형적인 관계를 학습하는 것이 강점
XGBoost
- 여러 개의 결정 트리를 결합하여 예측 모델을 만드는 앙상블 기법
- 과적합 방지 기능이 뛰어나고, 정형 데이터 분석에서 강점
CatBoost
- 범주형 변수 처리에 특화된 부스팅 모델
- OHE를 따로 하지 않아도 범주형 데이터를 스스로 잘 처리함
- SMOTE 사용 대신 class_weights를 사용하는 것이 훨씬 효율적임
LightGBM
- XGBoost와 비슷하나 속도와 메모리 효율을 극대화한 모델
- 대용량 데이터셋 가속에 최적
LDA
- 클래스 간의 차이를 최대화하는 직선을 찾아 데이터를 분류하는 고전 통계 모델
- 단순하고 빠르며, 데이터가 선형적으로 잘 분리되어 있을 때 강함

Precision & Recall

Precision
- 정답이라고 예측한 것 중 실제로 정답인 비율
Recall
- 실제 정답인 것 중 모델이 정답이라고 예측한 비율

1. 데이터 아키텍처 및 전처리 (Data Architecture)

고차원 피처 결합: ProtT5-XL 기반의 Antigen(1,024D) 및 Epitope(1,024D) 임베딩과 실험 환경 메타데이터(Assay, Method 등, ~22D)를 결합하여 총 2,070차원의 하이브리드 데이터셋 구축.
메모리 최적화: 2,000차원 이상의 대용량 연산을 위해 데이터 타입을 float32로 지정하여 메모리 효율성 확보.
데이터 누수 방지: train_test_split을 최우선으로 수행한 후, Train 셋 기준으로 인코딩(OHE) 및 증강(SMOTE)을 적용하는 엄격한 파이프라인 수립.

2. 성능 지표의 재정의: '골든 쿼텟(Golden Quartet)'

단순 Accuracy나 F1-score를 넘어, 불균형 데이터(Positive 7.1%)에 최적화된 4대 핵심 지표 도입:

ROC-AUC: 모델의 전반적인 변별력(Ranking) 측정.
AUPRC (Precision-Recall AUC): 소수 클래스 탐지 성능을 매우 엄격하게 평가.
Macro-F1: 다수 클래스 편향을 방지하는 균형 지표.
MCC (Matthews Correlation Coefficient): 혼동 행렬의 모든 요소를 고려하는 가장 신뢰도 높은 통계 지표.

3. Precision-Recall 상충 관계 (Trade-off)

반비례 관계: 분류 임계값(Threshold)을 낮추면 Recall(꼼꼼함)은 올라가나 Precision(신중함)은 떨어짐.
비즈니스 로직: 실험 비용이 중요한 경우 Precision을, 타겟 발굴이 우선인 경우 Recall을 중시하도록 임계값 튜닝이 필요함.
F1-score: 이 두 지표의 균형을 조화 평균(Harmonic Mean)으로 나타낸 지표임.

4. 앙상블 전략 (Ensemble Strategy)

서로 다른 학습 메커니즘을 가진 모델들을 결합하여 일반화 성능 극대화:

LGBM + XGBoost: 서로 다른 트리 성장 방식을 가진 부스팅 모델 간의 결합.
부스팅 + MLP (Hybrid): 규칙 기반(Tree)과 패턴 기반(Neural Network) 해석 능력을 상호 보완.
Triple Ensemble (LGBM+XGB+MLP): 가장 견고한 예측을 수행하는 최종 아키텍처.

5. 모델 해석력 확보 (Feature Importance)

그룹화 분석: 2,000개가 넘는 피처를 [Antigen / Epitope / 환경변수 4종] 총 6개 그룹으로 묶어 기여도 합산.
Permutation Importance: MLP나 앙상블 모델처럼 내장 중요도가 없는 경우, 데이터를 섞었을 때 성능 하락 폭을 측정하여 기여도를 산출하는 모델-무관(Model-agnostic) 기법 활용.

📌추가로 해야 할 점

최종 프로젝트

'품질관리(QAQC) 데이터 부트캠프(본캠프)' 카테고리의 다른 글

본캠프_17주차(금)_TIL(최종 프로젝트) (0)	2026.01.09
본캠프_17주차(목)_TIL(최종 프로젝트) (0)	2026.01.08
본캠프_17주차(화)_TIL(최종 프로젝트) (1)	2026.01.06
본캠프_17주차(월)_TIL(최종 프로젝트) (0)	2026.01.05
본캠프_16주차(금)_TIL(최종 프로젝트) (0)	2026.01.02

현재글본캠프_17주차(수)_TIL(최종 프로젝트)

장우석

watzy 님의 블로그 입니다.

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

장우석

본캠프_17주차(수)_TIL(최종 프로젝트)

✅ 오늘 한 것

✏️ 오늘 배운 점

1. 데이터 아키텍처 및 전처리 (Data Architecture)

2. 성능 지표의 재정의: '골든 쿼텟(Golden Quartet)'

3. Precision-Recall 상충 관계 (Trade-off)

4. 앙상블 전략 (Ensemble Strategy)

5. 모델 해석력 확보 (Feature Importance)

📌추가로 해야 할 점

'품질관리(QAQC) 데이터 부트캠프(본캠프)' 카테고리의 다른 글

'품질관리(QAQC) 데이터 부트캠프(본캠프)'의 다른글

티스토리툴바

본캠프_17주차(수)_TIL(최종 프로젝트)

✅ 오늘 한 것

✏️ 오늘 배운 점

1. 데이터 아키텍처 및 전처리 (Data Architecture)

2. 성능 지표의 재정의: '골든 쿼텟(Golden Quartet)'

3. Precision-Recall 상충 관계 (Trade-off)

4. 앙상블 전략 (Ensemble Strategy)

5. 모델 해석력 확보 (Feature Importance)

📌추가로 해야 할 점

'품질관리(QAQC) 데이터 부트캠프(본캠프)' 카테고리의 다른 글

'품질관리(QAQC) 데이터 부트캠프(본캠프)'의 다른글

관련글

티스토리툴바