✅ 오늘 한 것
최종 프로젝트, AI 서비스 개발, 베이직
✏️ 오늘 배운 점
1. 문제 상황 (Problem Definition)
- 상황: Train 데이터로 학습하여 Test 데이터의 label(Positive/Negative)을 예측해야 함.
- 이슈: method, state 컬럼에서 Train에는 없지만 Test에만 존재하는 고유값(Unseen Data)이 다수 발견됨.
- 고민: 학습하지 못한 데이터를 제거해야 하는가? 아니면 어떻게 처리해야 하는가?
2. 해결 전략 (Solution Strategy)
✅ Test 데이터 처리 원칙
- 제거 금지: Test 데이터는 최종 예측 대상이므로 행을 임의로 삭제하면 안 됨.
- Unknown 처리: Train에 없는 값은 'Unknown' 또는 '-1'과 같은 별도의 범주로 통합하여 인코딩.
- 모델 유도: 모델이 "이 조건은 낯설다"라고 인식하게 하여, 대신 서열 정보(Epitope)나 다른 환경 변수(Assay)에 가중치를 두어 판단하도록 유도함.
✅ 변수 중요도 분석 (Mutual Information)
- 도구: Mutual Information (MI Score)를 사용하여 각 변수가 정답(Label)을 맞히는 데 얼마나 기여하는지 정보량을 측정함.
- 결과:
- epitope (0.25): 압도적인 1위. 결합 여부의 본질은 결국 서열에 있음.
- antigen (0.13): 항원의 종류와 위치 정보가 중요한 단서임.
- state / method (0.05~0.08): 실험 환경과 환자 상태는 결합의 '맥락'을 제공하는 보조 변수임.
- 인사이트: 범주형 변수(맥락)만으로는 부족하며, 서열 자체의 특징을 추출하는 것이 성능 향상의 열쇠임.
3. 핵심 기술 (Key Technology)
🧬 Biopython을 활용한 피처 엔지니어링
- 개념: 컴퓨터는 EGSFD... 같은 문자열을 이해하지 못하므로, 이를 물리화학적 수치로 변환해야 함.
- 활용 라이브러리: Bio.SeqUtils.ProtParam
- 추출 피처:
- Molecular Weight (분자량): 에피토프의 크기.
- GRAVY (소수성): 물과 친한지(표면 노출) 싫어하는지(내부 매립)를 나타내는 핵심 지표.
- Isoelectric Point (등전점): 전하적 성질.
- 의의: 서열을 단순 암기하는 것이 아니라, "소수성이 낮으면 결합 확률이 높다"와 같은 생물학적 규칙을 모델이 학습하게 됨.
4. 데이터 분석 프로세스 (Workflow)
- 데이터 구성 확인 (Composition Analysis):
- Train과 Test의 고유값 교집합(Overlap) 비율 확인.
- Test에만 있는 'Unknown' 데이터의 실제 비중 파악.
- 전처리 (Preprocessing):
- 범주형: Label Encoding (Train 기준, Test의 새로운 값은 Unknown 처리).
- 서열형: Biopython으로 물리화학적 특징(수치) 추출.
- 모델링 방향 (Modeling):
- 맥락 정보(state, method)와 본질 정보(epitope 수치)를 모두 결합하여 학습.
- 데이터 불균형(Class Imbalance) 확인 후 가중치 조정.
✏️ 오늘의 질문
1. Epitope 서열은 각각의 알파벳이 중요한데 이를 다른 데이터 형식으로 변환하는 것은 적절한가?
2. Train에 없는 Test 고유값은 처리해야 하는가?
머신러닝 모델링에서 학습하지 못한 데이터가 나오는 것은 한계가 아니라 극복해야 할 변수며, 가용한 정보를 최대한 활용해 실험 후보군을 좁혀줌으로써 연구의 효율성을 극대화해야 한다.
📌추가로 해야 할 점
최종 프로젝트, 베이직
'품질관리(QAQC) 데이터 부트캠프(본캠프)' 카테고리의 다른 글
| 본캠프_17주차(월)_TIL(최종 프로젝트) (0) | 2026.01.05 |
|---|---|
| 본캠프_16주차(금)_TIL(최종 프로젝트) (0) | 2026.01.02 |
| 본캠프_16주차(화)_TIL(최종 프로젝트) (0) | 2025.12.30 |
| 본캠프_16주차(월)_TIL(최종 프로젝트 주제 선정) (1) | 2025.12.29 |
| 본캠프_15주차(금)_TIL(딥러닝, 고민해결소) (0) | 2025.12.26 |