2026/01 22

본캠프_20주차(금)_TIL(PPT 제작)

✅ 오늘 한 것PPT 제작✏️ 오늘 배운 점PPT 제작T-cell: 적에게 직접 찾아가지 않고 항체(Antibody)를 생성하여 항원 무력화B-cell: 적(바이러스)이 숨어 있는 감염된 세포를 직접 찾아가서 제거구분B-cellT-cell핵심 역할항체(Antibody) 생산감염된 세포 직접 파괴 또는 면역 지휘면역 유형체액성 면역(혈액/체액 내 병원균 공격)세포성 면역(세포 내부 병원균 공격)항원 인식항원의 3차원 구조를 직접 인식MHC가 제시하는 선형 펩타이드 조각만 인식 Conformational Epitope: Linear Epitope: ✏️ 오늘의 질문 📌추가로 해야 할 점PPT 제작

본캠프_20주차(목)_TIL(PPT 제작 & 대시보드 기능 구현)

✅ 오늘 한 것PPT 제작 & 대시보드 기능 구현✏️ 오늘 배운 점대시보드 기능 구현ESM-2 Attention MapAttention Map: 서열 내의 모든 아미노산 쌍 사이의 관계를 계산하여 각 아미노산이 다른 아미노산들에 주는 가중치를 N x N 행렬 형태로 나타낸 것제공되는 Antigen 서열에서 아미노산 간의 물리적인 상호작용에 의해 강한 어텐션을 형성하고 있다면 양성이라고 판단할 수 있을 안정적인 결합 부위라고 판단했다고 전달함.사용 이유: Attention Map은 에피토프 후보군 내에서 물리화학적 결합을 주도하는 핵심 잔기(Key Residues)들 사이의 네트워크를 알려주어 모델 판단의 생물학적 타당성을 입증하는 근거로 사용할 수 있다. In-silico Mutagenesis 실제 실..

본캠프_20주차(수)_TIL(머신러닝 최적화 & 피드백 & 대시보드 기능 구현)

✅ 오늘 한 것대시보드 기능 구현 & ESM-2 기반 임베딩 진행 후 머신러닝 최적화 & 피드백✏️ 오늘 배운 점피드백1. 프로젝트 선정 배경 설명 시 실제 백신 개발 현장에서 마주하는 허들(예: 구조적 에피토프의 비율 등)을 기획 단계에서 언급하면 주제의 깊이가 생길 것이다. → 최종 발표 시 조금 더 깊은 배경 설명을 위하여 관련 정보를 추가적으로 기재할 것2. 95%에 가까운 데이터 불균형이 있었는데 이를 수정하지 않을 경우 모델 평가 지표에 어떠한 영향을 미쳤을지에 대한 언급이 추가되면 좋을 것이다. 3. 대시보드 구축 시 임계값 변화에 따라 결과가 어떻게 달라지는지 확인할 수 있는 요소가 있다면 좋을 것이다.4. 대시보드에 SHAP 기반의 XAI을 도입할 때 특정 아미노산 서열 패턴이 예측 결과..

본캠프_20주차(화)_TIL(대시보드 구현)

✅ 오늘 한 것대시보드 구현✏️ 오늘 배운 점Page 1 예시 Antigen 서열MGRLLSPRGKELHTPQEQFPQQQQFPQPQQFPQQQILQQHQIPQQPQQFPQQQQFLQQQQIPQQQIPQQHQIPQQPQQFPQQQFPQQQQFPQQHQSPQQQFPQQQFPQQQLPQQEFSQQQISQQPQQLPQQQQIPQQPQQFLQQQQFPQQQPPQQHQFPQQQLPQQQQIPQQQQIPQQPQQIPQQQQIPQQPKQFPQQQFPQQQFPQQQFPQQEFPQQQQFPQQQIAQQPQQLPQQQQIPQQPQLFPQQQQFPQQQSPQQQQFPQQQFPQQQQLPQQQFPQPQQIPQQQQIPQQPQQFPQQQFPQQQQFPQQQEFPQQQFPQQQFHQQQLPQQQPSGSDVISICGL 현재는 슬라..

본캠프_20주차(월)_TIL(머신러닝 모델 최적화 & 코드 정리)

✅ 오늘 한 것최종 프로젝트✏️ 오늘 배운 점오늘은 머신러닝 모델 최적화를 진행하고 데이터 분석 과정에서 진행된 코드들을 정리하여 어떻게 데이터 분석 과정이 이루어졌는지 확인하는 과정을 가졌다. 라이브러리 설치 & 설정라이브러리 설치#!pip install transformers sentencepiece accelerate#!pip install catboost#!pip install koreanize_matplotlib#!pip install pandas numpy tqdm라이브러리 설정import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport koreanize_matplotlibimport seaborn as snsimport..

본캠프_19주차(금)_TIL(최종 프로젝트)

✅ 오늘 한 것최종 프로젝트✏️ 오늘 배운 점머신러닝 모델을 돌릴 때 cpu로만 돌리면 한계점이 많다는 것을 확인할 수 있었다.상대적으로 Precision & MCC가 높은 것들을 우선적으로 선별하여 CatBoost, LightGBM, SVM을 1차 선별할 수 있었다.이후, CatBoost는 이전에도 1차 선별(High Recall)에 사용했던 앙상블 모델의 일부였기에 그대로 1차 선별에 활용하고 2차 선별은 Precision이 높았던 LightGBM과 SVM 중 하나를 택해야했다.하지만, SVM이 이 프로젝트에서 큰 도움이 된 레퍼런스(논문)에서 좋은 성능을 보였다는 것을 알고 있었기에 SVM을 진행하기 위해서 모델 학습을 돌렸으나 데이터 양이 많아서 돌리지를 못하면서 LightGBM로 2차 선별 모델..

최종 프로젝트 중간 점검

데이터 불균형과 싸우며 최적의 모델을 찾기까지1. 프로젝트 개요 & 목표주제: 항원(Antigen) 데이터를 활용한 질병/상태 분류 예측 모델 개발핵심 목표: 단순 정확도가 아닌 실질적인 예측력을 나타내는 MCC가 0.3 이상 달성하는 모델 선정모델의 목적에 따라 High Recall 또는 High Precision을 선택적으로 최적화2. 주요 난관 및 애로사항 (The Struggle)🚨 1. "99%의 함정": 극심한 데이터 불균형 (Class Imbalance)문제 상황: Negative 데이터가 압도적으로 많아, 모델이 무조건 "Negative"로만 예측해도 정확도가 90% 이상 나오는 현상 발생. 정작 중요한 Positive(질병/상태)는 전혀 맞추지 못함.힘들었던 점:단순히 데이터를 늘릴 수..

본캠프_19주차(목)_TIL(최종 프로젝트)

✅ 오늘 한 것최종 프로젝트✏️ 오늘 배운 점1. 하이퍼 파라미터 튜닝이란?머신러닝 모델이 학습을 시작하기 전에 사용자가 직접 설정해야 하는 설정값(Hyperparameter)을 최적화하는 과정. 모델의 성능(정확도 등)을 극대화하기 위해 필수적인 단계이다.2. GridSearchCVScikit-learn에서 제공하는 가장 대표적인 튜닝 방법. 사용자가 지정한 파라미터의 모든 조합(Grid)을 시도하여 최적의 값을 찾는다.주요 특징교차 검증(Cross Validation) 지원: 단순히 데이터를 한 번 나누는 것이 아니라, 여러 번 나누어 검증하므로 신뢰도가 높다.전수 조사: 지정된 범위 내의 모든 경우의 수를 확인하므로, 범위 내 최적해를 보장한다. (단, 시간이 오래 걸릴 수 있음)3. 구현 코드 (..

본캠프_19주차(수)_TIL(최종 프로젝트: 중간 발표회 & 피드백)

✅ 오늘 한 것최종 프로젝트✏️ 오늘 배운 점1. 2-Stage Filtering 전략의 핵심 논리"왜 모델을 두 단계로 나누었는가?" 라는 질문에 대한 답변입니다.문제 의식: 데이터 불균형(20:1)이 심해 단일 모델로는 Recall(놓치지 않음)과 Precision(정확함)을 동시에 잡기 불가능했습니다.Funnel 구조:Stage 1 (거름망): Recall 극대화가 목표. 확실한 오답(Easy Negative)을 제거하여 불균형을 완화(20:1 → 5:1)합니다.Stage 2 (현미경): Precision 극대화가 목표. 남은 후보 중 진짜와 가짜(Hard Negative)를 정밀하게 구분합니다.2. 데이터 개념 정립Qualitative Binding: 정성적 판정 (O/X, 붙었나 안 붙었나).A..

본캠프_19주차(화)_TIL(최종 프로젝트)

✅ 오늘 한 것최종 프로젝트✏️ 오늘 배운 점Confusion MatrixTP: 진짜 양성(모델이 양성이라고 예측하고 실제로 양성인 경우)FN: 가짜 음성(모델이 음성이라고 예측했으나 실제로는 양성인 경우)FP: 가짜 양성(모델이 양성이라고 예측했으나 실제로는 음성인 경우)TN: 진짜 음성(모델이 음성이라고 예측하고 실제로 음성인 경우)1. 🎯 프로젝트 목표 및 시나리오 확정목표: 연구자가 입력한 항원 데이터를 기반으로 실험 성공 확률이 높은 후보를 추천해주는 대시보드 백엔드 구축.구조 (Funnel 방식):Stage 1 (High Recall): "생물학적 가능성 탐색"입력: Antigen(서열), Disease, State역할: 실험 방법과 무관하게, 반응할 가능성이 있는 후보를 넓게 확보 (Rec..