분류 전체보기 157

본캠프_22주차(금)_TIL(PPT & 대시보드 최종 정리)

✅ 오늘 한 것PPT & 대시보드 최종 정리✏️ 오늘 배운 점1. 튜터 피드백 및 반영 사항 (현황판 작성용)피드백 핵심: "수행 과정에 대한 논리적 근거 보완 요청"반영 사항:2-Stage 구조의 당위성: 1단계(CatBoost)의 High Recall로 후보를 확보하고, 2단계(XGBoost)의 High Precision으로 실험 리스크를 최소화하는 전략적 파이프라인 구축가중치(0.4:0.6) 선정 근거: 안정성 분석(Stability Analysis)을 통해 후보 선별의 일관성이 가장 높은 0.4 지점을 최적점으로 도출91% 노이즈 제거 효과: 단일 모델 대비 2-Stage 모델이 불필요한 음성 데이터(TN)를 91% 선제 제거하여 학습 집중도와 예측 신뢰도를 높인 점을 정량적으로 증명2. 핵심 분..

본캠프_22주차(목)_TIL(PPT 정리 & 대시보드 완료)

✅ 오늘 한 것PPT 정리 & 대시보드 완료✏️ 오늘 배운 점대시보드 완료오늘은 사용자가 대시보드에 접속하였을 때 어떠한 것을 할 수 있는 사이트인지를 확인할 수 있도록 정리하였다.https://huggingface.co/spaces/yunuk0/epitope PPT 정리오늘은 ppt를 확인하였을 때 적혀있는 내용을 기반으로 질문을 할 수 있는 요소들에 대한 근거를 작성하였다.왜 Linear B-cell Epitope인가? (연구 범위의 근거)신규 항원이나 바이러스 변이체의 경우 정확한 3D 구조 정보가 밝혀지지 않고 아미노산 서열만 존재하는 상황에서 사용한 PLM 모델(ESM-2, ProtT5)은 Linear Epitope를 분석하더라도 실제 입체 구조상에서 노출될 가능성이 높은 부위를 간접적으로 파악..

본캠프_22주차(수)_TIL(대시보드 수정)

✅ 오늘 한 것대시보드 수정✏️ 오늘 배운 점1. 브랜드 아이덴티티 구축 (Branding)팀의 아이디어와 프로젝트의 성격을 결합하여 명확한 브랜드명을 확정했습니다.프로젝트 명: Cellect Epitope (B-cell + Select + Epitope)로고 컨셉: 세포(Cell) 모티브 + 연두색(생명/성장) 컬러.UI 디테일: 기본 로딩바 대신, CSS를 활용해 팀 로고가 빙글빙글 회전하는 커스텀 로딩 화면을 구현하여 브랜딩 효과를 높이기로 했습니다.2. 텍스트 및 용어 고도화 (Copywriting)'데모' 느낌을 지우고, 전문 연구원들이 신뢰할 수 있는 학술적 용어로 텍스트를 전면 수정했습니다.용어 정립:'숙주' → '공여체(Donor)' 또는 '면역 환경' (의학적/생물학적 정확성 확보)'Bi..

본캠프_22주차(화)_TIL(PPT 제작)

✅ 오늘 한 것PPT 제작✏️ 오늘 배운 점1️⃣ 메인 페이지: 플랫폼의 가치 제안 (App Main)플랫폼의 설계 목적이 단순한 예측을 넘어 '실험 의사결정 지원'에 있음을 강조했습니다.연구 배경: 실제 에피토프는 1% 미만이라는 극단적 데이터 불균형 문제를 명시하고, 자원 낭비를 막기 위한 사전 필터링의 필요성을 역설했습니다.핵심 가설: 2-Stage(CatBoost + XGBoost) 구조를 통해 '노이즈 90% 제거'와 '결합 확신도 검증'이라는 단계적 전략을 수립했습니다.작동 원리: ProtT5(문맥)와 ESM-2(구조) 임베딩의 역할을 구분하고, Stage 1(탐색)과 Stage 2(검증)의 목적을 명확히 정의했습니다.설계 철학: 정확도(Accuracy) 대신 MCC 지표를 채택하고, 임계값(..

본캠프_21주차(월)_TIL(PPT 제작)

✅ 오늘 한 것PPT 제작✏️ 오늘 배운 점1. 모델링 전략: 2-Stage Filtering (Cascading Ensemble)핵심 개념: 1차 모델(CatBoost)로 넓게 그물을 쳐서 노이즈를 제거하고, 2차 모델(XGBoost)로 정밀하게 검증하는 직렬 구조입니다.도입 이유: 극심한 데이터 불균형 문제를 해결하기 위함입니다. 1차 필터링을 통해 음성 데이터(TN)를 90% 이상 선제적으로 제거함으로써, 2차 모델이 에피토프만의 미세한 특징 학습에 집중할 수 있는 환경을 조성했습니다.수치적 근거: 단일 모델과 최종 샘플 수(482개)는 동일하더라도, 2-Stage는 가짜 음성(FN)을 1,220개에서 909개로 줄여 유망 후보군을 더 많이 보호하고 데이터의 순도를 높였습니다.2. 성능 지표 및 모..

본캠프_20주차(금)_TIL(PPT 제작)

✅ 오늘 한 것PPT 제작✏️ 오늘 배운 점PPT 제작T-cell: 적에게 직접 찾아가지 않고 항체(Antibody)를 생성하여 항원 무력화B-cell: 적(바이러스)이 숨어 있는 감염된 세포를 직접 찾아가서 제거구분B-cellT-cell핵심 역할항체(Antibody) 생산감염된 세포 직접 파괴 또는 면역 지휘면역 유형체액성 면역(혈액/체액 내 병원균 공격)세포성 면역(세포 내부 병원균 공격)항원 인식항원의 3차원 구조를 직접 인식MHC가 제시하는 선형 펩타이드 조각만 인식 Conformational Epitope: Linear Epitope: ✏️ 오늘의 질문 📌추가로 해야 할 점PPT 제작

본캠프_20주차(목)_TIL(PPT 제작 & 대시보드 기능 구현)

✅ 오늘 한 것PPT 제작 & 대시보드 기능 구현✏️ 오늘 배운 점대시보드 기능 구현ESM-2 Attention MapAttention Map: 서열 내의 모든 아미노산 쌍 사이의 관계를 계산하여 각 아미노산이 다른 아미노산들에 주는 가중치를 N x N 행렬 형태로 나타낸 것제공되는 Antigen 서열에서 아미노산 간의 물리적인 상호작용에 의해 강한 어텐션을 형성하고 있다면 양성이라고 판단할 수 있을 안정적인 결합 부위라고 판단했다고 전달함.사용 이유: Attention Map은 에피토프 후보군 내에서 물리화학적 결합을 주도하는 핵심 잔기(Key Residues)들 사이의 네트워크를 알려주어 모델 판단의 생물학적 타당성을 입증하는 근거로 사용할 수 있다. In-silico Mutagenesis 실제 실..

본캠프_20주차(수)_TIL(머신러닝 최적화 & 피드백 & 대시보드 기능 구현)

✅ 오늘 한 것대시보드 기능 구현 & ESM-2 기반 임베딩 진행 후 머신러닝 최적화 & 피드백✏️ 오늘 배운 점피드백1. 프로젝트 선정 배경 설명 시 실제 백신 개발 현장에서 마주하는 허들(예: 구조적 에피토프의 비율 등)을 기획 단계에서 언급하면 주제의 깊이가 생길 것이다. → 최종 발표 시 조금 더 깊은 배경 설명을 위하여 관련 정보를 추가적으로 기재할 것2. 95%에 가까운 데이터 불균형이 있었는데 이를 수정하지 않을 경우 모델 평가 지표에 어떠한 영향을 미쳤을지에 대한 언급이 추가되면 좋을 것이다. 3. 대시보드 구축 시 임계값 변화에 따라 결과가 어떻게 달라지는지 확인할 수 있는 요소가 있다면 좋을 것이다.4. 대시보드에 SHAP 기반의 XAI을 도입할 때 특정 아미노산 서열 패턴이 예측 결과..

본캠프_20주차(화)_TIL(대시보드 구현)

✅ 오늘 한 것대시보드 구현✏️ 오늘 배운 점Page 1 예시 Antigen 서열MGRLLSPRGKELHTPQEQFPQQQQFPQPQQFPQQQILQQHQIPQQPQQFPQQQQFLQQQQIPQQQIPQQHQIPQQPQQFPQQQFPQQQQFPQQHQSPQQQFPQQQFPQQQLPQQEFSQQQISQQPQQLPQQQQIPQQPQQFLQQQQFPQQQPPQQHQFPQQQLPQQQQIPQQQQIPQQPQQIPQQQQIPQQPKQFPQQQFPQQQFPQQQFPQQEFPQQQQFPQQQIAQQPQQLPQQQQIPQQPQLFPQQQQFPQQQSPQQQQFPQQQFPQQQQLPQQQFPQPQQIPQQQQIPQQPQQFPQQQFPQQQQFPQQQEFPQQQFPQQQFHQQQLPQQQPSGSDVISICGL 현재는 슬라..

본캠프_20주차(월)_TIL(머신러닝 모델 최적화 & 코드 정리)

✅ 오늘 한 것최종 프로젝트✏️ 오늘 배운 점오늘은 머신러닝 모델 최적화를 진행하고 데이터 분석 과정에서 진행된 코드들을 정리하여 어떻게 데이터 분석 과정이 이루어졌는지 확인하는 과정을 가졌다. 라이브러리 설치 & 설정라이브러리 설치#!pip install transformers sentencepiece accelerate#!pip install catboost#!pip install koreanize_matplotlib#!pip install pandas numpy tqdm라이브러리 설정import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport koreanize_matplotlibimport seaborn as snsimport..