2026/02 5

본캠프_22주차(금)_TIL(PPT & 대시보드 최종 정리)

✅ 오늘 한 것PPT & 대시보드 최종 정리✏️ 오늘 배운 점1. 튜터 피드백 및 반영 사항 (현황판 작성용)피드백 핵심: "수행 과정에 대한 논리적 근거 보완 요청"반영 사항:2-Stage 구조의 당위성: 1단계(CatBoost)의 High Recall로 후보를 확보하고, 2단계(XGBoost)의 High Precision으로 실험 리스크를 최소화하는 전략적 파이프라인 구축가중치(0.4:0.6) 선정 근거: 안정성 분석(Stability Analysis)을 통해 후보 선별의 일관성이 가장 높은 0.4 지점을 최적점으로 도출91% 노이즈 제거 효과: 단일 모델 대비 2-Stage 모델이 불필요한 음성 데이터(TN)를 91% 선제 제거하여 학습 집중도와 예측 신뢰도를 높인 점을 정량적으로 증명2. 핵심 분..

본캠프_22주차(목)_TIL(PPT 정리 & 대시보드 완료)

✅ 오늘 한 것PPT 정리 & 대시보드 완료✏️ 오늘 배운 점대시보드 완료오늘은 사용자가 대시보드에 접속하였을 때 어떠한 것을 할 수 있는 사이트인지를 확인할 수 있도록 정리하였다.https://huggingface.co/spaces/yunuk0/epitope PPT 정리오늘은 ppt를 확인하였을 때 적혀있는 내용을 기반으로 질문을 할 수 있는 요소들에 대한 근거를 작성하였다.왜 Linear B-cell Epitope인가? (연구 범위의 근거)신규 항원이나 바이러스 변이체의 경우 정확한 3D 구조 정보가 밝혀지지 않고 아미노산 서열만 존재하는 상황에서 사용한 PLM 모델(ESM-2, ProtT5)은 Linear Epitope를 분석하더라도 실제 입체 구조상에서 노출될 가능성이 높은 부위를 간접적으로 파악..

본캠프_22주차(수)_TIL(대시보드 수정)

✅ 오늘 한 것대시보드 수정✏️ 오늘 배운 점1. 브랜드 아이덴티티 구축 (Branding)팀의 아이디어와 프로젝트의 성격을 결합하여 명확한 브랜드명을 확정했습니다.프로젝트 명: Cellect Epitope (B-cell + Select + Epitope)로고 컨셉: 세포(Cell) 모티브 + 연두색(생명/성장) 컬러.UI 디테일: 기본 로딩바 대신, CSS를 활용해 팀 로고가 빙글빙글 회전하는 커스텀 로딩 화면을 구현하여 브랜딩 효과를 높이기로 했습니다.2. 텍스트 및 용어 고도화 (Copywriting)'데모' 느낌을 지우고, 전문 연구원들이 신뢰할 수 있는 학술적 용어로 텍스트를 전면 수정했습니다.용어 정립:'숙주' → '공여체(Donor)' 또는 '면역 환경' (의학적/생물학적 정확성 확보)'Bi..

본캠프_22주차(화)_TIL(PPT 제작)

✅ 오늘 한 것PPT 제작✏️ 오늘 배운 점1️⃣ 메인 페이지: 플랫폼의 가치 제안 (App Main)플랫폼의 설계 목적이 단순한 예측을 넘어 '실험 의사결정 지원'에 있음을 강조했습니다.연구 배경: 실제 에피토프는 1% 미만이라는 극단적 데이터 불균형 문제를 명시하고, 자원 낭비를 막기 위한 사전 필터링의 필요성을 역설했습니다.핵심 가설: 2-Stage(CatBoost + XGBoost) 구조를 통해 '노이즈 90% 제거'와 '결합 확신도 검증'이라는 단계적 전략을 수립했습니다.작동 원리: ProtT5(문맥)와 ESM-2(구조) 임베딩의 역할을 구분하고, Stage 1(탐색)과 Stage 2(검증)의 목적을 명확히 정의했습니다.설계 철학: 정확도(Accuracy) 대신 MCC 지표를 채택하고, 임계값(..

본캠프_21주차(월)_TIL(PPT 제작)

✅ 오늘 한 것PPT 제작✏️ 오늘 배운 점1. 모델링 전략: 2-Stage Filtering (Cascading Ensemble)핵심 개념: 1차 모델(CatBoost)로 넓게 그물을 쳐서 노이즈를 제거하고, 2차 모델(XGBoost)로 정밀하게 검증하는 직렬 구조입니다.도입 이유: 극심한 데이터 불균형 문제를 해결하기 위함입니다. 1차 필터링을 통해 음성 데이터(TN)를 90% 이상 선제적으로 제거함으로써, 2차 모델이 에피토프만의 미세한 특징 학습에 집중할 수 있는 환경을 조성했습니다.수치적 근거: 단일 모델과 최종 샘플 수(482개)는 동일하더라도, 2-Stage는 가짜 음성(FN)을 1,220개에서 909개로 줄여 유망 후보군을 더 많이 보호하고 데이터의 순도를 높였습니다.2. 성능 지표 및 모..