✅ 오늘 한 것
스탠다드, AI 서비스 개발, 최종 프로젝트 주제 선정
✏️ 오늘 배운 점
스탠다드
AWS RCF
데이터를 랜덤하게 잘라 나누는 과정(Random Cut)에서 이상치는 정상보다 더 빨리 분리된다는 아이디어로 작동한다.
- 정상 데이터
- 서로 밀집
- 분리하려면 여러 번 잘라야 함 → 깊은 트리 → 정상
- 이상 데이터
- 멀리 떨어져 있음
- 금방 고립됨 → 얕은 트리 → 이상

Shingling (데이터 묶음화)
- 점 하나씩 보지 않고
- → [xₜ , xₜ₊₁ , xₜ₊₂ …] 형태로 연속 구간 단위로 묶음
- 효과
- “값”뿐 아니라 Shape(모양, 흐름)을 학습
- 상승/하강 패턴 깨짐을 감지 가능
- OpenSearch 설정: shingle_size
통합 이상탐지 시스템 구축 전략 (Manufacturing Anomaly Detection Blueprint)
이상탐지 전략의 핵심
계층적 방어선(Hierarchical Defense Line) 구축
| 방어선 | 담당 역할 | 주요 알고리즘 | 의도 |
| 제1 방어선 (즉각 대응) | 하드웨어 고장, 통신 오류, 급격한 이상 | • Point Anomaly • Derivative(기울기) | “지금 당장 멈춰야 할 문제”를 잡기 위함 |
| 제2 방어선 (공정 관리) | 추세 변화, 품질 흔들림 관리 | • SPC Zone Rules • CUSUM • Moving Avg | 품질 유지 & 관리 기준을 지키기 위함 |
| 제3 방어선 (사전 예지) | 성능 저하, 장비 노후화, 패턴 이상 | • Isolation Forest • LSTM-AE • Feature Grouping, AWS RCF | “망가지기 전” 조기 감지 목적 |
실전 파이프라인: Data → Action
- 도메인 기반 변수 그룹화 (Variable Grouping)
- 방법
- 물리 장치 단위로 묶기
- 효과
- 원인 파악 속도를 극적으로 단축
- 어디가 문제인지 명확히 전달
- 유지보수팀 의사결정 속도 ↑
- 방법
- 데이터 성격에 따른 알고리즘 배치
포인트데이터 성격 추천 기법 이유 안정적인 수치형 SPC Rule + Elliptic Envelope 공정 기준 관리에 최적 변동성이 큰 데이터 Isolation Forest + CUSUM 분포 기반 & 추세 기반 동시 반영 주기/패턴 존재 Ruptures / Change Point Detection 패턴 붕괴 시점 포착 - 모든 곳에 딥러닝 사용할 필요 X
실제로는 LSTM AUTOencoder 많이 사용 - 제조는 "해석 가능한 모델 + 운영 가능성"이 중요
- 모든 곳에 딥러닝 사용할 필요 X
- 앙상블 점수 산출 (Anomaly Scoring)
- Soft Voting
- 각 모델의 이상 확률 평균
- 안정적이고 오탐지 감소
- Logic Gate
- 실제 현장 적용 시 신뢰도 매우 상승
- 하나의 이상 문제가 아닌 여러 이상 문제 조건이 적합할 때 알람
- Soft Voting
- 동적 임계치 (Dynamic Threshold)
- 고정된 임계치는 공정 변화에 약함
- 추천 방식
- Gaussian Tail Probability
- 최근 30일 기준 Rolling Threshold
- BOCPD 기반 환경 적응형 Threshold
Early Warning (사전 예지)
망가지고 나서의 알람이 아닌 망가지기 직전 신호를 잡는 것이 목표
핵심 기법
- 잔차(Residual) 추적
- 정상 모델 예측값 vs 실제값 차이 증가 추적
- AE / Forecasting / Regression 기반 가능
- 기울기(Derivative) 모니터링
- 값은 정상 범위
- BUT 증가 속도/감소 속도가 평소 1.5배라면 위험
- 분산(Variance) 변화 감지
- 고장 직전 진동 or 전류 떨림 증가
- Variance Rule 매우 효과적
Early Warning 적용 시 효과
- 다운타임 감소
- 예방 유지보수 가능
- 계획정비 전환 가능
- 불량률 감소 → COPQ 절감
운영 시 Best Practice
- 알람 피로도 관리 (Alarm Fatigue)
- 알람이 너무 많으면 사람은 결국 보지 않음.
- 추천
- SPC Rule 2, 4, 5 위주 설계
- 지속성 + 패턴 중심 설계
- 지속적 모델 재학습
- 계절성 및 개인적 요소에 의해 정상의 기준이 변함.
- 권장 요소
- BOCPD 기반 환경 적응
- Rolling Window 재학습
- 분기별 Calibration
- 전문가 피드백 반영
- AI는 이상으로 판단하지만 현장은 정상으로 판단하는 경우 - 데이터 재학습에 반드시 반영 → False Positive 지속 감소
- 현장 친화적 시스템 조건
- 이유가 설명 가능
- 알람이 과하지 않음
- 책임 소재가 명확
- 도움 되는 시스템이라고 현장이 느끼게 해야 함
최종 프로젝트
제약∙바이오 분야에서 데이터를 정하기 위하여 주어진 데이터셋과 Kaggle, DACON, AICompany 등을 찾아보면서 현재 진행 중인 제약∙바이오 공모전, 경진대회가 있는지 확인해 보았다. DACON, AICompany에는 현재 진행 중인 경진대회가 없었고 Kaggle에는 진행 중인 데이터셋이 존재했다. 그렇기에 주어진 데이터셋과 Kaggle에서 발견한 데이터셋 중 하나를 선정하는 과정을 거쳤다.
1. 백신 및 면역치료제 개발을 위한 항원-항체 반응 예측
2. 심혈관 질환 데이터셋
3. 도킹된 단백질-리간드 구조의 실험 검증 성공 여부 예측 데이터셋
4. CAFA 6 Protein Function Prediction
이 중 1,4번을 1차적으로 선별하고 이후 1번을 최종적으로 선정하게 되었다.
데이터 설명으로는 분류 분석을 진행하면 될 것으로 판단이 되지만 생물학적 시퀀스 추론도 가능할 것으로 보이기에 내일 데이터를 하나하나 확인해 보며 어떻게 구성을 이어가야 할지 확인이 필요해 보인다.
📌추가로 해야 할 점
최종 프로젝트
'품질관리(QAQC) 데이터 부트캠프(본캠프)' 카테고리의 다른 글
| 본캠프_16주차(수)_TIL(최종 프로젝트) (0) | 2025.12.31 |
|---|---|
| 본캠프_16주차(화)_TIL(최종 프로젝트) (0) | 2025.12.30 |
| 본캠프_15주차(금)_TIL(딥러닝, 고민해결소) (0) | 2025.12.26 |
| 본캠프_15주차(수)_TIL(클러스터링, 차원 축소, 이상 탐지, AI 서비스 개발) (0) | 2025.12.24 |
| 본캠프_15주차(화)_TIL(앙상블 기법, 베이직, 스탠다드) (0) | 2025.12.23 |