품질관리(QAQC) 데이터 부트캠프(본캠프)

본캠프_16주차(월)_TIL(최종 프로젝트 주제 선정)

Wat_zy 2025. 12. 29. 08:35

✅ 오늘 한 것

스탠다드, AI 서비스 개발, 최종 프로젝트 주제 선정


✏️ 오늘 배운 점

스탠다드

AWS RCF

데이터를 랜덤하게 잘라 나누는 과정(Random Cut)에서 이상치는 정상보다 더 빨리 분리된다는 아이디어로 작동한다.

  • 정상 데이터
    • 서로 밀집
    • 분리하려면 여러 번 잘라야 함 → 깊은 트리 → 정상
  • 이상 데이터
    • 멀리 떨어져 있음
    • 금방 고립됨 → 얕은 트리 → 이상

Shingling (데이터 묶음화)

  • 점 하나씩 보지 않고
  • → [xₜ , xₜ₊₁ , xₜ₊₂ …] 형태로 연속 구간 단위로 묶음
  • 효과
    • “값”뿐 아니라 Shape(모양, 흐름)을 학습
    • 상승/하강 패턴 깨짐을 감지 가능
  • OpenSearch 설정: shingle_size

통합 이상탐지 시스템 구축 전략 (Manufacturing Anomaly Detection Blueprint)

이상탐지 전략의 핵심

계층적 방어선(Hierarchical Defense Line) 구축

방어선 담당 역할 주요 알고리즘 의도
제1 방어선 (즉각 대응) 하드웨어 고장, 통신 오류, 급격한 이상 • Point Anomaly • Derivative(기울기) “지금 당장 멈춰야 할 문제”를 잡기 위함
제2 방어선 (공정 관리) 추세 변화, 품질 흔들림 관리 • SPC Zone Rules • CUSUM • Moving Avg 품질 유지 & 관리 기준을 지키기 위함
제3 방어선 (사전 예지) 성능 저하, 장비 노후화, 패턴 이상 • Isolation Forest • LSTM-AE • Feature Grouping, AWS RCF “망가지기 전” 조기 감지 목적

 

실전 파이프라인: Data → Action

  1. 도메인 기반 변수 그룹화 (Variable Grouping)
    • 방법
      • 물리 장치 단위로 묶기
    • 효과
      • 원인 파악 속도를 극적으로 단축
      • 어디가 문제인지 명확히 전달
      • 유지보수팀 의사결정 속도 ↑
  2. 데이터 성격에 따른 알고리즘 배치
    데이터 성격 추천 기법 이유
    안정적인 수치형 SPC Rule + Elliptic Envelope 공정 기준 관리에 최적
    변동성이 큰 데이터 Isolation Forest + CUSUM 분포 기반 & 추세 기반 동시 반영
    주기/패턴 존재 Ruptures / Change Point Detection 패턴 붕괴 시점 포착
    포인트
    • 모든 곳에 딥러닝 사용할 필요 X
      실제로는 LSTM AUTOencoder 많이 사용
    • 제조는 "해석 가능한 모델 + 운영 가능성"이 중요
  3. 앙상블 점수 산출 (Anomaly Scoring)
    1. Soft Voting
      • 각 모델의 이상 확률 평균
      • 안정적이고 오탐지 감소
    2. Logic Gate
      • 실제 현장 적용 시 신뢰도 매우 상승
      • 하나의 이상 문제가 아닌 여러 이상 문제 조건이 적합할 때 알람
  4. 동적 임계치 (Dynamic Threshold)
    • 고정된 임계치는 공정 변화에 약함
    • 추천 방식
      • Gaussian Tail Probability
      • 최근 30일 기준 Rolling Threshold
      • BOCPD 기반 환경 적응형 Threshold

Early Warning (사전 예지)

망가지고 나서의 알람이 아닌 망가지기 직전 신호를 잡는 것이 목표

핵심 기법

  1. 잔차(Residual) 추적
    • 정상 모델 예측값 vs 실제값 차이 증가 추적
    • AE / Forecasting / Regression 기반 가능
  2. 기울기(Derivative) 모니터링
    • 값은 정상 범위
    • BUT 증가 속도/감소 속도가 평소 1.5배라면 위험
  3. 분산(Variance) 변화 감지
    • 고장 직전 진동 or 전류 떨림 증가
    • Variance Rule 매우 효과적

Early Warning 적용 시 효과

  • 다운타임 감소
  • 예방 유지보수 가능
  • 계획정비 전환 가능
  • 불량률 감소 → COPQ 절감

운영 시 Best Practice

  1. 알람 피로도 관리 (Alarm Fatigue)
    • 알람이 너무 많으면 사람은 결국 보지 않음.
    • 추천
      • SPC Rule 2, 4, 5 위주 설계
      • 지속성 + 패턴 중심 설계
  2. 지속적 모델 재학습
    • 계절성 및 개인적 요소에 의해 정상의 기준이 변함.
    • 권장 요소
      • BOCPD 기반 환경 적응
      • Rolling Window 재학습
      • 분기별 Calibration
  3. 전문가 피드백 반영
    • AI는 이상으로 판단하지만 현장은 정상으로 판단하는 경우 - 데이터 재학습에 반드시 반영 → False Positive 지속 감소
    • 현장 친화적 시스템 조건
      • 이유가 설명 가능
      • 알람이 과하지 않음
      • 책임 소재가 명확
      • 도움 되는 시스템이라고 현장이 느끼게 해야 함

최종 프로젝트

제약∙바이오 분야에서 데이터를 정하기 위하여 주어진 데이터셋과 Kaggle, DACON, AICompany 등을 찾아보면서 현재 진행 중인 제약∙바이오 공모전, 경진대회가 있는지 확인해 보았다. DACON, AICompany에는 현재 진행 중인 경진대회가 없었고 Kaggle에는 진행 중인 데이터셋이 존재했다. 그렇기에 주어진 데이터셋과 Kaggle에서 발견한 데이터셋 중 하나를 선정하는 과정을 거쳤다.

 

1. 백신 및 면역치료제 개발을 위한 항원-항체 반응 예측

2. 심혈관 질환 데이터셋

3. 도킹된 단백질-리간드 구조의 실험 검증 성공 여부 예측 데이터셋

4. CAFA 6 Protein Function Prediction

 

이 중 1,4번을 1차적으로 선별하고 이후 1번을 최종적으로 선정하게 되었다. 

데이터 설명으로는 분류 분석을 진행하면 될 것으로 판단이 되지만 생물학적 시퀀스 추론도 가능할 것으로 보이기에 내일 데이터를 하나하나 확인해 보며 어떻게 구성을 이어가야 할지 확인이 필요해 보인다.


📌추가로 해야 할 점

최종 프로젝트