✅ 오늘 한 것
실전 프로젝트
✏️ 오늘 배운 점
머신러닝 모델링을 위해 진행한 전처리 과정
Diff(차분): 추세 제거 & 범위 제한
데이터의 정상성 확보
Lag(시차): 단기 기억
바로 직전, 혹은 그 전의 상태를 알려준다.
Rolling(이동평균): 장기 추세 & 노이즈 제거
특정 구간의 평균적인 흐름 확인
머신러닝 모델링
| Model | R2 Score | Final Yield Error(%) |
| LightGBM | 0.951 | 4.84 |
| XGBoost | 0.950 | 5.30 |
| RandomForest | 0.942 | 4.86 |
🌟 앙상블(Ensemble) 모델 최종 성능
- 평균 R2 Score : 0.9523
- 평균 Final Yield Error: 5.02%
| 순위 | 변수명 (Feature) | 중요도 (Importance) | 변수 역할 (Role) | 비즈니스 해석 |
| 1 | Fg_lag1 | 0.2072 | 제어 이력 | 직전 시점의 공급량. 바로 직전에 먹이를 얼마나 줬는지가 현재 생산 속도에 가장 큰 영향을 줌. (즉각적인 반응성) |
| 2 | Fg | 0.1328 | 제어 변수 (MV) | 현재 공급량. 현재 시점에 투입되는 기체/당 공급 유량이 생산성을 결정짓는 핵심 키(Key)임. |
| 3 | S | 0.0822 | 상태 변수 (PV) | 기질 농도. 탱크 내에 남아있는 먹이의 양. 너무 적으면 굶고, 너무 많으면 저해(Inhibition)가 일어날 수 있음. |
| 4 | DO | 0.0540 | 핵심 지표 (PV) | 용존 산소. 미생물의 호흡 상태(건강)를 나타내는 필수 모니터링 지표. |
| 5 | V_1d | 0.0452 | 환경 변화 | 부피의 변화 속도. 배양액이 차오르는 속도가 생산성과 연관됨. |
| 6 | S_lag1 | 0.0347 | 상태 이력 | 직전 시점의 기질 농도. 과거의 영양 상태가 현재의 대사 활동에 영향을 미침. |
| 7 | OUR | 0.0345 | 대사 지표 | 산소 섭취율. 미생물이 얼마나 활발하게 산소를 소비하며 활동 중인지 보여줌. |
| 8 | V | 0.0320 | 환경 변수 | 현재 부피. 반응기 내 배양액의 총량. |
| 9 | CER_roll_mean3 | 0.0319 | 대사 추세 | 최근 3시점 간 이산화탄소 배출율의 평균. 발효 상태의 안정적인 흐름을 반영. |
| 10 | CER_lag2 | 0.0306 | 대사 이력 | 2시점 전의 이산화탄소 배출량. |
도메인 지식
1. 공정의 최종 목표인 핵심 변수
P: 페니실린 농도 (g/L). 배양액 1리터당 페니실린이 몇 그램 들어있는가
Total_Penicillin: 총 생산량(g). 농도(P) * 전체 부피(V)
Productivity: 생산성(dP/dt) 시간당 페니실린이 생성되는 속도 (APC의 핵심 타겟)
Yield: 수율. 투입된 기질 대비 페니실린이 얼마나 생성되는가
2. 제어 변수
Fs: 기질 주입 속도 (L/h). 시간당 미생물에게 주는 먹이의 공급량
Fg: 공기 주입 속도 (L/h). 시간당 넣어주는 공기의 양
F_oil: 오일 주입 속도 (L/h). 시간당 오일의 양
Fc: 냉각수/온수 유량 (L/h). 시간당 온도 유지를 위한 사용되는 물의 양
Pressure: 내부 압력(bar)
3. 환경 및 상태 변수
S: 기질 농도 (g/L). 탱크 내의 먹이의 양
DO: 용존 산소량 (mg/L). 배양액 내의 산소량
pH: 산도 (6.2~7.0 유지)
T: 온도 (297.15~301.15K 유지) -- (24~28℃ 유지)
V: 부피 (L). 배양액 총량
4. 대사 활동 지표
OUR: 산소 섭취율. 미생물이 산소를 얼마나 빨리 소모하는가
CER: 이산화탄소 배출율. 미생물이 산소 호흡 후 내뱉는 CO2의 발생 속도
Q: 발열량 (KJ)
CO2_out: 배기가스 내 CO2 농도(%). 반응기 밖으로 빠져나가는 공기 중 이산화탄소 비율
O2_out: 배기가스 내 O2 농도(%). 반응기 밖으로 빠져나가는 공기 중 산소 비율
시계열
Statistical Process Control(SPC): 통계적 공정관리
제품이 완성되는 시점에서 사후검사를 하는 것이 아닌 생산 공정 자체를 지속적으로 감시하는 데 집중하며 제품을 모니터링하면서 각 공정별로 정한 Contol 범위 이상의 quality를 찾아내는 생산 공정 모니터링
±3σ 이상이 아니더라도 -2σ ~ -1σ, +1σ ~ +2σ에 속한다면 공정에서 일부 이상 징후가 나타났다고 볼 수 있기에 계속해서 값이 이 영역에 포함된다면 공정 이상을 의심해야 한다.
| 구간 이름 | 위치 (기준: 평균 μ) | 설명 |
| Zone A | ±2σ ~ ±3σ 사이 | 심각한 경고 |
| Zone B | ±1σ ~ ±2σ 사이 | 경고 |
| Zone C | 평균 ~ ±1σ 사이 | 정상범위 |
SPC의 주요 Zone Rule
| Rule | 요약 명칭 | 판정 조건 | 해석 및 원인 |
| Rule 1 | 단일 이상치 | 점 1개가 $\pm 3\sigma$ 밖으로 벗어남 | 강한 이상 발생. 설비 고장, 불량 자재 투입 등 즉각적인 조치 필요. |
| Rule 2 | 평균 이동 | 9개 점이 연속으로 평균의 한쪽(위/아래)에 위치 | 공정 편향(Bias). 설정값이 변경되었거나 영점이 틀어짐. |
| Rule 3 | 추세(Trend) | 6개 점이 연속으로 증가하거나 감소 | 점진적 변화. 공구 마모, 약품 농도 변화, 설비 노후화 진행 중. |
| Rule 4 | 주기적 변동 | 14개 점이 상하로 교대로 반복 (지그재그) | 체계적 변동. 두 원료의 교대 투입, 과도한 제어(Over-control) 시도. |
| Rule 5 | 경계 근접 | 연속 3점 중 2점이 Zone A($2\sigma$ 이상)에 위치 (같은 쪽) | 이상 징후 조기 경보. 공정이 불안정해지고 있음. |
| Rule 6 | 중심 이탈 | 연속 5점 중 4점이 Zone B($1\sigma$ 이상)에 위치 (같은 쪽) | 편향 심화. 평균 이동이 발생했거나 산포가 커지고 있음. |
| Rule 7 | 층화(Stratification) | 15개 점이 연속으로 Zone C($1\sigma$ 이내)에 위치 | 과도한 안정. 데이터 조작, 센서 민감도 저하, 또는 층화(Stratification) 현상. |
| Rule 8 | 혼합(Mixture) | 8개 점이 연속으로 Zone C를 제외한 양쪽에 위치 | 중심 결여. 두 개의 서로 다른 분포(예: 두 생산 라인)가 섞여 있음. |
시계열 데이터의 형태
1. 계절성 (Seasonality)
일정한 기간(일, 주, 월, 분기 등)을 두고 주기적으로 반복되는 패턴을 말합니다.
- 핵심: '주기가 고정되어 있다'는 점이 가장 중요합니다. 달력을 보듯 예측이 가능합니다.
- 센서 예시: 전력 소비량 데이터에서 여름철(냉방)과 겨울철(난방)마다 사용량이 치솟는 패턴이 매년 정확히 반복되는 경우입니다.
2. 추세변동 (Trend Variation)
시간이 지남에 따라 데이터가 장기적으로 나아가는 방향성을 말합니다.
- 핵심: 단기적인 출렁임은 무시하고 길게 봤을 때, 그래프가 우상향(증가)하거나 우하향(감소)하는 경향입니다.
- 센서 예시: 배터리 수명 센서에서 시간이 지날수록 전압 수치가 서서히, 그리고 지속적으로 낮아지는 현상입니다.
3. 계절적 추세변동 (Seasonal Trend Variation)
위의 '계절성'과 '추세'가 결합된 형태입니다.
- 핵심: 반복적인 파동(계절성)을 그리면서, 전체적인 높이는 점점 올라가거나 내려가는(추세) 복합적인 움직임입니다.
- 센서 예시: 도시 교통량 데이터에서 매일 출퇴근 시간의 정체 패턴(계절성)은 여전하지만, 도시 인구 증가로 인해 매년 전체 통행량 자체는 계속 늘어나는(추세) 경우입니다.
4. 순환변동 (Cyclic Variation)
물결처럼 오르내리는 변동이 있지만, 그 주기가 일정하지 않은 경우입니다.
- 핵심: 계절성과 혼동하기 쉽지만, 순환변동은 '언제 다시 돌아올지, 주기가 얼마나 길지 모른다'는 불규칙성이 특징입니다. 주로 외부 환경 요인에 따릅니다.
- 센서 예시: 환경 센서의 미세먼지 농도처럼 며칠간 나빴다가 좋아지기를 반복하지만, 그 주기가 기상 상황에 따라 매번 달라지는 경우입니다.
5. 우연변동 (White Noise / Random)
어떤 규칙이나 주기로도 설명할 수 없는 무작위적인 변동입니다.
- 핵심: 예측이 불가능한 '잡음(Noise)'이나 돌발적인 사건입니다. 시계열 분석에서는 이를 제외한 나머지 패턴을 찾는 것이 목표입니다.
- 센서 예시: 지진으로 인한 진동 센서의 갑작스러운 스파이크 값이나, 기계 오류, 통신 장애로 튀는 데이터 값 등이 해당됩니다.
✏️ 오늘의 질문
1. 시계열 데이터를 머신러닝 모델링으로 돌리기 위해서는 Lag Feature, Diff Feature, Rolling Statistics를 추가해줘야 하는 것이 맞는가?
머신러닝 모델은 시간의 순서를 모르기 때문에 Lag, Diff, Rolling과 같은 시계열 피처 엔지니어링이 필요하다.
📌추가로 해야 할 점
실전 프로젝트
'품질관리(QAQC) 데이터 부트캠프(본캠프)' 카테고리의 다른 글
| 본캠프_13주차(화)_TIL(실전 프로젝트) (0) | 2025.12.09 |
|---|---|
| 본캠프_13주차(월)_TIL(실전 프로젝트) (0) | 2025.12.08 |
| 본캠프_12주차(목)_TIL(실전 프로젝트) (0) | 2025.12.04 |
| 본캠프_12주차(수)_TIL(실전 프로젝트) (0) | 2025.12.03 |
| 본캠프_12주차(화)_TIL(실전 프로젝트) (0) | 2025.12.02 |