✅ 오늘 한 것
심화 프로젝트
✏️ 오늘 배운 점
환경정보 전처리
생육 정보와 환경 정보의 정합성을 확보하고, 상관관계 및 통계적 검정을 통해 주요 영향을 파악한 후
XGBoost 기반 예측 모델링을 수행하여 착과수 예측 성능을 검증함.
- 조사기간과 기준일 설정 로직 개선
- 기존: 조사기간의 시작일(start_date)을 기준일로 설정 → 생육에 선행하지 못함
- 개선: 조사기간의 **종료일(또는 조사일자 이전 주)**을 기준일로 설정하여,
식물 생육에 영향을 미치는 “이전 기간의 환경 요인”을 반영. - 추가로, 2024-10-25 ~ 2024-11-01 구간을 생성하여
첫 조사일(2024-11-01)에 대응하는 과거 환경 평균값을 확보함.
- 외부 일사량(external insolation)은 평균이 아닌 합(sum) 으로 집계
→ 일사량은 누적값이 생육 영향과 더 밀접하기 때문.
비모수 검정 결과
| 조사항목 | H 통계량 | p-value | η²(효과크기) | 유의여부 |
| 착과수 | 28.594 | 0.8899 | -0.0186 | 비유의 |
| 초장 | 445.511 | 0.0000 | 0.7259 | 유의 |
| 엽병장 | 480.168 | 0.0000 | 0.7878 | 유의 |
→ 초장과 엽병장은 그룹 간 유의한 차이가 존재함을 확인.
즉, 착과수의 변동은 초장과 엽병장 그룹의 차이에 따라 유의미하게 달라질 수 있음.
머신러닝 모델링 (RandomForest & XGBoost)
- 입력 변수(X)
- 생육정보 + 환경정보 + lag7 / diff7 변수 포함
- 목표 변수(y)
- 착과수
모델 성능 비교
모델R²RMSE
| RandomForest | 0.573 | 0.8028 |
| XGBoost | 0.738 | 0.6292 |
- XGBoost가 RMSE 기준 더 우수한 예측력을 보임.
- 비선형 모델에서는 R²보다는 RMSE와 MAPE 중심 평가가 타당함.
- MAPE를 함께 측정해 모델의 실제 오차 비율까지 확인할 예정.
시각화
- 그룹별 상관 히트맵 (온실×라인×표본 단위)
→ 생육 특성 간의 상관 패턴 시각화. - 평균 상관 히트맵
→ 착과수와 생육 요인별 평균 상관계수를 단일 그래프로 요약. - 예측 결과 시각화
→ 온실·라인·표본별 3주 예측 결과를 subplot (10×4) 형태로 구성하여
그룹별 착과 예측 경향을 직관적으로 파악.
인사이트 및 다음 단계
- 정규성/등분산성 불만족 → 비모수 검정 사용 타당
- 초장과 엽병장이 착과수와 밀접한 생육 요인으로 확인됨
- 환경정보 추가 시 모델 성능 저하
→ lag/diff 변수 간 다중공선성 가능성 존재
→ 변수 선택(feature selection) 또는 VIF 검토 필요. - 향후 개선 방향
- Lag/Diff 조합 최적화
- Feature Importance 기반 변수 축소
- 환경 요인에 대한 시차 효과 추가 검증
✏️ 오늘의 핵심
생육정보와 환경정보를 기반으로 착과수를 예측하기 위해 통계 검정과 머신러닝을 병행하였으며, 초장과 엽병장이 착과수와 유의한 관계를 보였고, XGBoost 모델이 가장 높은 예측 성능을 나타냈다.
📌추가로 해야할 점
심화 프로젝트
'품질관리(QAQC) 데이터 부트캠프(본캠프)' 카테고리의 다른 글
| 본캠프_9주차(금)_TIL(심화 프로젝트 기간) (0) | 2025.11.14 |
|---|---|
| 본캠프_9주차(목)_TIL(심화 프로젝트 기간) (0) | 2025.11.13 |
| 본캠프_9주차(화)_TIL(심화 프로젝트 기간) (0) | 2025.11.11 |
| 본캠프_9주차(월)_TIL(심화 프로젝트 기간) (0) | 2025.11.10 |
| 본캠프_8주차(금)_TIL(심화 프로젝트) (0) | 2025.11.07 |