품질관리(QAQC) 데이터 부트캠프(본캠프)

본캠프_9주차(수)_TIL(심화 프로젝트 기간)

Wat_zy 2025. 11. 12. 09:00

✅ 오늘 한 것

심화 프로젝트


✏️ 오늘 배운 점

환경정보 전처리

생육 정보와 환경 정보의 정합성을 확보하고, 상관관계 및 통계적 검정을 통해 주요 영향을 파악한 후
XGBoost 기반 예측 모델링을 수행하여 착과수 예측 성능을 검증함.

 

  • 조사기간과 기준일 설정 로직 개선
    • 기존: 조사기간의 시작일(start_date)을 기준일로 설정 → 생육에 선행하지 못함
    • 개선: 조사기간의 **종료일(또는 조사일자 이전 주)**을 기준일로 설정하여,
      식물 생육에 영향을 미치는 “이전 기간의 환경 요인”을 반영.
    • 추가로, 2024-10-25 ~ 2024-11-01 구간을 생성하여
      첫 조사일(2024-11-01)에 대응하는 과거 환경 평균값을 확보함.
  • 외부 일사량(external insolation)은 평균이 아닌 합(sum) 으로 집계
    → 일사량은 누적값이 생육 영향과 더 밀접하기 때문.

비모수 검정 결과

조사항목 H 통계량 p-value η²(효과크기) 유의여부
착과수 28.594 0.8899 -0.0186 비유의
초장 445.511 0.0000 0.7259 유의
엽병장 480.168 0.0000 0.7878 유의

→ 초장과 엽병장은 그룹 간 유의한 차이가 존재함을 확인.
즉, 착과수의 변동은 초장과 엽병장 그룹의 차이에 따라 유의미하게 달라질 수 있음.

머신러닝 모델링 (RandomForest & XGBoost)

  • 입력 변수(X)
    • 생육정보 + 환경정보 + lag7 / diff7 변수 포함
  • 목표 변수(y)
    • 착과수

모델 성능 비교

모델R²RMSE
RandomForest 0.573 0.8028
XGBoost 0.738 0.6292
  • XGBoost가 RMSE 기준 더 우수한 예측력을 보임.
  • 비선형 모델에서는 R²보다는 RMSE와 MAPE 중심 평가가 타당함.
  • MAPE를 함께 측정해 모델의 실제 오차 비율까지 확인할 예정.

시각화

  • 그룹별 상관 히트맵 (온실×라인×표본 단위)
    → 생육 특성 간의 상관 패턴 시각화.
  • 평균 상관 히트맵
    → 착과수와 생육 요인별 평균 상관계수를 단일 그래프로 요약.
  • 예측 결과 시각화
    → 온실·라인·표본별 3주 예측 결과를 subplot (10×4) 형태로 구성하여
    그룹별 착과 예측 경향을 직관적으로 파악.

인사이트 및 다음 단계

  • 정규성/등분산성 불만족 → 비모수 검정 사용 타당
  • 초장과 엽병장이 착과수와 밀접한 생육 요인으로 확인됨
  • 환경정보 추가 시 모델 성능 저하
    → lag/diff 변수 간 다중공선성 가능성 존재
    → 변수 선택(feature selection) 또는 VIF 검토 필요.
  • 향후 개선 방향
    • Lag/Diff 조합 최적화
    • Feature Importance 기반 변수 축소
    • 환경 요인에 대한 시차 효과 추가 검증

✏️ 오늘의 핵심

생육정보와 환경정보를 기반으로 착과수를 예측하기 위해 통계 검정과 머신러닝을 병행하였으며, 초장과 엽병장이 착과수와 유의한 관계를 보였고, XGBoost 모델이 가장 높은 예측 성능을 나타냈다.

 


📌추가로 해야할 점

심화 프로젝트