품질관리(QAQC) 데이터 부트캠프(본캠프)

본캠프_9주차(목)_TIL(심화 프로젝트 기간)

Wat_zy 2025. 11. 13. 09:00

✅ 오늘 한 것

심화 프로젝트


✏️ 오늘 배운 점

정규성 및 등분산성 검정

  • 그룹(온실번호, 측정라인, 표본번호) 기준으로 Shapiro-Wilk 검정을 수행하여 정규성 확인
  • 초장(p=0.0041), 엽병장(p=0.0005) → 비정규성
  • 착과수(p=0.1477) → 정규성 만족하지만 종속변수이므로 비모수 검정에 포함
  • Levene 검정을 통해 등분산성 확인 결과, 착과수를 제외하고는 등분산성 미충족
    → 따라서 Kruskal–Wallis + Dunn’s Test로 비모수 검정 진행

2. 비모수 검정 결과 해석

조사항복 H p-value η² 유의여부
착과수 28.59 0.8899 -0.0186 비유의
초장 445.51 0.0000 0.7259 유의
엽병장 480.17 0.0000 0.7878 유의
  • 초장과 엽병장은 그룹 간 통계적으로 유의한 차이가 있음을 확인

3. 상관관계 분석

  • 착과수와 생육정보 간 상관계수 분석 결과:
    초장(0.648), 엽병장(0.644) → 착과수와 높은 양의 상관관계
  • 환경정보(내부 온도, 외부 온도)는 비교적 정규성을 띠며, 생육과의 관계가 추가 검토 필요

4. 환경정보 전처리

  • 조사기간별 평균값 및 누적 일사량을 산출하여 기준일(조사 마지막일)을 기준으로 Merge
  • 시계열적 종속성을 반영하기 위한 lag/diff 변수 생성 (예: 내부온도_lag7, 내부온도_diff7)

5. 머신러닝 모델링 (RandomForest & XGBoost)

  • X = 생육 + 환경 + lag/diff 특성
  • y = 착과수
  • RandomForest: R²=0.573, RMSE=0.80
  • XGBoost: R²=0.738, RMSE=0.63
    비선형 관계를 잘 포착한 XGBoost가 우수한 성능
    → 단, 환경정보 추가 시 과적합 또는 시점 불일치 가능성 존재 → feature 선정 재검토 필요

📌추가로 해야할 점

심화 프로젝트