✅ 오늘 한 것
심화 프로젝트
✏️ 오늘 배운 점
정규성 및 등분산성 검정
- 그룹(온실번호, 측정라인, 표본번호) 기준으로 Shapiro-Wilk 검정을 수행하여 정규성 확인
- 초장(p=0.0041), 엽병장(p=0.0005) → 비정규성
- 착과수(p=0.1477) → 정규성 만족하지만 종속변수이므로 비모수 검정에 포함
- Levene 검정을 통해 등분산성 확인 결과, 착과수를 제외하고는 등분산성 미충족
→ 따라서 Kruskal–Wallis + Dunn’s Test로 비모수 검정 진행
2. 비모수 검정 결과 해석
| 조사항복 | H | p-value | η² | 유의여부 |
| 착과수 | 28.59 | 0.8899 | -0.0186 | 비유의 |
| 초장 | 445.51 | 0.0000 | 0.7259 | 유의 |
| 엽병장 | 480.17 | 0.0000 | 0.7878 | 유의 |
- 초장과 엽병장은 그룹 간 통계적으로 유의한 차이가 있음을 확인
3. 상관관계 분석
- 착과수와 생육정보 간 상관계수 분석 결과:
초장(0.648), 엽병장(0.644) → 착과수와 높은 양의 상관관계 - 환경정보(내부 온도, 외부 온도)는 비교적 정규성을 띠며, 생육과의 관계가 추가 검토 필요
4. 환경정보 전처리
- 조사기간별 평균값 및 누적 일사량을 산출하여 기준일(조사 마지막일)을 기준으로 Merge
- 시계열적 종속성을 반영하기 위한 lag/diff 변수 생성 (예: 내부온도_lag7, 내부온도_diff7)
5. 머신러닝 모델링 (RandomForest & XGBoost)
- X = 생육 + 환경 + lag/diff 특성
- y = 착과수
- RandomForest: R²=0.573, RMSE=0.80
- XGBoost: R²=0.738, RMSE=0.63
→ 비선형 관계를 잘 포착한 XGBoost가 우수한 성능
→ 단, 환경정보 추가 시 과적합 또는 시점 불일치 가능성 존재 → feature 선정 재검토 필요
📌추가로 해야할 점
심화 프로젝트
'품질관리(QAQC) 데이터 부트캠프(본캠프)' 카테고리의 다른 글
| 본캠프_10주차(월)_TIL(데이터 준비 & 통계적 검정 정리) (0) | 2025.11.17 |
|---|---|
| 본캠프_9주차(금)_TIL(심화 프로젝트 기간) (0) | 2025.11.14 |
| 본캠프_9주차(수)_TIL(심화 프로젝트 기간) (0) | 2025.11.12 |
| 본캠프_9주차(화)_TIL(심화 프로젝트 기간) (0) | 2025.11.11 |
| 본캠프_9주차(월)_TIL(심화 프로젝트 기간) (0) | 2025.11.10 |