✅ 오늘 한 것
라이브 세션, 태블로를 활용한 데이터 시각화
✏️ 오늘 배운 점
심화 프로젝트 피드백
통계 검정을 수행할 때에는 동일한 Y를 가지고 검정을 진행해야 함
프로젝트 진행 시 해당 도메인 지식 공부와 함께 시각적인 정보를 같이 제공해주기
머신러닝 모델링 이후 해당 모델을 가지고 어떻게 활용할지에 대한 내용을 소개하는 기술 성장시키기
예상과 다른 결과가 나타났다면 왜 그러한가?에 대한 가설을 제시하고 탐구하는 내용 추가하기
면접의 STAR 기법과 같은 Problem(문제 정의), Data(데이터 전처리), Analysis(분석), Result(결과 및 인사이트)의 PDAR 구조가 명확히 드러나도록 구성하면 완성도 높은 결과물이 나타날 수 있을 것
시계열 라이브 세션 정리
키워드: ARIMA, Prophet, Docker, BentoML
시계열 데이터: 시간에 따라 정렬된 데이터(시간, 측정 값 2개의 데이터로 구성)
시계열 데이터의 구성요소: 계절성, 추세, 오차(주기성)
계절성(Seasonal): 일정한 경향에 따라 반복되는 패턴
특정 계절에 따라 데이터가 반복적인 변동을 보이는 경우
추세(Trend): 시간이 지남에 따라 지속적이고 일관된 방향으로 변화하는 장기적 패턴
패턴이 증가, 감소, 혹은 일정한 상태
주기성(Cycles): 경제적, 사회적, 정치적 요인에 의해 발생하는 불규칙한 변동 패턴
장기적이고 불규칙한 패턴
| 개념 | 계절성 | 주기 |
| 규칙성 | 일정한 간격으로 반복(매년,매월) | 불규칙적으로 발생 |
| 발생 원인 | 계절적인 요인(기후 등) | 경제, 사회적인 요인(경기순환) |
| 예측 가능성 | 규칙적이므로 예측 가능 | 변동성이 커서 예측 어려움 |
| 시간 범위 | 1년 이내 | 수년 이상 |
잔차(Residual): 시계열 데이터에서 추세와 계절성을 제거한 후 남는 무작위적 변화량

회귀 분석에서는 데이터에 순서가 중요하지 않은 경우가 많기에 train/test를 섞어서 진행
시계열 분석에서는 데이터에 순서가 중요하기에 train/test를 섞지 않고 순서를 유지한 채로 진행
자기회귀 모델(AR): 과거 값을 기반으로 미래 값을 예측(lag)
이동평균 모델(MA): 과거의 잔차(Residuals)를 활용해 예측(실제 값 - 모델의 예측 값)
diff: 현재 값 - 이전 값
확률 보행(Random Walk): 시간이 지남에 따라 무작위로 이동하는 경로를 설명하는 수학적 모델(비정상성을 나타냄)
비정상 시계열: 시간에 따라 평균, 분산, 패턴이 변하는 시계열
정상 시계열: 시간이 지나도 평균, 분산, 패턴이 변하지 않는 시계열
시계열 데이터는 정상성을 가정하거나 내포하면 모델링과 예측 가능성이 좋아진다.
- 정상 시계열의 특징
1. 시계열의 평균이 시간에 따라 변하지 않고 일정함
2. 시계열의 분산이 시간에 따라 일정함
3. 시계열의 두 시점 간 공분산이 시간(t)에 의존하지 않고 시간의 차(h)에만 의존함
- 시계열 데이터의 정상성 확보를 위한 평균 안정화
차분: 시계열에서 추세, 계절성을 제거하기 위한 방법
이동평균 평활화: 이동평균을 사용하면 시계열에서 단기적인 변동성을 제거하고, 전체적인 추세를 더 명확히 볼 수 있으며 평균을 안정화하는 데 도움
- 시계열 데이터의 정상성 확보를 위한 분산 안정화
로그 변환: 시계열 데이터의 분산을 안정화하여 효과적, 큰 값을 축소시켜 분산의 변동을 줄임
제곱근 변환: 분산을 줄이는 방법(np.sqrt(data))
z-score 표준화: 데이터의 평균과 분산을 일정하게 만들기 위해 표준화 사용(평균 0, 분산 1)(StandardScaler( ))
Box-Cox 변환: 분산을 안정화할 뿐만 아니라 데이터의 정규성을 보장하는 데도 유용(stats.boxcox(data))
✏️ 오늘의 핵심
시계열 데이터가 정상을 만족하면 예측 모델링과 예측 가능성이 좋아지는데 그렇다면 비정상 시계열 데이터는 무조건적으로 정상 시계열 데이터로 변환을 시키는가?
어떠한 모델링을 사용할 것인가에 따라 달라진다.
- (1) 동일한 Y 사용 원칙
통계 검정을 수행할 때는 반드시 동일한 종속 변수(Y) 를 기준으로 해야 검정 결과가 일관되고 해석이 가능함을 배웠습니다.
→ 서로 다른 Y를 비교하면 검정의 의미가 왜곡될 수 있음. - (2) 도메인 지식 + 시각화의 결합
데이터의 의미를 명확히 이해하기 위해, 단순 수치 결과 외에도 해당 분야의 도메인 지식을 함께 학습하고 시각 자료(그래프, 차트) 를 통해 직관적으로 전달하는 것이 중요함을 배웠습니다. - (3) 모델 활용 능력 강화
머신러닝 모델링 후 단순히 결과로 끝내는 것이 아니라,
“이 모델을 실제로 어떻게 활용할 수 있는가” 를 구체적으로 제시해야 기술적 완성도가 높아짐을 알게 되었습니다.
→ 예: 예측 자동화, 품질관리 개선, 이상 탐지 시스템 적용 등 - (4) 결과 해석 및 가설 제시 능력
예측이 예상과 다르게 나타났다면, 단순히 “다르다”로 끝내지 않고
왜 이런 결과가 나타났는지에 대한 가설을 세우고 탐구하는 것이 중요하다는 피드백을 받았습니다.
이는 분석의 사고력과 논리적 깊이를 보여주는 핵심 요소입니다. - (5) PDAR 구조의 중요성
면접의 STAR 기법처럼, 데이터 프로젝트에서도
Problem → Data → Analysis → Result
순으로 스토리라인이 명확해야 합니다.
→ 문제 정의부터 인사이트까지 흐름이 분명한 프로젝트가 높은 완성도를 갖게 됨.
시계열 분석의 핵심: 정상성 확보
시계열 모델(예: ARIMA, Prophet)은 데이터가 정상성(Stationarity) 을 가정해야 정확한 예측이 가능함.
정상 시계열의 특징
- 평균이 일정함
- 분산이 일정함
- 공분산이 시간의 차(h)에만 의존
📈 정상성 확보 방법
- 평균 안정화
- 차분(diff) : 현재 값 - 이전 값 → 추세 제거
- 이동평균(rolling mean) : 단기 변동 제거, 전체 추세 파악
- 분산 안정화
- 로그 변환(log) : 큰 값을 줄여 변동 폭 축소
- 제곱근 변환(np.sqrt) : 분산 완화
- 표준화(StandardScaler) : 평균 0, 분산 1
- Box-Cox 변환 : 분산 안정화 + 정규성 확보
🔧 모델과 도구
- AR (Auto-Regressive) : 과거 값 기반 예측
- MA (Moving Average) : 과거 오차 기반 예측
- ARIMA / Prophet : 추세와 계절성을 함께 고려
- Docker, BentoML : 시계열 모델 배포 및 운영에 활용
📌추가로 해야할 점
라이브 세션, 기초 프로젝트 복습
'품질관리(QAQC) 데이터 부트캠프(본캠프)' 카테고리의 다른 글
| 본캠프_10주차(금)_TIL(Streamlit, Tableau) (0) | 2025.11.21 |
|---|---|
| 본캠프_10주차(목)_TIL(ADF, ACF, ARIMA 정리) (0) | 2025.11.20 |
| 본캠프_10주차(화)_TIL(머신러닝 정리) (0) | 2025.11.18 |
| 본캠프_10주차(월)_TIL(데이터 준비 & 통계적 검정 정리) (0) | 2025.11.17 |
| 본캠프_9주차(금)_TIL(심화 프로젝트 기간) (0) | 2025.11.14 |