품질관리(QAQC) 데이터 부트캠프(본캠프)

본캠프_10주차(수)_TIL(심화 프로젝트 기반 피드백)

Wat_zy 2025. 11. 19. 09:01

✅ 오늘 한 것

라이브 세션, 태블로를 활용한 데이터 시각화


✏️ 오늘 배운 점

심화 프로젝트 피드백

통계 검정을 수행할 때에는 동일한 Y를 가지고 검정을 진행해야 함

프로젝트 진행 시 해당 도메인 지식 공부와 함께 시각적인 정보를 같이 제공해주기

머신러닝 모델링 이후 해당 모델을 가지고 어떻게 활용할지에 대한 내용을 소개하는 기술 성장시키기

예상과 다른 결과가 나타났다면 왜 그러한가?에 대한 가설을 제시하고 탐구하는 내용 추가하기

면접의 STAR 기법과 같은 Problem(문제 정의), Data(데이터 전처리), Analysis(분석), Result(결과 및 인사이트)의 PDAR 구조가 명확히 드러나도록 구성하면 완성도 높은 결과물이 나타날 수 있을 것


시계열 라이브 세션 정리

키워드: ARIMA, Prophet, Docker, BentoML

시계열 데이터: 시간에 따라 정렬된 데이터(시간, 측정 값 2개의 데이터로 구성)

시계열 데이터의 구성요소: 계절성, 추세, 오차(주기성)

계절성(Seasonal): 일정한 경향에 따라 반복되는 패턴

특정 계절에 따라 데이터가 반복적인 변동을 보이는 경우

추세(Trend): 시간이 지남에 따라 지속적이고 일관된 방향으로 변화하는 장기적 패턴

패턴이 증가, 감소, 혹은 일정한 상태

주기성(Cycles): 경제적, 사회적, 정치적 요인에 의해 발생하는 불규칙한 변동 패턴

장기적이고 불규칙한 패턴

개념 계절성 주기
규칙성 일정한 간격으로 반복(매년,매월) 불규칙적으로 발생
발생 원인 계절적인 요인(기후 등) 경제, 사회적인 요인(경기순환)
예측 가능성 규칙적이므로 예측 가능 변동성이 커서 예측 어려움
시간 범위 1년 이내 수년 이상

 

잔차(Residual): 시계열 데이터에서 추세와 계절성을 제거한 후 남는 무작위적 변화량

회귀 분석에서는 데이터에 순서가 중요하지 않은 경우가 많기에 train/test를 섞어서 진행

시계열 분석에서는 데이터에 순서가 중요하기에 train/test를 섞지 않고 순서를 유지한 채로 진행
자기회귀 모델(AR): 과거 값을 기반으로 미래 값을 예측(lag)

이동평균 모델(MA): 과거의 잔차(Residuals)를 활용해 예측(실제 값 - 모델의 예측 값)

diff: 현재 값 - 이전 값

 

확률 보행(Random Walk): 시간이 지남에 따라 무작위로 이동하는 경로를 설명하는 수학적 모델(비정상성을 나타냄)

비정상 시계열: 시간에 따라 평균, 분산, 패턴이 변하는 시계열

 

정상 시계열: 시간이 지나도 평균, 분산, 패턴이 변하지 않는 시계열

시계열 데이터는 정상성을 가정하거나 내포하면 모델링과 예측 가능성이 좋아진다.

- 정상 시계열의 특징

1. 시계열의 평균이 시간에 따라 변하지 않고 일정함

2. 시계열의 분산이 시간에 따라 일정함

3. 시계열의 두 시점 간 공분산이 시간(t)에 의존하지 않고 시간의 차(h)에만 의존함

 

- 시계열 데이터의 정상성 확보를 위한 평균 안정화

차분: 시계열에서 추세, 계절성을 제거하기 위한 방법

이동평균 평활화: 이동평균을 사용하면 시계열에서 단기적인 변동성을 제거하고, 전체적인 추세를 더 명확히 볼 수 있으며 평균을 안정화하는 데 도움

 

- 시계열 데이터의 정상성 확보를 위한 분산 안정화
로그 변환: 시계열 데이터의 분산을 안정화하여 효과적, 큰 값을 축소시켜 분산의 변동을 줄임

제곱근 변환: 분산을 줄이는 방법(np.sqrt(data))

z-score 표준화: 데이터의 평균과 분산을 일정하게 만들기 위해 표준화 사용(평균 0, 분산 1)(StandardScaler( ))

Box-Cox 변환: 분산을 안정화할 뿐만 아니라 데이터의 정규성을 보장하는 데도 유용(stats.boxcox(data))


✏️ 오늘의 핵심

시계열 데이터가 정상을 만족하면 예측 모델링과 예측 가능성이 좋아지는데 그렇다면 비정상 시계열 데이터는 무조건적으로 정상 시계열 데이터로 변환을 시키는가?

어떠한 모델링을 사용할 것인가에 따라 달라진다.

 

 

  • (1) 동일한 Y 사용 원칙
    통계 검정을 수행할 때는 반드시 동일한 종속 변수(Y) 를 기준으로 해야 검정 결과가 일관되고 해석이 가능함을 배웠습니다.
    → 서로 다른 Y를 비교하면 검정의 의미가 왜곡될 수 있음.
  • (2) 도메인 지식 + 시각화의 결합
    데이터의 의미를 명확히 이해하기 위해, 단순 수치 결과 외에도 해당 분야의 도메인 지식을 함께 학습하고 시각 자료(그래프, 차트) 를 통해 직관적으로 전달하는 것이 중요함을 배웠습니다.
  • (3) 모델 활용 능력 강화
    머신러닝 모델링 후 단순히 결과로 끝내는 것이 아니라,
    “이 모델을 실제로 어떻게 활용할 수 있는가” 를 구체적으로 제시해야 기술적 완성도가 높아짐을 알게 되었습니다.
    → 예: 예측 자동화, 품질관리 개선, 이상 탐지 시스템 적용 등
  • (4) 결과 해석 및 가설 제시 능력
    예측이 예상과 다르게 나타났다면, 단순히 “다르다”로 끝내지 않고
    왜 이런 결과가 나타났는지에 대한 가설을 세우고 탐구하는 것이 중요하다는 피드백을 받았습니다.
    이는 분석의 사고력과 논리적 깊이를 보여주는 핵심 요소입니다.
  • (5) PDAR 구조의 중요성
    면접의 STAR 기법처럼, 데이터 프로젝트에서도
    Problem → Data → Analysis → Result
    순으로 스토리라인이 명확해야 합니다.
    → 문제 정의부터 인사이트까지 흐름이 분명한 프로젝트가 높은 완성도를 갖게 됨.

 

시계열 분석의 핵심: 정상성 확보

시계열 모델(예: ARIMA, Prophet)은 데이터가 정상성(Stationarity) 을 가정해야 정확한 예측이 가능함.

정상 시계열의 특징

  1. 평균이 일정함
  2. 분산이 일정함
  3. 공분산이 시간의 차(h)에만 의존

📈 정상성 확보 방법

  1. 평균 안정화
    • 차분(diff) : 현재 값 - 이전 값 → 추세 제거
    • 이동평균(rolling mean) : 단기 변동 제거, 전체 추세 파악
  2. 분산 안정화
    • 로그 변환(log) : 큰 값을 줄여 변동 폭 축소
    • 제곱근 변환(np.sqrt) : 분산 완화
    • 표준화(StandardScaler) : 평균 0, 분산 1
    • Box-Cox 변환 : 분산 안정화 + 정규성 확보

🔧 모델과 도구

  • AR (Auto-Regressive) : 과거 값 기반 예측
  • MA (Moving Average) : 과거 오차 기반 예측
  • ARIMA / Prophet : 추세와 계절성을 함께 고려
  • Docker, BentoML : 시계열 모델 배포 및 운영에 활용

📌추가로 해야할 점

라이브 세션, 기초 프로젝트 복습