품질관리(QAQC) 데이터 부트캠프(본캠프)

본캠프_7주차(금)_TIL

Wat_zy 2025. 10. 31. 09:06

✅ 오늘 한 것

졸업 시험, 통계 & 머신러닝 개인 과제, 기초 통계 정리


✏️ 오늘 배운 점

🧮 1️⃣ 통계학의 두 축

구분설명주요 방법
기술통계 (Descriptive) 수집된 데이터를 요약·시각화해 특징 파악 평균, 중앙값, 표준편차, 히스토그램
추론통계 (Inferential) 표본으로 모집단의 특성을 추정 신뢰구간, 가설검정, 상관·회귀분석

📊 2️⃣ 데이터의 종류

유형예시특징
수치형 키, 몸무게, 점수 연속형(소수 가능), 이산형(정수 단위)
범주형 성별, 혈액형, 만족도 명목형(순서 없음), 순서형(순서 있음)

📈 3️⃣ 데이터 요약 및 분포

구분핵심 개념설명
대표값 평균·중앙값·최빈값 중심 경향성 요약
산포도 분산·표준편차·IQR 데이터의 흩어짐 정도
왜도/첨도 비대칭성·뾰족함 정규분포와의 형태 비교
정규분포 평균=중앙값=최빈값 통계의 기본 가정 분포

🎲 4️⃣ 확률의 기초

구분설명예시/활용
확률변수 시행 결과를 수치로 표현 동전 앞면 횟수
확률분포 각 값의 확률 규칙 PMF(이산형), PDF(연속형), KDE(추정)
주요 분포 이항·포아송·정규 품질 관리, 공정 예측 등
정규분포 법칙 68–95–99.7 법칙 ±1σ=68%, ±2σ=95%, ±3σ=99.7%
6시그마 & Cp/Cpk 공정 품질 측정 Cp, Cpk ≥ 1.33 → 안정적 공정

⚙️ 5️⃣ 데이터 변환·전처리

구분목적공식/방법
표준화 (Z-score) 평균 0, 표준편차 1로 변환 Z = (X - μ)/σ
정규화 (MinMax) 0~1 범위로 변환 (X - min)/(max - min)
이상치 탐지 비정상 값 탐지 IQR: 1.5×IQR, Z-score:

📐 6️⃣ 통계적 추론의 핵심

구분설명핵심 포인트
표본분포 표본 평균들의 분포 표본평균도 확률변수
중심극한정리 표본이 많으면 평균분포 ≈ 정규분포 가설검정의 이론적 기반
표준오차(SE) 표본평균의 불확실성 SE=σ/√nSE = σ/√n
신뢰구간(CI) 모수의 추정 범위 xˉ±Zα/2×SE\bar{x} ± Z_{α/2} × SE

🔍 7️⃣ 가설검정 핵심 요약

구분설명예시
귀무가설(H₀) 차이 없음 / 효과 없음 “신약 효과 = 기존약”
대립가설(H₁) 차이 있음 / 효과 있음 “신약 효과 ≠ 기존약”
p-value H₀이 참일 때 결과가 우연히 나올 확률 p<0.05 → 유의미한 차이
오류 유형 1종(α): 거짓 양성 / 2종(β): 거짓 음성  
모수 검정 정규성 가정 (t-test, ANOVA)  
비모수 검정 분포 가정 없음 (순위 기반) Mann–Whitney U 등
정규성 검정 Shapiro–Wilk, Q-Q plot p>0.05 → 정규성 만족

📉 8️⃣ 관계 분석

분석 방법의미활용
공분산 두 변수의 방향성 양수: 같은 방향, 음수: 반대
상관계수 (r) 관계의 강도 (-1~1) 0.8 → 강한 양의 상관
선형회귀 X로 Y를 예측 Y=β0+β1X+εY = β₀ + β₁X + ε, R²로 설명력 판단

📌추가로 해야할 점

졸업시험, 통계 & 머신러닝 개인 과제