✅ 오늘 한 것
졸업 시험, 통계 & 머신러닝 개인 과제, 기초 통계 정리
✏️ 오늘 배운 점
🧮 1️⃣ 통계학의 두 축
구분설명주요 방법
| 기술통계 (Descriptive) | 수집된 데이터를 요약·시각화해 특징 파악 | 평균, 중앙값, 표준편차, 히스토그램 |
| 추론통계 (Inferential) | 표본으로 모집단의 특성을 추정 | 신뢰구간, 가설검정, 상관·회귀분석 |
📊 2️⃣ 데이터의 종류
유형예시특징
| 수치형 | 키, 몸무게, 점수 | 연속형(소수 가능), 이산형(정수 단위) |
| 범주형 | 성별, 혈액형, 만족도 | 명목형(순서 없음), 순서형(순서 있음) |
📈 3️⃣ 데이터 요약 및 분포
구분핵심 개념설명
| 대표값 | 평균·중앙값·최빈값 | 중심 경향성 요약 |
| 산포도 | 분산·표준편차·IQR | 데이터의 흩어짐 정도 |
| 왜도/첨도 | 비대칭성·뾰족함 | 정규분포와의 형태 비교 |
| 정규분포 | 평균=중앙값=최빈값 | 통계의 기본 가정 분포 |
🎲 4️⃣ 확률의 기초
구분설명예시/활용
| 확률변수 | 시행 결과를 수치로 표현 | 동전 앞면 횟수 |
| 확률분포 | 각 값의 확률 규칙 | PMF(이산형), PDF(연속형), KDE(추정) |
| 주요 분포 | 이항·포아송·정규 | 품질 관리, 공정 예측 등 |
| 정규분포 법칙 | 68–95–99.7 법칙 | ±1σ=68%, ±2σ=95%, ±3σ=99.7% |
| 6시그마 & Cp/Cpk | 공정 품질 측정 | Cp, Cpk ≥ 1.33 → 안정적 공정 |
⚙️ 5️⃣ 데이터 변환·전처리
구분목적공식/방법
| 표준화 (Z-score) | 평균 0, 표준편차 1로 변환 | Z = (X - μ)/σ |
| 정규화 (MinMax) | 0~1 범위로 변환 | (X - min)/(max - min) |
| 이상치 탐지 | 비정상 값 탐지 | IQR: 1.5×IQR, Z-score: |
📐 6️⃣ 통계적 추론의 핵심
구분설명핵심 포인트
| 표본분포 | 표본 평균들의 분포 | 표본평균도 확률변수 |
| 중심극한정리 | 표본이 많으면 평균분포 ≈ 정규분포 | 가설검정의 이론적 기반 |
| 표준오차(SE) | 표본평균의 불확실성 | SE=σ/√nSE = σ/√n |
| 신뢰구간(CI) | 모수의 추정 범위 | xˉ±Zα/2×SE\bar{x} ± Z_{α/2} × SE |
🔍 7️⃣ 가설검정 핵심 요약
구분설명예시
| 귀무가설(H₀) | 차이 없음 / 효과 없음 | “신약 효과 = 기존약” |
| 대립가설(H₁) | 차이 있음 / 효과 있음 | “신약 효과 ≠ 기존약” |
| p-value | H₀이 참일 때 결과가 우연히 나올 확률 | p<0.05 → 유의미한 차이 |
| 오류 유형 | 1종(α): 거짓 양성 / 2종(β): 거짓 음성 | |
| 모수 검정 | 정규성 가정 (t-test, ANOVA) | |
| 비모수 검정 | 분포 가정 없음 (순위 기반) | Mann–Whitney U 등 |
| 정규성 검정 | Shapiro–Wilk, Q-Q plot | p>0.05 → 정규성 만족 |
📉 8️⃣ 관계 분석
분석 방법의미활용
| 공분산 | 두 변수의 방향성 | 양수: 같은 방향, 음수: 반대 |
| 상관계수 (r) | 관계의 강도 (-1~1) | 0.8 → 강한 양의 상관 |
| 선형회귀 | X로 Y를 예측 | Y=β0+β1X+εY = β₀ + β₁X + ε, R²로 설명력 판단 |
📌추가로 해야할 점
졸업시험, 통계 & 머신러닝 개인 과제
'품질관리(QAQC) 데이터 부트캠프(본캠프)' 카테고리의 다른 글
| 본캠프_8주차(화)_TIL (0) | 2025.11.04 |
|---|---|
| 본캠프_8주차(월)_TIL (0) | 2025.11.03 |
| 본캠프_7주차(목)_TIL(머신러닝 정리) (0) | 2025.10.30 |
| 본캠프_7주차(수)_TIL(라이브러리 기초 정리) (0) | 2025.10.29 |
| 본캠프_7주차(화)_TIL(머신러닝 기초 정리) (0) | 2025.10.28 |