✅ 오늘 한 것
복습 문제 풀이, 통계학 기초(3주차), 머신러닝의 이해와 라이브러리 활용 기초, 머신러닝 오프닝(라이브세션)
✏️ 오늘 배운 점
복습 문제 풀이
극단적인 값(이상치)가 존재한다면 평균보다 중앙값을 사용해야 일반적인 수준을 대표할 수 있는 값을 확인할 수 있다.
분산은 원래 데이터와 단위가 다르기에 분산에 루트를 씌운 표준편차는 원래 데이터와 단위가 같아져 데이터가 평균에서 얼마나 떨어져 있는지 직관적으로 해석하기 용이하다.
사분위수를 머리 속으로는 해결할 수 있으나 코드로 작성하려다 보니 numpy를 활용하여 각 Q1와 Q3를 구하고 IQR까지 계산하여 이상치를 계산하는 방법을 이해하기에 어려움이 있었다.
특히나, outliers = data[(data < lower_bound) | (data > upper_bound)] 이 코드에서 |이 or을 나타내는 것을 자료를 통해 이해할 수 있었던 점을 토대로 이상치 확인에 있어 이 코드를 연습하는 것이 중요하겠다 생각했다.
iloc과 loc의 차이를 한 번 더 생각해볼 수 있었다.
각각의 컬럼으로 DataFrame과 Series를 제작하는 방법을 배워볼 수 있었다.
통계학 기초
A/B 검정: 두 버전(A와 B) 중 어느 것이 더 효과적인지 평가하기 위해 사용되는 검정 방법
마케팅, 웹사이트 디자인 등에서 많이 사용
사용자들을 두 그룹으로 나누고, 각 그룹에 다른 버전을 제공한 후, 반응을 비
가설검정: 표본 데이터를 통해 모집단의 가설을 검증하는 과정
확증적 자료 분석: 미리 가설들을 먼저 세운 다음 가설을 검증해 나가는 분석
탐색적 자료분석(EDA): 가설을 먼저 정하지 않고 데이터를 탐색해보면서 가설 후보들을 찾고 데이터의 특징을 찾는 것
가설검정 단계
1. 귀무가설(H0)과 대립가설(H1) 설정
2. 유의수준(α) 결정
3. 검정통계량 계산
4. p-값과 유의수준 비교
5. 결론 도출
통계적 유의성: 결과가 우연히 발생한 것이 아니라 어떤 효과가 실제로 존재함을 나타내는 지표(p값이 0.05 미만이면 결과가 통계적으로 유의하다고 판단)
p-값: 귀무가설이 참일 때, 관찰된 결과 이상으로 극단적인 결과가 나올 확률
일반적으로 p-값이 유의수준(α)보다 작으면 귀무가설 기각
t-검정: 두 집단 간의 평균 차이가 통계적으로 유의미한지 확인하는 검정 방법(가설검정의 대표적인 검정)
독립표본 t검정: 두 독립된 그룹의 평균 비교
대응표본 t검정: 동일한 그룹의 사전/사후 평균 비교
다중검정: 여러 가설을 동시에 검정할 때 발생하는 문제
카이제곱검정: 범주형 데이터의 표본 분포가 모집단 분포와 일치하는지 검정(적합도 검정)하거나 두 범주형 변수 간의 독립성 검정(독립성 검정)
적합도 검정: 관찰된 분포와 기대된 분포가 일치하는지 검정
독립성 검정: 두 범주형 변수 간의 독립성 검정
제 1종 오류: 귀무가설이 참인데 기각하는 오류
제 2종 오류: 귀무가설이 거짓인데 기각하지 않는 오류
머신러닝의 이해와 라이브러리 활용 기초
머신러닝: 데이터 수집과 처리 기술의 발전으로 대용량 데이터의 패턴을 인식하고 이를 바탕으로 예측, 분류하는 방법론
통계: 모집단(전체 집단)의 성질을 표본집단으로부터 알기 위한 추론 방법
DataFrame[ ]: Series
DataFrame[[ ]]: DataFrame
머신러닝 오프닝
머신러닝: 데이터를 분석하여 패턴을 학습하고, 이를 바탕으로 예측이나 결정을 내리는 인공지능 기술지도 학습: 문제와 정답을 모두 알려주고 공부시키는 방법 -> 예측, 분류비지도 학습: 답을 가르쳐주지 않고 공부시키는 방법 -> 연관 규칙, 군집강화 학습: 보상을 통해 상은 최대화, 벌은 최소화하는 방향으로 행위를 강화하는 학습 -> 보상
분류의 주요 유형1. 이진 분류: 데이터가 두 개의 카테고리(예: 정상 or 비정상)로 분류되는 경우2. 다중 분류: 데이터가 세 개 이상의 카테고리로 분류되는 경우3. 다중 레이블 분류: 하나의 데이터가 여러 개의 카테고리를 가질 수 있는 경우
회귀: 데이터를 기반으로 연속적인 숫자 값을 예측하는 작업선형 회귀: 데이터가 직선 형태로 분포한다고 가정하여 예측다항 회귀: 데이터를 비선형적으로 모델링할 때 사용결정 트리 회귀/랜덤 포레스트 회귀: 의사결정 트리를 기반으로 데이터를 나누어 예측딥러닝 기반 회귀: 신경망을 활용하여 복잡한 관계를 학습
Scikit-learn: 파이썬을 대표하는 머신러닝 분석을 할 때 유용하게 사용할 수 있는 라이브러리(약어: sklearn)
✏️ 오늘의 핵심
📌추가로 해야할 점
머신러닝의 이해와 라이브러리 활용 기초, 통계학 기초 4주차
'품질관리(QAQC) 데이터 부트캠프(본캠프)' 카테고리의 다른 글
| 본캠프_6주차(금)_TIL (0) | 2025.10.24 |
|---|---|
| 본캠프_6주차(목)_TIL (0) | 2025.10.23 |
| 본캠프_6주차(화)_TIL (0) | 2025.10.21 |
| 본캠프_6주차(월)_TIL (0) | 2025.10.20 |
| 본캠프_5주차(금)_TIL (0) | 2025.10.17 |