✅ 오늘 한 것
베이직반 복습 문제, SQLD, 통계학 기초 완강, 통계 복습
✏️ 오늘 배운 점
베이직반 복습 문제
df['start_time'] = pd.to_datetime(df['start_time'], format="mixed", errors="coerce")
pd.to_datetime을 사용할 때, 객체의 형태를 통일시키기 위해 format과 errors을 배웠지만 사용하지 않는 실수가 있기에 반복학습하여 진행하는 것이 좋다는 생각이 들었다.
통계학 기초 완강
피어슨 상관관계: 두 연속형 변수 간의 선형 관계를 측정하는 지표
-1 ~ 1 사이의 값을 가짐.
1: 완전한 양의 선형 관계
-1: 완전한 음의 선형 관계
0: 선형 관계가 없음
비모수 상관계수: 데이터가 정규분포를 따르지 않거나 변수들이 순서형 데이터일 때 사용하는 상관계수(데이터의 분포에 대한 가정을 하지 못할 때 사용)
스피어만 상관관계: 두 변수의 순위 간의 상관 관계 측정
켄달의 타우 상관계수: 두 변수 간의 순위 일관성 측정(비선형 관계를 탐지하는 데 유용)
상호정보 상관관계: 변수 간의 정보 의존성을 바탕으로 비선형 관계 탐지, 서로의 정보에 대한 불확실성을 줄이는 정도를 바탕으로 계산
범주형 데이터에 대해서도 적용 가능
두 변수가 범주형 변수일 때 사용
비선형적이고 복잡한 관계를 탐지하고자 할 때 사용
재현 가능성: 동일한 연구나 실험을 반복했을 때 일관된 결과가 나오는지 여부. 연구의 신뢰선을 높이는 중요한 요소
결과가 재현되지 않는다면 해당 가설의 신뢰도가 떨어짐
재현성 위기의 원인은 왜 일어나는가?
실험 조건을 동일하게 조성하기 어려움. (가설검정 자체도 100% 검정력을 가진 것이 아니기에 오차가 생길 수 있음.)
p-해킹: 데이터 분석을 반복하여 p-값을 인위적으로 낮추는 행위
데이터 분석 결과의 신뢰성을 저하시킴.
여러 가설 검정을 시도하여 유의미한 p-값을 얻을 때까지 반복 분석하는 것을 조심해야 한다.
선택적 보고: 유의미한 결과만을 보고하고, 유의미하지 않은 결과는 보고하지 않는 행위
데이터 분석 결과를 왜곡하고, 신뢰성을 저하시킴.
유의미한 결과만 공개할 때, 결과를 보면서 가설을 새로 설정했는데 마치 처음부터 설정한 가설이라고 얘기할 때 선택적 보고를 조심해야 한다.
자료수집 중단 시점 결정: 데이터 수집을 시작하기 전에 언제 수집을 중단할지 명확하게 결정하지 않으면 원하는 결과가 나올 때까지 데이터를 계속 수집할 수 있음. (결과의 신뢰성을 떨어뜨림.)
결과를 이미 정해놓고 그에 맞추기 위해 자료수집을 하고자 할 때 조심해야 함.(50명의 데이터를 수집하였으나 결과가 나오지 않는다고 추가 인원의 데이터를 수집하는 행위)
데이터 탐색과 검증 분리: 데이터 탐색을 통해 가설을 설정하고, 이를 검증하기 위해 별도의 독립된 데이터셋을 사용하는 것(데이터 과적합을 방지하고 결과의 신뢰성을 높임.)
검증하기 위한 데이터가 따로 필요할 때 사용
📌추가로 해야할 점
SQLD, 통계 복습, 머신러닝 세션 복습
'품질관리(QAQC) 데이터 부트캠프(본캠프)' 카테고리의 다른 글
| 본캠프_7주차(화)_TIL(머신러닝 기초 정리) (0) | 2025.10.28 |
|---|---|
| 본캠프_7주차(월)_TIL(기초 통계 정리) (0) | 2025.10.27 |
| 본캠프_6주차(목)_TIL (0) | 2025.10.23 |
| 본캠프_6주차(수)_TIL (0) | 2025.10.22 |
| 본캠프_6주차(화)_TIL (0) | 2025.10.21 |