✅ 오늘 한 것
Library 개인 과제 재풀이, 수준별 학습:베이직반(라이브 세션), 머신러닝의 이해와 라이브러리 활용 기초, 통계학 기초
✏️ 오늘 배운 점
Library 개인 과제
Boxplot: 이상치 확인에 효과적, 데이터 분포의 형태(밀도)는 알기 어려움
Violinplot: 이상치 확인 및 데이터 분포의 형태(밀도)까지 시각화하여 알 수 있음
수준별 학습:베이직반
서로 다른 형식의 날짜를 하나의 형식으로 바꾸어 Datetime 데이터타입으로 변형을 하기 위해서는 아래와 같은 코드를 활용하여 나타낼 수 있다.
df['날짜'] = pd.to_datetime(df['날짜'], format='mixed', errors='coerce')
머신러닝의 이해와 라이브러리 활용 기초
- 수치형 데이터
1. 연속형 데이터: 두 개의 값이 무한한 개수로 나누어진 데이터(키, 몸무게)
2. 이산형 데이터: 두 개의 값이 유한한 개수로 나누어진 데이터(주사위 눈, 나이)
- 범주형 데이터
1. 순서형 자료: 자료의 순서 의미가 있음(학점, 등급)
2. 명목형 자료: 자료의 순서 의미가 없음(혈액형, 성별)
머신러닝 모델에 데이터를 훈련시키기 위해서는 데이터를 숫자로 바꿔야 하기에 범주형 데이터를 0,1 등의 숫자로 바꾸는 과정을 Encoding 과정이라고 함.
선형 회귀의 가정
선형성(Linearity): 종속 변수(Y)와 독립변수(X) 간에 선형 관계가 존재해야 함.
등분산성(Homoscedasticity): 오차의 분산이 모든 수준의 독립 변수에 대해 일정해야 함.
정규성(Normality): 오차 항은 정규 분포를 따라야 함.
독립성(Independence): X변수는 서로 독립적이어야 함.
다중공선성 문제: 회귀분석에서 독립변수(X)간의 강한 상관관계가 나타나는 것
서로 상관관계가 높은 변수 중 하나만 선택하여 다중공선성을 해결할 수 있다.
선형 회귀
장점:
직관적이며 이해하기 쉽다. X-Y 관계를 정량화할 수 있다.
모델이 빠르게 학습된다.(가중치 계산이 빠르다.)
단점:
X-Y간의 선형성 가정이 필요하다.
평가지표가 평균(mean)포함 하기에 이상치에 민감하다.
범주형 변수를 인코딩시 정보 손실이 일어난다.
오즈비 = 실패확률 대비 성공확률 (P: 성공확률) --> 오즈비 = P/(1-P)
로지스틱함수는 가중치 값을 안다면 X값이 주어졌을 때 해당 사건이 일어날 수 있는 P의 확률을 계산할 수 있게 된다.
혼동행렬(confusion Matrix)

정밀도: 모델이 양성으로 예측한 결과 중 실제 양성의 비율(TP/(TP+FP))
재현율(민감도): 실제 값이 양성인 데이터 중 모델이 양성으로 예측한 비율(TP/(TP+FN))
f1-score: 정밀도와 재현율의 조화 평균
f1-score = (2*정밀도*재현율)/(정밀도+재현율)
정확도 = TP/(TP+TN+FN+FP)
로지스틱회귀
장점:
직관적이며 이해하기 쉽다.
단점:
복잡한 비선형 관계를 모델링하기 어려울 수 있음.
선형회귀와 로지스틱 분류의 차이점
| 구분 | 선형회귀 (회귀) | 로지스틱회귀 (분류) |
|---|---|---|
| Y (종속변수) | 수치형 | 범주형 |
| 평가척도 | Mean Squared Error, R² Score | Accuracy, F1 Score |
| sklearn 모델 클래스 | sklearn.linear_model.LinearRegression |
sklearn.linear_model.LogisticRegression |
| sklearn 평가 클래스 | sklearn.metrics.mean_squared_errorsklearn.metrics.r2_score |
sklearn.metrics.accuracy_scoresklearn.metrics.f1_score |
통계학 기초
단순선형회귀: 하나의 독립 변수(X)와 하나의 종속 변수(Y) 간의 관계를 직선으로 모델링하는 방법
하나의 독립변수와 종속변수와의 관계를 분석 및 예측
다중선형회귀: 두 개 이상의 독립 변수(X1, X2, ..., Xn)와 하나의 종속 변수(Y) 간의 관계를 모델링하는 방
여러 독립 변수의 변화를 고려하여 종속 변수를 설명하고 예측
범주형 변수: 수치형 데이터가 아닌 문자형 데이터로 이루어져 있는 변수 <--> 수치형 변
순서가 있는 범주형 변수: 옷의 사이즈, 수능 등급
순서가 없는 범주형 변수: 성별, 지역
다항회귀: 독립 변수와 종속 변수 간의 관계가 선형이 아닐 때 사용. 독립 변수의 다항식을 사용하여 종속 변수를 예측
데이터가 곡선적 경향을 따를 때 사용
스플라인 회귀: 독립 변수의 구간별로 다른 회귀식을 적용하여 복잡한 관계를 모델링
구간마다 다른 다항식을 사용하여 전체적으로 매끄러운 곡선 생성
✏️ 오늘의 핵심
오늘은 머신러닝 기초, 통계적 회귀 분석, 데이터 전처리 및 시각화에 대한 폭넓은 학습을 진행하며, 데이터 분석과 모델링의 기반이 되는 핵심 원리를 이해하는 데 집중하였다.
Boxplot과 Violinplot을 통해 이상치와 분포 형태를 시각적으로 해석할 수 있었고, 날짜 데이터의 일관성 확보 방법을 익혔다.
또한 선형/로지스틱 회귀의 가정과 차이점, 혼동행렬 기반 성능 평가 그리고 데이터 유형별 적절한 회귀 선택 기준을 명확히 정리함으로써 앞으로의 머신러닝 모델링 과정에서 데이터 해석력과 분석 정확도를 높일 수 있는 기반을 다졌다.
📌추가로 해야할 점
통계학 기초 완강, SQLD, 베이직반 수업 복습
'품질관리(QAQC) 데이터 부트캠프(본캠프)' 카테고리의 다른 글
| 본캠프_7주차(월)_TIL(기초 통계 정리) (0) | 2025.10.27 |
|---|---|
| 본캠프_6주차(금)_TIL (0) | 2025.10.24 |
| 본캠프_6주차(수)_TIL (0) | 2025.10.22 |
| 본캠프_6주차(화)_TIL (0) | 2025.10.21 |
| 본캠프_6주차(월)_TIL (0) | 2025.10.20 |