품질관리(QAQC) 데이터 부트캠프(본캠프)

본캠프_6주차(목)_TIL

Wat_zy 2025. 10. 23. 09:09

✅ 오늘 한 것

Library 개인 과제 재풀이, 수준별 학습:베이직반(라이브 세션), 머신러닝의 이해와 라이브러리 활용 기초, 통계학 기초


✏️ 오늘 배운 점

Library 개인 과제

Boxplot: 이상치 확인에 효과적, 데이터 분포의 형태(밀도)는 알기 어려움

Violinplot: 이상치 확인 및 데이터 분포의 형태(밀도)까지 시각화하여 알 수 있음

수준별 학습:베이직반

서로 다른 형식의 날짜를 하나의 형식으로 바꾸어 Datetime 데이터타입으로 변형을 하기 위해서는 아래와 같은 코드를 활용하여 나타낼 수 있다.

df['날짜'] = pd.to_datetime(df['날짜'], format='mixed', errors='coerce')

 

머신러닝의 이해와 라이브러리 활용 기초

- 수치형 데이터

1. 연속형 데이터: 두 개의 값이 무한한 개수로 나누어진 데이터(키, 몸무게)

2. 이산형 데이터: 두 개의 값이 유한한 개수로 나누어진 데이터(주사위 눈, 나이)

- 범주형 데이터

1. 순서형 자료: 자료의 순서 의미가 있음(학점, 등급)

2. 명목형 자료: 자료의 순서 의미가 없음(혈액형, 성별)

 

머신러닝 모델에 데이터를 훈련시키기 위해서는 데이터를 숫자로 바꿔야 하기에 범주형 데이터를 0,1 등의 숫자로 바꾸는 과정을 Encoding 과정이라고 함.

 

선형 회귀의 가정

선형성(Linearity): 종속 변수(Y)와 독립변수(X) 간에 선형 관계가 존재해야 함.

등분산성(Homoscedasticity): 오차의 분산이 모든 수준의 독립 변수에 대해 일정해야 함.

정규성(Normality): 오차 항은 정규 분포를 따라야 함.

독립성(Independence): X변수는 서로 독립적이어야 함.

 

다중공선성 문제: 회귀분석에서 독립변수(X)간의 강한 상관관계가 나타나는 것

서로 상관관계가 높은 변수 중 하나만 선택하여 다중공선성을 해결할 수 있다.

 

선형 회귀

장점:

직관적이며 이해하기 쉽다. X-Y 관계를 정량화할 수 있다.

모델이 빠르게 학습된다.(가중치 계산이 빠르다.)

단점:

X-Y간의 선형성 가정이 필요하다.

평가지표가 평균(mean)포함 하기에 이상치에 민감하다.

범주형 변수를 인코딩시 정보 손실이 일어난다.

 

오즈비 = 실패확률 대비 성공확률 (P: 성공확률) --> 오즈비 = P/(1-P)

로지스틱함수는 가중치 값을 안다면 X값이 주어졌을 때 해당 사건이 일어날 수 있는 P의 확률을 계산할 수 있게 된다.

 

혼동행렬(confusion Matrix)

정밀도: 모델이 양성으로 예측한 결과 중 실제 양성의 비율(TP/(TP+FP))

재현율(민감도): 실제 값이 양성인 데이터 중 모델이 양성으로 예측한 비율(TP/(TP+FN))

f1-score: 정밀도와 재현율의 조화 평균

f1-score = (2*정밀도*재현율)/(정밀도+재현율)

정확도 = TP/(TP+TN+FN+FP)

 

로지스틱회귀

장점:

직관적이며 이해하기 쉽다.

단점:

복잡한 비선형 관계를 모델링하기 어려울 수 있음.

 

선형회귀와 로지스틱 분류의 차이점

구분 선형회귀 (회귀) 로지스틱회귀 (분류)
Y (종속변수) 수치형 범주형
평가척도 Mean Squared Error, R² Score Accuracy, F1 Score
sklearn 모델 클래스 sklearn.linear_model.LinearRegression sklearn.linear_model.LogisticRegression
sklearn 평가 클래스 sklearn.metrics.mean_squared_error
sklearn.metrics.r2_score
sklearn.metrics.accuracy_score
sklearn.metrics.f1_score

통계학 기초

단순선형회귀: 하나의 독립 변수(X)와 하나의 종속 변수(Y) 간의 관계를 직선으로 모델링하는 방법

하나의 독립변수와 종속변수와의 관계를 분석 및 예측

다중선형회귀: 두 개 이상의 독립 변수(X1, X2, ..., Xn)와 하나의 종속 변수(Y) 간의 관계를 모델링하는 방

여러 독립 변수의 변화를 고려하여 종속 변수를 설명하고 예측

 

범주형 변수: 수치형 데이터가 아닌 문자형 데이터로 이루어져 있는 변수 <--> 수치형 변

순서가 있는 범주형 변수: 옷의 사이즈, 수능 등급

순서가 없는 범주형 변수: 성별, 지역

 

다항회귀: 독립 변수와 종속 변수 간의 관계가 선형이 아닐 때 사용. 독립 변수의 다항식을 사용하여 종속 변수를 예측

데이터가 곡선적 경향을 따를 때 사용

 

스플라인 회귀: 독립 변수의 구간별로 다른 회귀식을 적용하여 복잡한 관계를 모델링

구간마다 다른 다항식을 사용하여 전체적으로 매끄러운 곡선 생성


✏️ 오늘의 핵심

오늘은 머신러닝 기초, 통계적 회귀 분석, 데이터 전처리 및 시각화에 대한 폭넓은 학습을 진행하며, 데이터 분석과 모델링의 기반이 되는 핵심 원리를 이해하는 데 집중하였다.

Boxplot과 Violinplot을 통해 이상치와 분포 형태를 시각적으로 해석할 수 있었고, 날짜 데이터의 일관성 확보 방법을 익혔다.

또한 선형/로지스틱 회귀의 가정과 차이점, 혼동행렬 기반 성능 평가 그리고 데이터 유형별 적절한 회귀 선택 기준을 명확히 정리함으로써 앞으로의 머신러닝 모델링 과정에서 데이터 해석력과 분석 정확도를 높일 수 있는 기반을 다졌다.


📌추가로 해야할 점

통계학 기초 완강, SQLD, 베이직반 수업 복습