✅ 오늘 한 것
졸업 시험 준비, 머신러닝의 이해와 라이브러리 활용 심화, 머신러닝 오프닝
✏️ 오늘 배운 점
머신러닝의 이해와 라이브러리 활용 심화
1-1. 데이터 수집
실제 데이터 수집
- 회사 내 데이터가 존재한다면
- SQL 혹은 Python 을 통해 데이터 마트를 생성
- 회사 내 Data가 없다면 → 데이터 수집 필요
- 방법1: CSV, EXCEL 파일 다운로드
- 방법2: API를 이용한 데이터 수집
- 방법3: Data Crawling
1-2. EDA 이론
☑️ 기술통계를 통한 EDA 예시
df.describe()
- include='all' 옵션을 통해 범주형 데이터도 확인 가능
☑️ 시각화를 이용한 EDA 예시
1. countplot: 범주형 자료의 빈도 수 시각화
- 방법: 범주형의 데이터의 각 카테고리별 빈도수를 나타낼 때
- x축: 범주형 자료
- y축: 자료의 빈도수
sns.countplot(x = x, data = data)
2. barplot: 범주형 자료의 시각화
- 방법: 범주형 데이터의 각 카테고리에 따른 수치 데이터의 평균을 비교
- x축: 범주형 자료
- y축: 연속형 자료
sns.barplot(x = x, y = y, data = data)
3. boxplot: 수치형 & 범주형 자료의 시각화
- 방법: 데이터의 분포, 중앙값, 사분위 수, 이상치 등을 한눈에 표현하고 싶을 때
- x: 수치형 or 범주형
- y: 수치형 자료
sns.boxplot(x = x, y = y, data = data)
4. histogram: 수치형 자료 빈도 시각화
- 방법: 연속형 분포를 나타내고 싶을 때, 데이터가 몰려있는 구간을 파악하기 쉬움
- x축: 수치형 자료
- y축: 자료의 빈도수
sns.histplot(data = data, x = x)
5. scatterplot: 수치형끼리 자료의 시각화
- 방법: 두 연속형 변수간의 관계를 시각적으로 파악하고 싶을 때
- x축: 수치형 자료
- y축: 수치형 자료
sns.scatterplot(x = x, y= y, data = data)
6. pairplot: 전체 변수에 대한 시각화
- 방법: 한 번에 여러 개의 변수를 동시에 시각화 하고 싶을 때
- x축: 범주형 or 수치형 자료
- y축: 범주형 or 수치형 자료
- 대각선: 히스토그램(분포)
sns.pairplot(data = data)
📌추가로 해야할 점
베이직반 복습, 머신러닝의 이해와 라이브러리 활용 심화
'품질관리(QAQC) 데이터 부트캠프(본캠프)' 카테고리의 다른 글
| 본캠프_7주차(금)_TIL (0) | 2025.10.31 |
|---|---|
| 본캠프_7주차(목)_TIL(머신러닝 정리) (0) | 2025.10.30 |
| 본캠프_7주차(화)_TIL(머신러닝 기초 정리) (0) | 2025.10.28 |
| 본캠프_7주차(월)_TIL(기초 통계 정리) (0) | 2025.10.27 |
| 본캠프_6주차(금)_TIL (0) | 2025.10.24 |