품질관리(QAQC) 데이터 부트캠프(본캠프)

본캠프_7주차(수)_TIL(라이브러리 기초 정리)

Wat_zy 2025. 10. 29. 09:06

✅ 오늘 한 것

졸업 시험 준비, 머신러닝의 이해와 라이브러리 활용 심화, 머신러닝 오프닝


✏️ 오늘 배운 점

머신러닝의 이해와 라이브러리 활용 심화

1-1. 데이터 수집

실제 데이터 수집

  • 회사 내 데이터가 존재한다면
    • SQL 혹은 Python 을 통해 데이터 마트를 생성
  • 회사 내 Data가 없다면 → 데이터 수집 필요
    • 방법1: CSV, EXCEL 파일 다운로드
    • 방법2: API를 이용한 데이터 수집
    • 방법3: Data Crawling

1-2. EDA 이론

☑️ 기술통계를 통한 EDA 예시

df.describe()

  • include='all' 옵션을 통해 범주형 데이터도 확인 가능

☑️ 시각화를 이용한 EDA 예시

1. countplot: 범주형 자료의 빈도 수 시각화

  • 방법: 범주형의 데이터의 각 카테고리별 빈도수를 나타낼 때
  • x축: 범주형 자료
  • y축: 자료의 빈도수
sns.countplot(x = x, data = data)

 

2. barplot: 범주형 자료의 시각화

  • 방법: 범주형 데이터의 각 카테고리에 따른 수치 데이터의 평균을 비교
  • x축: 범주형 자료
  • y축: 연속형 자료
sns.barplot(x = x, y = y, data = data)

 

3. boxplot: 수치형 & 범주형 자료의 시각화

  • 방법: 데이터의 분포, 중앙값, 사분위 수, 이상치 등을 한눈에 표현하고 싶을 때
  • x: 수치형 or 범주형
  • y: 수치형 자료
sns.boxplot(x = x, y = y, data = data)

 

4. histogram: 수치형 자료 빈도 시각화

  • 방법: 연속형 분포를 나타내고 싶을 때, 데이터가 몰려있는 구간을 파악하기 쉬움
  • x축: 수치형 자료
  • y축: 자료의 빈도수
sns.histplot(data = data, x = x)

 

5. scatterplot: 수치형끼리 자료의 시각화

  • 방법: 두 연속형 변수간의 관계를 시각적으로 파악하고 싶을 때
  • x축: 수치형 자료
  • y축: 수치형 자료
sns.scatterplot(x = x, y= y, data = data)

 

6. pairplot: 전체 변수에 대한 시각화

  • 방법: 한 번에 여러 개의 변수를 동시에 시각화 하고 싶을 때
  • x축: 범주형 or 수치형 자료
  • y축: 범주형 or 수치형 자료
  • 대각선: 히스토그램(분포)
sns.pairplot(data = data)

📌추가로 해야할 점

베이직반 복습, 머신러닝의 이해와 라이브러리 활용 심화