본캠프_3주차(5일)

품질관리(QAQC) 데이터 부트캠프(본캠프)

본캠프_3주차(5일)_TIL

Wat_zy 2025. 9. 25. 09:37

✅ 오늘 한 것

Python 라이브러리 라이브 세션, 전처리 & 시각화 라이브 세션, 라이브러리 활용 개인 과제, 아티클 스터디

✏️ 오늘 배운 점

개인 과제를 하는 도중 데이터에 중복 행이 아무 것도 없을 때 어떠한 결과값이 나타나는지 알 수 있었다.

np.int64(0)

파이썬 Pandas 라이브러리에서 object 자료형은 Dtype이 dtype('o')로 나타나는 것을 확인할 수 있었다.

value_counts()를 작성하면 데이터의 비중(특정 칼럼에 포함된 값의 개수)을 확인할 수 있다.

value_counts(normalize_True)를 작성하면 데이터의 비율을 확인할 수 있다.

# 나의 풀이
def solution(arr, divisor):
    new_list = []
    for i in arr:
        if i % divisor == 0:
            new_list.append(i)
    new_list.sort()
    if len(new_list) == 0:
        new_list.append(-1)
    return new_list
    
# 다른 사람의 풀이
def solution(arr, divisor): return sorted([n for n in arr if n%divisor == 0]) or [-1]

하나하나 조건에 해당하는 요소를 새로운 리스트에 넣는 방식으로 진행하여 코드를 작성하였지만 다른 사람의 풀이를 보니 리스트 컴프리헨션으로도 풀리고 컴프리헨션 사이에 or [-1]와 같은 추가 요소를 넣을 수 있다는 것이 신기했다.

def solution(s):
    return s[len(s) // 2 - 1 : len(s) // 2 + 1] if len(s) % 2 == 0 else s[len(s) // 2]

몇 줄에 걸쳐서 작성했던 코드를 한 줄로 처리를 하였으나 다른 사람의 풀이를 보고 더 간략하게 코드를 작성할 수 있다는 것을 볼 수 있었다. 단어 s의 가운데 글자를 반환하는 함수이기에 나는 위와 같은 두 가지 조건으로 작성하였으나, 조건문이 없는 리스트 컴프리헨션과 lambda를 활용한 코드 작성이 가능하다는 것을 볼 수 있었다.

data = {
"이름": ["철수", "영희", "민수", "지영", "현우"],
"키(cm)": [175, 182, 168, 190, 177],
"몸무게(kg)": [70, 85, 60, 95, 72]
}

import pandas as pd
import numpy as np

df = pd.DataFrame(data)
df
df['BMI'] = df['몸무게(kg)'] / ((df['키(cm)'] / 100) ** 2)
df
correlation_matrix = df[["키(cm)", "몸무게(kg)", "BMI"]].corr()
print(correlation_matrix)

코드를 작성할 때 상관관계를 확인할 요소들을 df[[]]로 직접 넣었지만 실무에서는 데이터의 값과 종류가 방대하기에 변수에 먼저 넣은 이후 df[변수]를 활용하는 것이 더 좋다는 것을 듣고 변수 활용을 더 습관화해야겠다는 생각이 들었다.

print는 "화면에 보여주기"뿐이고, return은 "값을 돌려주기" 때문에 데이터 파이프라인에서 return이 재사용에 유리하다.

Yozm IT데이터 시각화 101: 1 데이터 시각화는 왜 중요할까? | 요즘IT

데이터 시각화 101: 1 데이터 시각화는 왜 중요할까? | 요즘IT

데이터의 양이 늘어나고 복잡해질 수록 데이터를 좀 더 쉽게 이해하고 인사이트를 발견하는 것의 필요성이 높아지고 있는데요. 데이터 시각화란 말 그대로 데이터에서 발견한 정보를 시각적으

yozm.wishket.com

요약

데이터 시각화는 방대한 데이터를 직관적으로 이해할 수 있게 도와주는 핵심 도구입니다. 사람의 뇌는 텍스트보다 시각적 정보에 훨씬 빠르게 반응하기 때문에, 데이터가 시각적으로 표현될 때 패턴과 트렌드를 즉시 파악할 수 있습니다. 이러한 특성 덕분에 데이터 시각화는 의사결정 과정에 직접적으로 기여하며, 실제 사회·정책적 사례에서도 중요한 역할을 하고 있습니다.

주요 포인트

시각 정보는 텍스트보다 빠르고 효율적으로 인식됩니다.
데이터 시각화는 복잡한 데이터에서 패턴, 트렌드, 이상치를 쉽게 발견하도록 돕습니다.
의사결정 과정에서 데이터 시각화는 강력한 근거 자료로 활용됩니다.
런던 콜레라 지도, 코로나19 시뮬레이션 등 실제 사례는 데이터 시각화의 실질적 가치를 보여줍니다.
올바른 설계는 인사이트를 제공하지만, 잘못된 디자인은 혼란과 왜곡을 초래할 수 있습니다.

핵심 개념 및 용어 정리

데이터 시각화: 데이터를 차트, 그래프, 지도 등 시각적 요소로 표현하여 직관적 이해를 돕는 기법

정보 매핑(Visual Mapping): 데이터 값을 색상, 크기, 위치 등 시각적 속성과 연결하는 과정

인사이트: 데이터를 통해 의미 있는 패턴이나 관계를 발견하는 과정

인지 부하(Cognitive Load): 정보를 처리하는 과정에서 발생하는 정신적 부담. 시각화는 이를 줄여줍니다.

이상치(Outlier): 데이터의 일반적 범위에서 벗어난 특이값

아하 모먼트(Aha Moment): 시각화를 통해 숨겨진 패턴을 직관적으로 발견하는 순간

인사이트:

데이터 시각화는 단순히 자료를 예쁘게 표현하는 것이 아니라, 의사결정을 위한 본질적인 도구라는 점을 다시 한번 알게 되었습니다.

사람의 뇌가 시각적 자극을 텍스트보다 빠르게 처리한다는 사실은, 데이터 시각화가 왜 중요한지에 대한 강력한 근거가 되었습니다.

다만, 시각화를 잘못 설계할 경우 잘못된 메시지를 전달할 수 있으므로, 목적과 맥락에 맞는 디자인이 반드시 필요하다는 점도 배웠습니다.

Yozm IT데이터 시각화 101: 2직관적인 데이터 시각화 만들기 | 요즘IT

요약

직관적인 데이터 시각화는 뇌의 시각 정보 처리 과정을 이해하고 디자인에 반영할 때 가능합니다. 시각 정보는 기본 요소 추출, 패턴 인식, 의미 해석의 3단계를 거치며, '전주의적 속성'과 '게슈탈트 원리'를 활용하면 사용자가 빠르고 명확한 이해를 도울 수 있습니다. 다만, 과도한 시각 효과는 혼란을 주거나 메시지를 왜곡할 수 있으므로 비판적인 해석 능력도 중요합니다.

주요 포인트 뇌의 시각 정보 처리 3단계(기본 요소 추출 → 패턴 인식 → 의미 해석)를 이해하는 것이 시각화의 시작점입니다.

색상, 크기 등 '전주의적 속성'을 활용하면 사용자의 시선을 원하는 정보로 즉시 유도할 수 있습니다.
'게슈탈트 원리'를 적용해 데이터 요소들을 의미 있는 그룹으로 묶어주면 패턴 인식이 쉬워집니다.
지나친 시각 효과는 오히려 인지 부하를 높여 정보 전달을 방해하므로 주의해야 합니다.
모든 시각화는 제작자의 의도가 담길 수 있으므로, 왜곡 가능성을 염두에 두고 비판적으로 해석하는 능력이 중요합니다.의 시각 정보 처리 3단계(기본 요소 추출 → 패턴 인식 → 의미 해석)를 이해하는 것이 시각화의 시작점입니다.
색상, 크기 등 '전주의적 속성'을 활용하면 사용자의 시선을 원하는 정보로 즉시 유도할 수 있습니다.
'게슈탈트 원리'를 적용해 데이터 요소들을 의미 있는 그룹으로 묶어주면 패턴 인식이 쉬워집니다.
지나친 시각 효과는 오히려 인지 부하를 높여 정보 전달을 방해하므로 주의해야 합니다.
모든 시각화는 제작자의 의도가 담길 수 있으므로, 왜곡 가능성을 염두에 두고 비판적으로 해석하는 능력이 중요합니다.

핵심 개념 및 용어 정리

전주의적 속성: 보자마자 즉시 인식되는 시각적 특징 (예: 특정 색상, 큰 크기, 기울어진 방향 등). 게슈탈트 원리: 시각적 요소들을 하나의 그룹이나 전체로 인식하게 만드는 심리적 원리.

근접성: 가까이 있는 요소들을 하나의 그룹으로 묶어서 인식하는 경향.
유사성: 비슷한 모양이나 색을 가진 요소들을 같은 그룹으로 인식하는 경향.
공동 운명: 같은 방향으로 움직이거나 변화하는 요소들을 한 그룹으로 인식하는 경향.
균일 연결: 선이나 특정 형태로 시각적으로 연결된 요소들을 연관된 집단으로 인식하는 경향.

패턴 인식: 시각 요소의 공통점·차이점을 분석해 규칙성을 발견하는 과정 정보 해석: 패턴을 기반으로 의미를 부여하고 인사이트를 얻는 과정 인지 부하: 한 번에 처리해야 할 정보의 양이 뇌의 처리 용량을 초과하는 상태. 시각화가 복잡할수록 인지 부하가 높아집니다. 비판적 시각화 해석: 시각화가 제작자의 의도에 따라 왜곡될 수 있음을 이해하고, 숨겨진 메시지나 함정을 분별하며 해석하는 능력.

인사이트:
- 뇌가 정보를 처리하는 단계를 고려해 시각화를 설계해야 정보 이해도가 극적으로 높아진다는 점이 가장 큰 인사이트였습니다.
- '전주의적 속성'과 '게슈탈트 원리'는 단순히 디자인을 예쁘게 만드는 기술이 아니라, 정보 전달의 효율성을 높이는 핵심 도구라는 것을 깨달았습니다.
- 직관성만 강조하다 보면 오히려 데이터가 왜곡될 수 있다는 경고를 통해, 만드는 사람과 보는 사람 모두에게 균형 잡힌 시각이 필요하다는 점을 다시 한번 생각하게 되었습니다.

✏️ 오늘의 핵심

오늘은 데이터 처리와 시각화, 그리고 코드 작성에서 더 깊이 있는 통찰을 얻었다. Pandas에서는 중복이 없을 때 np.int64(0)이 반환되는 동작을 확인했고, object dtype, value_counts()와 같은 기본 기능을 다시 상기했다.

코딩 문제 풀이에서는 내가 작성한 for문 방식 외에도 리스트 컴프리헨션과 or [-1] 같은 파이썬다운 문법으로 더 간결하게 작성할 수 있다는 점이 인상적이었다. 또한 DataFrame에서 직접 컬럼을 지정하기보다 변수에 담아 활용하는 습관이 실무적이라는 점도 배웠다.

데이터 시각화 아티클을 통해서는 시각화는 단순히 예쁘게 표현하는 것이 아니라 의사결정과 설득의 핵심 도구임을 알게 되었고, 뇌의 시각 정보 처리 과정(기본 요소 추출 → 패턴 인식 → 의미 해석)을 고려해야 직관적인 시각화를 설계할 수 있다는 점을 다시 느꼈다. 전주의적 속성과 게슈탈트 원리를 통해 효과적으로 정보를 전달할 수 있지만, 잘못 설계하면 왜곡과 혼란을 초래할 수 있으므로 항상 목적과 맥락을 고려해야 한다는 교훈을 얻었다.

📌추가로 해야할 점

알고리즘 문제 풀기, Python 개인 과제 복습, 세션 이후 남은 Library 개인 과제 풀이

'품질관리(QAQC) 데이터 부트캠프(본캠프)' 카테고리의 다른 글

본캠프_3주차(일)_TIL (0)	2025.09.26
본캠프_3주차(토)_TIL (0)	2025.09.26
본캠프_3주차(4일)_TIL (0)	2025.09.25
본캠프_3주차(3일)_TIL (0)	2025.09.24
본캠프_3주차(2일)_TIL (0)	2025.09.23

현재글본캠프_3주차(5일)_TIL

장우석

watzy 님의 블로그 입니다.

Today :
Yesterday :

장우석