무향향수

[Python] 단변량 분석 - 숫자형 본문

kt aivle

[Python] 단변량 분석 - 숫자형

튼튼한장 2024. 6. 8. 20:25

숫자로 요약하기: 정보의 대푯값

최빈값(mode)

자료 중에서 가장 빈번한 값

# 판다스의 mode 메서드 이용하기
titanic['Pclass]'.mode()

 

 

숫자형 변수 시각화하기 - Density Plot (KDE plot)

히스토그램의 단점

구간(bin)의 너비에 따라 모양이 달라진다.

plt.hist(titanic.Fare, bins=5)
plt.show()

 

 

 

plt.hist(titanic.Fare, bins=30)
plt.show()

 

히스토그램은 구간(bin)의 너비를 어떻게 잡는지에 따라 전혀 다른 모양이 될 수 있음

밀도함수 그래프는 막대의 너비를 가정하지 않고 모든 점에서 데이터 밀도의 추정하는 커널 밀도 추정(Kernel Density Estimation) 방식을 사용하여 이러한 단점을 해결

sns.kdeplot(titanic['Fare'])
plt.show()

 

 

sns.histplot(titanic['Age'], kde=True)

 

숫자형 변수 시각화하기 - Box Plot

사전에 반드시 NaN을 제외(sns.boxplot은 NaN을 알아서 제거해준다.)

vert 옵션: 횡(False), 종(True, 기본값)

plt.boxplot(temp['Age'], vert = False)
plt.show()

 

 

sns.boxplot(x=titanic['Age']
plt.show()

 

시계열 데이터 시각화

시계열 데이터는 보통 시간 축(x축)에 맞게 값들을 라인차트로 표현합니다.

air['Date'] = pd.to_datetime(air['Date']) # 날짜 형식으로 변환

plt.plot('Date', 'Ozone', 'g-', data = air, label = 'Ozone')
plt.plot('Date', 'Temp', 'r-', data = air, label = 'Temp')

plt.show()

 

 

 

'kt aivle' 카테고리의 다른 글

[Python] 경고 제거  (0) 2024.06.09
[Python] 단변량 분석 - 범주형  (0) 2024.06.08
[Python] matplotlib 패키지 - 데이터 시각화  (1) 2024.06.06
[Python] LangChain  (1) 2024.06.03
[Python] API  (0) 2024.06.03