무향향수

[1주차] 데이터 및 데이터분석의 이해 본문

BDA 데이터분석 기초

[1주차] 데이터 및 데이터분석의 이해

튼튼한장 2023. 9. 4. 15:40

목차🐭

1. 데이터프레임

2. 데이터프레임 만들기

3. 데이터 추출 방법

4. 데이터 분석 연습하기

 


🐭 1. 데이터프레임

데이터 프레임이란 ?

표 형태의 데이터를 말한다. 

 

데이터 프레임에 접근할 때는, 행과 열을 기준으로 접근하면 된다.

import pandas as pd
df = pd.read_csv('mpg.csv')

 

 

 


🐭 2. 데이터프레임 만들기

pandas에 내장된 DataFrame을 활용하여 직접 데이터프레임을 제작하여 사용할 수도 있다.

BDA = pd.DataFrame({'파이썬' : [100, 200, 300], '자바' : [10, 20, 30], 'C' : [1, 2, 3]})
BDA

 


🐭 3. 데이터 추출 방법

데이터를 추출할 때 컬럼을 기준으로 추출시 대괄호 사용하기

BDA['파이썬']

 


두 개의 컬럼에 저장된 데이터를 원하는 경우에도 마찬가지로 대괄호 사용하기

BDA[['파이썬', '자바']]

 


🐭 4. 데이터 분석 연습하기

pip install seaborn
# seaborn이 설치되어 있지 않는 경우 먼저 설치하기

import seaborn as sns 
# seaborn은 matplotlib와 함께 파이썬의 대표적인 시각화 도구이다.

tt = sns.load_dataset('titanic')
tt

 


tt에 저장된 데이터프레임도 마찬가지로 특정 열에 저장된 값을 찾기 위해 대괄호를 사용한다.

tt[['survived', 'who']]

 

 


특정한 행의 데이터를 추출하기 위해서 index로 접근하여 index range slicing을 하면 된다.

tt[:]
# 범위를 지정하지 않는 경우 모든 범위가 출력된다.

 


tt[:100:2]
# 처음부터 99까지 2칸씩 건너띄어진 범위가 출력된다.
# 예) 0, 2, 4 ... 98


loc와 iloc함수 사용하기

loc : 인덱스를 기준으로 데이터를 추출한다.

iloc : 데이터프레임 순서에 따라 데이터를 추출한다.

 

tt.loc[10:100]
# 10부터 100번째 행이 출력된다.

 

tt.iloc[10:100]
# 10부터 99번째 행이 출력된다.


tt.info()
# 데이터 프레임의 정보가 출력된다.

 


판다스를 사용하여 새로운 열을 바로 추가하여 데이터프레임을 사용할 수 있다.

tt['pclass_new'] = tt['fare']/tt['pclass']

 

 


describe()를 사용하여 요약 통계를 추출함으로써 데이터를 쉽게 이해할 수 있다.

요약 통계는 연속형 데이터로만 만들 수 있다.

(범주형이나 문자열 데이터로는 요약 통계를 만들 수 없다.)

tt.describe()

 

tt.describe(include = 'all')

 

 


tt.fare.sum()
# fare열의 총합인 28693.9493이 출력된다.

 

더보기

BDA 1주차 수업

 수업이 저녁 11시부터 해서 너무 피곤해서 제대로 못들었다. 그래도 1주차라서 OT수업이라 진도가 별로 안나가서 다행이다 😅 데이터 분석 기초반 수강하고 다음에는 중급 -> 고급 반까지 계속 수강해야겠다. 이번에는 4월달에 들었던 수업이랑 다르게 제대로 들어서 공모전 나가보고싶다..