일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- AI 윤리
- 데이터분석
- 데이터과학
- list
- 코딩테스트
- 코딩
- Python
- numpy
- KT AIVLE
- git
- 파이썬
- Java
- 알고리즘
- 정처기 실기
- 인공지능
- KT
- ai 전문가 과정
- 클래스
- 데이터
- 모각코
- LG Aimers
- Ai
- github
- 정처기
- AI학습
- pandas
- AIVLE
- 자바
- 백준
- dictionary
- Today
- Total
무향향수
[1주차] 데이터 및 데이터분석의 이해 본문
목차🐭
1. 데이터프레임
2. 데이터프레임 만들기
3. 데이터 추출 방법
4. 데이터 분석 연습하기
🐭 1. 데이터프레임
데이터 프레임이란 ?
표 형태의 데이터를 말한다.
데이터 프레임에 접근할 때는, 행과 열을 기준으로 접근하면 된다.
import pandas as pd
df = pd.read_csv('mpg.csv')
🐭 2. 데이터프레임 만들기
pandas에 내장된 DataFrame을 활용하여 직접 데이터프레임을 제작하여 사용할 수도 있다.
BDA = pd.DataFrame({'파이썬' : [100, 200, 300], '자바' : [10, 20, 30], 'C' : [1, 2, 3]})
BDA
🐭 3. 데이터 추출 방법
데이터를 추출할 때 컬럼을 기준으로 추출시 대괄호 사용하기
BDA['파이썬']
두 개의 컬럼에 저장된 데이터를 원하는 경우에도 마찬가지로 대괄호 사용하기
BDA[['파이썬', '자바']]
🐭 4. 데이터 분석 연습하기
pip install seaborn
# seaborn이 설치되어 있지 않는 경우 먼저 설치하기
import seaborn as sns
# seaborn은 matplotlib와 함께 파이썬의 대표적인 시각화 도구이다.
tt = sns.load_dataset('titanic')
tt
tt에 저장된 데이터프레임도 마찬가지로 특정 열에 저장된 값을 찾기 위해 대괄호를 사용한다.
tt[['survived', 'who']]
특정한 행의 데이터를 추출하기 위해서 index로 접근하여 index range slicing을 하면 된다.
tt[:]
# 범위를 지정하지 않는 경우 모든 범위가 출력된다.
tt[:100:2]
# 처음부터 99까지 2칸씩 건너띄어진 범위가 출력된다.
# 예) 0, 2, 4 ... 98
loc와 iloc함수 사용하기
loc : 인덱스를 기준으로 데이터를 추출한다.
iloc : 데이터프레임 순서에 따라 데이터를 추출한다.
tt.loc[10:100]
# 10부터 100번째 행이 출력된다.
tt.iloc[10:100]
# 10부터 99번째 행이 출력된다.
tt.info()
# 데이터 프레임의 정보가 출력된다.
판다스를 사용하여 새로운 열을 바로 추가하여 데이터프레임을 사용할 수 있다.
tt['pclass_new'] = tt['fare']/tt['pclass']
describe()를 사용하여 요약 통계를 추출함으로써 데이터를 쉽게 이해할 수 있다.
요약 통계는 연속형 데이터로만 만들 수 있다.
(범주형이나 문자열 데이터로는 요약 통계를 만들 수 없다.)
tt.describe()
tt.describe(include = 'all')
tt.fare.sum()
# fare열의 총합인 28693.9493이 출력된다.
BDA 1주차 수업
수업이 저녁 11시부터 해서 너무 피곤해서 제대로 못들었다. 그래도 1주차라서 OT수업이라 진도가 별로 안나가서 다행이다 😅 데이터 분석 기초반 수강하고 다음에는 중급 -> 고급 반까지 계속 수강해야겠다. 이번에는 4월달에 들었던 수업이랑 다르게 제대로 들어서 공모전 나가보고싶다..