일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- git
- 데이터
- dictionary
- numpy
- 클래스
- 인공지능
- Java
- 백준
- Python
- 데이터분석
- 파이썬
- github
- 자바
- Ai
- KT AIVLE
- pandas
- KT
- 코딩
- 코딩테스트
- 정처기
- AI학습
- AI 윤리
- 모각코
- list
- ai 전문가 과정
- 알고리즘
- LG Aimers
- 데이터과학
- 정처기 실기
- AIVLE
- Today
- Total
무향향수
[Python] CRISP-DM 본문
CRISP-DM
Business Understanding
Data Understanding
Data Preparation
Modeling
Evaluation
Deployment
🍰 Business Understanding - 가설 수립
문제를 정의하고 요인을 파악하기 위해 가설을 수립한다.
과학 연구에서는 기존 연구 결과로 이어져 내려오는 정설을 귀무가설이라고 부르고
기존의 입장을 넘어서기 위한 새로운 연구 가설을 대립가설이라고 부릅니다.
여기서 우리가 수립하는 가설을 대립가설로 부르기도 합니다.
가설수립 절차
1. 해결해야할 문제가 무엇인가? (목표, 관심사, y)
2. y를 설명하기 위한 요인을 찾아라 (x)
3. 가설의 구조를 정의하라. x → y
🍰 Data Understanding
데이터 원본 식별 및 취득
(초기) 가설에서 도출된 데이터의 원본을 확인
통계량: 분할표(Contingency Table), MIN, MAX, SUM, MEAN, Quartile ...
시각화: Histogram, Box plot, Density plot, Bar plot, Pie chart, Scatter plot ...
데이터 탐색: EDA, CDA
EDA(Exploratory Data Analysis) 탐색적 데이터 분석
- 개별 데이터의 분포, 가설이 맞는지 파악
- NA, 이상치 파악
CDA(Confirmatory Data Analysis) 확증적 데이터 분석
- 탐색으로 파악하기 애매한 정보는 통계적 분석 도구(가설 검정) 사용
정리된 2차원 구조의 데이터셋을 분석하는 방법
적절한 그래프, 통계량, 가설검정 방법을 사용하여 해석해야한다.
단변량 분석: 개별 변수의 분포
이변량 분석1: feature와 target 간의 관계(가설을 확인하는 단계)
이변량 분석2: feature들 간의 관계
🍰 Data Preparation
개요
- 모든 셀에 값이 있어야 한다.
- 모든 값은 숫자여야 한다.
- (옵션) 값의 범위를 일치시켜야 한다.
수행되는 내용
- 결측치 조치
- 가변수화
- 스케일링
- 데이터 분할
🍰 Modeling
모델링(학습, learning, training)
데이터로부터 패턴을 찾는 과정
오차를 최소화 하는 패턴
결과물: 모델(모델은 수학식으로 표현됨)
모델링을 위해 필요한 두가지
- 학습데이터
- 알고리즘
'kt aivle' 카테고리의 다른 글
[Python] LangChain (1) | 2024.06.03 |
---|---|
[Python] API (0) | 2024.06.03 |
[Python] 시계열 데이터 처리 (1) | 2024.06.02 |
[Python] 데이터프레임 결합 (1) | 2024.06.02 |
[Python] 데이터프레임 변경 (0) | 2024.06.02 |