데이터 사이언스 개요_데이터 분석 맛보기
목차
Data Science
Data Science 발전 배경
6V
데이터 분석 환경 변화
Data Scientist 정의
주요 업무 영역
상세 분석 프로세스
Data Science
과학적, 논리적 사고와 기술력을 융합해 다양한 형태의 데이터로부터 지식과 인사이트를 도출하는 과정
➡️데이터로부터 새로운 지식을 도출하도록 수학/통계/컴퓨터과학 등의 기술력과 논리성이 유구
Data Science 발전 배경
Big Data 발전으로 인한 데이터 과학의 진보 및 필요성 등장
대용량&다양한 형태의 데이터를 활용한 새로운 가치 창출
6V
Technology, Hardware, Infra 관점
Volume(크기): 방대한 양의 대용량 데이터
Velocity(속도): 일반 처리 및 실시간 처리
Variety(다양성): 정형, 비정형, 반정형 데이터
Business, Software, Analytics 관점
Veracity(진실성): 데이터 품질 및 신뢰성 확보
Value(가치): 궁극적 비즈니스 가치 창출
Visualization(시각화): 복잡한 결과의 시각화 표현
데이터 분석 환경 변화
내부 데이터의 한정적 활용 환경 ➡️ 대용량 데이터 분석 환경 ➡️ 고차원 데이터 분석 환경
1.Traditional Data Analytics
내부/정형/정적 데이터 활용 - EDA, Summary, Statistics, Data Mining
예) teradata, ORACLE, sas, IBM SPSS
2. Big Data Analytics
내부/반정형/동적 데이터 활용 - EDA, Statistics, Machine Learning, Visualization
예) ORACLE, SAS, IBM SPSS, python, hadoop, R, hive
3. AI(Artficial Intelligence)
내외부/비정형(이미지등) 데이터 활용 - Feature Engineering, Machine Learning, Deep Learning
예) Sprak, TensorFlow, K, H2O.ai
Data Scientist 정의
Data Scientist > 다양한 산업 내 다양한 형태의 빅데이터를 가공 및 분석하여 새로운 가치를 창출하는 자
Citizen Data Scientist > 특정 도메인 내 빅데이터를 활용하여 본인의 비즈니스 영역 결과를 개선하는 자
주요 업무 영역
과제 수행 준비 > 데이터 준비 > 데이터 분석 > 분석 결과 정보화 > 자산화
상세 분석 프로세스
프로젝트 수행 준비 > 요구 사항 수집 > AS-IS 분석 > TO-BE 도출 / (여기까지 사전 준비 단계)>
((분석 대상 데이터 수집/처리 > 탐색적 데이터 분석(EDA) > ⭐고급 데이터 분석 )) Feedback Loop> 결과 기반 활용 방안 제안