일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 데이터
- git
- list
- Java
- dictionary
- AI 윤리
- LG Aimers
- 자바
- 백준
- KT AIVLE
- AIVLE
- AI학습
- Ai
- 인공지능
- KT
- github
- pandas
- 코딩
- 알고리즘
- 파이썬
- 모각코
- ai 전문가 과정
- 코딩테스트
- 데이터과학
- 데이터분석
- 정처기
- 정처기 실기
- Python
- 클래스
- numpy
- Today
- Total
목록데이터분석 (22)
무향향수
데이터 엔지니어 - 핵심 가치를 관리 데이터 파이프라인 개발 데이터 마트 개발 초등학생도 이해할 수 있을 정도로 쉽게 설명해보기자격 요건에 1년 이상으로 적혀있는 경우 인턴 경험등으로 인해 1년 이하(2개월 정도) 경험이 있다면 지원 해보기앤드류 응 머신러닝 풀 코스 kaggle공부한 건 꼭 기록하기복습할 때 쓰기, 명확히 내용 파악, 나의 공부 이력 증명개인 프로젝트 모든 기초를 쌓고 공모전에 도전하기지원자 오리지널이 느껴지는 포트폴리오 작성 필요문제정의 해결전략 결과 해석 이후 계획이 담겨져 있는 포트폴리오가 필요기술적인 이야기가 담겨있는 포트폴리오는 별로! 실무경험>졸좋은 포트폴리어>학점 >>>자격증, 정부 교육 전략적인 경험 쌓기, 좋은 포트폴리오 만들기 관심 산업 데이터 분석하기 커리어 쌓으려는..
2024.06.13졸업프로젝트 창의 축전 이후 머신러닝 코드를 수정하였다.멘토링 이후 머신러닝의 효과를 확인하기 위해, 단순히 1주전 데이터를 이용하는 것보다 머신러닝 예측 정확도가 더 높은지 확인해 보았다. 아직 기본 모델을 사용하고 있기 때문에 정확도에 큰 차이는 없었다.그래도 많이 차이날 것이라고 생각했는데 별 차이가 없어서 충격이었다. 그래서 충전소별로 모델을 사용하는 것이 아니라 모든 충전소를 하나의 데이터 프레임으로 합친다음 하나의 데이터 프레임을 학습시켜서 모델을 만들고 해당 모델로 각 충전소의 수요를 예측하기로 하였다. 졸업 프로젝트를 위해 데이터 분석을 하면서, kt aivle school이나 dacon, kaggle 등 다양한 곳에서 데이터를 접할 때에는 시각화 및 분석에 용이하도록 데..
importimport pandas as pdimport numpy as npimport seaborn as snsfrom sklearn.model_selection import train_test_split # 테스트, 학습 데이터 분리from sklearn.preprocessing import StandardScaler # 데이터 정규분포화, 표준화# 모델from sklearn.linear_model import LogisticRegressionfrom sklearn.tree import DecisionTreeClassifierfrom sklearn.ensemble import RandomForestClassifierimport xgboost as xgbfrom lightgbm import LGBMC..
후기팀장님과 함께 진행하였는데 KT Aivle school 수업을 같이 듣고 다른 공부를 병행하며 진행해서 프로젝트에 완전히 집중할 수 없었다는 점이 아쉬웠다. 그리고 코드를 작성하는 실력이 서툴러서 오류가 계속 발생하여 프로젝트 진행에 차질이 생겼다는 점도 굉장히 아쉬웠다. 알게된 점같이 협력하는 과정에서 개발 환경, 코드, 변수, 역할 분담 등이 코드를 작성하기 전에 우선 합의되어야 좋을 것 같다.프로젝트를 시작하기 전, 기본 지식이 확실하게 있어야 한다. 분석하려는 주제에 대한 기본 지식이 없으면, 무엇을 분석해야하는지, 어떤 방향으로 과제를 해결해야하는지 알기어렵다. 나 혼자만 코드를 작성하여 데이터를 분석했을 때와는 달리 전혀 생각하지 못했던 내용들에 대해 알 수 있어서 좋았다.예를 들어 월 별..
shift() 시계열 데이터에서만 쓸 수 있다. 시간의 흐름 전후로 정보를 이동한다. temp['Amt_lag'] = temp['Amt'].shift() # default = 1 temp['Amt_lab'] = temp['Amt'].shift(-1) # 1행 앞 당기기 rolling() min_period() min_periods값에 최소 데이터 수를 입력하면 된다. temp['Amt_MA7_2'] = temp['Amt'].rolling(7, min_periods = 1).mean() 첫번째 값부터 계산하기 때문에 앞에 값이 없는 경우 자신의 값을 그대로 작성 두번째는 첫번째, 두번째 값, 세번째는 첫번쨰, 두번째, 세번째 값 ... 이렇게 앞에 값이 없어도 있는 값을 더하여 계산한다.
분석을 위한 기본구조: 2차원 x: feature y: target, label 데이터 전처리에는 두 가지 단계가 있다. 1. 데이터 구조 만들기 (행과 열 형태로) 2. 모델링을 위한 전처리 (머신러닝, 딥러닝) np.where(조건, 참, 거짓) data['JobSat2'] = np.where(data['JobSat'] 1, Female -> 0 data['Gen'] = data['Gen'].map({'Male': 1, 'Female': 0}) 열 삭제 삭제할 때는 항상 조심해야한다. 잘못 되었을 때 되돌리기 위한 준비가 필요해! 그래서 복사본을 항상 제작해두자 data2 = data.copy(..
분석을 위한 데이터 구조(자료형) Numpy: 수치 연산 pandas: 비즈니스 데이터 표현 분석할 수 있는 정보의 종류 2가지 - 숫자, 범주 Reshape a = np.array([[1, 2, 3], [4, 5, 6]]) b = a.reshape(3, 2) # 또는 b = np.reshape(a, (3, 2)) a.reshape(3, 2) 또는 np.reshape(a, (3, 2)) 형태로 변환할 수 있다. Reshape에서 -1 a.reshape(3, -1) a.reshape(-1 ,3) -1을 작성하면 데이터에 맞게 자동으로 생성 열자리에 있으면, 행에 맞게 행자리에 있으면, 열에 맞게 가장 큰(작은) 값의 인덱스 반환 np.argmax, np.argmin np.argmax(a) np.argmax..
Jupyter notebook 시작 User내에 있는 폴더로 들어간다. cd P1 엔터를 입력하고 jupyter notebook을 실행한다. jupyter notebook 또는 jupyter lab을 사용한다. jupyter lab => 열고싶은 파일이 있거나, 실행하는 파일을 저장하고 싶은 폴더로 미리 이동한 후 jupyter lab을 실행하는 것이 좋다. 신기해~ 새롭게 알게 된 부분 1. Jupyter Lab 단축키 셀을 선택하는 방법 Alt + Enter: 해당 셀 실행 후 아래 새 행 생성 Shift + Enter: 해당 셀 실행 후 아래 행으로 이동 z: 삭제된 셀을 다시 생성하기 y: 코드셀로 전환하기 을 입력하거나 Enter를 두 번 누르면 마크다운 셀(텍스트 셀) 줄바꿈을 할 수 있다. ..
목차 CRUD CRUD 예제 DataFrame 인덱스 Open API를 이용한 데이터 수집 JSON JSON to DataFrame CRUD Create, Read, Update, Delete 데이터의 생성, 조회, 수정, 삭제를 일컫는 말 ➡️ 데이터 분석을 위해 Pandas로 데이터를 조작할 때, Dataframe을 목적에 맞게 변경하여 다루는 것이 중요 CRUD 예제 컬럼과 레코드 생성, 갱신 제거 DataFrame 인덱스 인덱스의 존재는 Dataframe의 가장 큰 특징 중 하나 loc인덱서를 이용하면 원하는 데이터 조회 가능 df.set_index('열이름') 으로 설정하면 기존의 인덱스는 column에 들어가고 입력한 열이 index가 된다. Open API를 이용한 데이터 수집 Open AP..
목차 다차원 배열 vs Dataframe Numpy 라이브러리 Numpy 배열 다차원 배열 vs Dataframe 다차원 배열 Dataframe 활용 예시 딥러닝 Input 데이터 (3차원 이상의 배열) 통계 분석 / 머신러닝 구현 방식 Numpy 라이브러리 Pandas 라이브러 Numpy 라이브러리 설치 방법: conda install numpy 장점! 1. 고속 연산 파이썬 리스트에 비해 빠른 속도와 좋은 메모리 효율 선형대수 연산이 가능 쉬운 데이터 배열 처리(반복문 필요 없음) 2. 쉽고 빠른 배열 변환 예) 3차원에서 2차원으로 변환 3. 다양한 함수 제공 축(axis)에 따른 집계 연산 가능 배열의 형태 조건이 맞으면 다른 배열과 연결 가능 손쉬운 랜덤 샘플링 가능 Numpy 배열 Numpy가..