일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- KT
- 데이터분석
- 데이터
- 백준
- Java
- 인공지능
- 클래스
- AI학습
- 자바
- KT AIVLE
- 알고리즘
- 코딩
- LG Aimers
- 코딩테스트
- Python
- ai 전문가 과정
- 정처기 실기
- 정처기
- AIVLE
- numpy
- AI 윤리
- github
- git
- pandas
- list
- 파이썬
- dictionary
- 데이터과학
- Ai
- 모각코
- Today
- Total
목록인턴일기 (9)
무향향수

# 해당 글은 config.txt파일과 접속 명령어, 비밀번호를 알 때 사용할 수 있다.1. Visual Studio Code를 실행한다. 2. Remote - SSH 확장자를 설치한다. 3. Ctrl + Shift + P (Show All Commands)를 입력하여 검색창을 연다.4. 아래의 Remote-SSH: Connect to Host... 를 클릭한다. 5. Add New SSH Host를 클릭한다. 6. ssh 접속 명령어를 입력한다.E.g. ssh hello@microsoft.com -A 7. 입력칸에 config.txt 파일이 저장된 경로를 작성한다. 8. 비밀번호를 입력하고 사용한다.
파이썬 코드를 살펴보면if __name__ == "__main__": # ... 대부분 위와 같은 형식으로 코드가 작성되어 있는 것을 확인할 수 있다.처음에는 python에서는 메인 함수를 저런 식으로 호출하나보다 하고 그냥 넘기고 잘 사용하지 않았다.그러나 인턴 업무를 하며 코드를 하나씩 이해하던 도중 자주 발견 되어 제대로 알고 사용하고자 정보를 찾아보았다. 코드의 역할 ! 우선 해당 코드의 역할은 크게 두 가지가 있다.1. 모듈과 스크립트 구분 📏파이썬에서는 코드가 *모듈로 임포트될 때와 *스크립트로 직접 실행될 때 서로 다른 방식으로 실행된다.여기서 __name__ 은 현재 모듈의 이름을 나타내는 변수이다.만약 스크립트가 직접 실행되면 __name__ 값은 "__main__"이 된다.그러나 다른..

더보기평소처럼 인턴 업무를 하며 작성한 코드를 push하고 매일 꾸준하게 잔디를 심고 있었다. 그런데 다른 분들의 깃허브를 보니 잔디(contribution)랑 overview 화면이 등록되어 있었다. 신기해서 나도 overview 화면을 등록해 보았는데 commit만 매일 해서인지 그래프가 한쪽으로만 나와있었다. 나머지 Code review, Issues, Pull requests들은 0, 1%만 표시되어 있어 초라하고 너무 초보자의 레포지토리라는 것이 티가 났다. 그래서 나도 다른 깃허브 고수처럼 화려한 화면과 깃허브를 통달한 고수가 되고 싶어서 차근차근 순서대로 Issues 사용 방법에 대해 공부해보았다. 우선 깃허브 계정으로 이동하여 새 Project를 생성한다.다양한 테마가 많았지만 노션을 쓰며..
더보기인턴 업무 중에서 2만개의 이미지 파일명을 바꾼 후 파일의 정보를 json에 저장하고 json과 jpg파일을 제출 사이트에 업로드해야했다. 파일을 압축, 다운, 압축 해제, 업로드 순으로 과정을 진행해야 했는데 시간이 약 5시간 정도 걸렸고 코드를 실행시키고 파일을 전처리 하는 시간까지 합치면 10시간 넘게 시간이 소요되었다.매번 코드를 최대한 효율적으로 수정하였지만, 큰 변화가 없었다.단순한 파일 업로드로 인해 퇴근시간이 늦어져 시간이 매우 아깝다는 생각이 들었고, 로컬 환경이 아닌 가상환경에서 코드를 실행하고 파일을 처리하고자 정보를 찾아본 결과 AWS S3에 대해 알게되었다. 이제 Spark와 AWS S3를 함께 사용하면 퇴근시간이 빨라질 것만 같다..! 행복하다AWS S3Amazon Simp..
LLM(Large Language Model)대부분 생성 AI 챗봇은 LLM 모델을 기반으로 동작LLM은 언어 학습에 transformer라는 신경망 아키텍처 모델 사용* transformer: 문장의 순차 데이터 관계를 추적해 맥락과 의미를 학습하는 신경망 모델길이가 다른 시퀀스 처리 능력 우수LLM은 언어 데이터를 학습할 때 문장 사이 빈 단어를 예측하며 데이터 수집그러나 Hallucination, 정확하지 않은 정보를 진실처럼 출력하는 현상 존재 LMM(Large Multimodal Model)텍스트 뿐만 아니라 이미지, 오디오, 비디오 등 멀티모달 데이터에 대한 출력 생성 모델기존의 LLM과 Vision Encoder(이미지 -> 텍스트 모델)를 연결하는 vision-language cross-m..
원시데이터(Raw Data)인공지능 학습용 데이터 구축 과정에서 수집하거나 생성한 데이터(음성, 이미지, 영상, 텍스트 등)원천데이터(Source Data)데이터 라벨링 전 원시데이터에서 사용하기 어렵거나 형식이 다른 데이터 전처리 작업이 완료된 데이터Unlabeled Data 라고도 불리며 원시데이터를 라벨링하기 전 정제된 데이터라벨링데이터(Labeled Data)원천데이터에 인공지능이 학습할 수 있도록 정보를 부착한 데이터원천데이터에 참값(Ground Truth), 설명, 주석 등이 포함된 데이터 원시데이터 >> (전처리) >> 원천데이터 >> (라벨링) >> 라벨링데이터각 데이터는 순서대로 정제되고 라벨링이 부여된다.
더보기인턴으로 일하며 하루는 압축된 4만여개의 이미지 파일의 이름을 규칙에 맞게 변경하는 업무를 맡게 되었다.4시간 내로 '압축 해제->이름 변경->복사 및 저장->재압축->다운로드->업로드' 과정을 완료해야했는데 단순한 업무 였음에도 파일의 수와 용량이 많아 오랜 시간이 소요되었다. 실제로 약 5시간정도 소요되었고 시간제한을 지키지 못하여 업무가 끝난 후 시간이 단축되는 코드 작성 방법을 찾아보았다. 멀티 스레드나 멀티 프로세스를 활용하여 업무를 동시에 처리하면 빠르게 마무리 할 수 있다는 사실을 알게되어 개념정리를 하고 다음 업무에 사용하고자 멀티 스레드와 멀티 프로세스에 대해 공부 및 정리를 하게 되었다.🌼 멀티스레드 (Multithread) 스레드(Thread)프로그램 내 실행되는 작업의 단위 ..
우선 구글 코랩과 연동한 레포지토리를 생성해준다. 그 다음 토큰을 생성해야하는데 과정은 다음과 같다.Settings >> Developer settings >> Personal accesss tokens >> Generate new tokenrepo, read:org, gist 체크 후 생성 이후 코랩에서 아래 코드를 작성하면 된다. 1 드라이브와 코랩을 연결해준다.from google.colab import drivedrive.mount('/content/drive') 2 깃허브에 업로드할 폴더로 이동하기cd /content/drive/MyDrive/폴더명 3 미리 만들어 둔 깃 레포지토리를 클론한다.!git clone https://깃허브 계정 이름:깃허브 토큰@github.com/깃허브 계정 ..
1. vscode cmd에서 conda 가상환경 사용하기2. jupyter lab에서 conda 가상환경 사용하기 1. vscode cmd에서 conda 가상환경 사용하기- 1) 시스템 환경 변수 편집에 있는 path에 추가하여 cmd 에서도 conda 명령어를 사용할 수 있도록 해주기- 환경 변수의 path에 anaconda3의 경로를 복사하여 붙여넣기- 예)C:\Users\orange\anaconda3C:\Users\orange\anaconda3\LibraryC:\Users\orange\anaconda3\Scripts - 이후 conda 명령어를 입력하여 제대로 작동하는지 확인하기- 2) conda create 를 사용하여 가상환경 생성해주기// 가상환경 생성하기conda create -n 가상환경..