일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 데이터분석
- numpy
- 클래스
- 자바
- 백준
- 데이터
- KT
- list
- 정처기
- github
- 알고리즘
- 코딩
- Python
- Java
- 모각코
- 정처기 실기
- dictionary
- Ai
- LG Aimers
- AIVLE
- AI학습
- 인공지능
- 파이썬
- git
- pandas
- AI 윤리
- KT AIVLE
- 데이터과학
- 코딩테스트
- ai 전문가 과정
- Today
- Total
무향향수
[STT] 본문
아동 음성 데이터로 STT를 진행할 때 주의사항
1. 정확도 개선을 위한 데이터 증강
2. 음성 시작 전 공백의 편차가 크기 때문에 음성 데이터를 기반으로 음성의 공백을 제거한다.
음성 데이터의 앞뒤 공백을 잘라내고 0.5초씩 묵음을 삽입하여 데이터를 규격화 한다.
3. 음성속도를 0.8~1.2배속 무작위로 변경하여 추가한다.
4. 한정된 자원을 사용해 모델의 성능을 개선하기 위해 최적의 변환 범위 등 변환 조건을 찾는 것이 중요하다.
5. 아동 데이터만 학습했을 때보다 성인 데이터와 아동 데이터를 같이 학습한 경우 아동 데이터만 학습했을 때보다 성능이 개선되었다. 그러나 성인 데이터의 양의 과도하게 많은 경우 오히려 성능이 떨어지는 모습을 확인할 수 있었다.
6. 예) 연구결과 아동데이어 50,000개, 성인 데이터10,000로 이루어진 모델의 성능이 가장 좋았다.
----------------------------
<주 모델 참조>
OpenAI의 Whisper을 fine-tuning하여 소아/유아 음성에 적합한 모델 개발
GPT-4와 Stable diffusion으로 동화책 제목, 내용, 그림 생성
KoGPT2를 한글 동화 데이터로 학습시키는 경우도 존재
Image Captioning을 통해 그림 동화책의 내용을 텍스트로 전달한다.
Text-to-speech(TTS) 텍스트를 음성으로 재생한다.
Voice Conversion으로 부모님 등 제 3자의 목소리로 그림 동화책을 들을 수 있다.
DALLE2 이미지 배경 생성
➡️ Whisper
➡️ Stable Diffusion - 이미지 생성
➡️ KoGPT2 - 머신러닝 알고리즘을 활용해 입력된 샘플 텍스트를 구문론적, 문법적, 정보 등의 일관성을 갖춘 텍스트로 생성하는 자연어처리 모델 (사용법 참조 - https://wikidocs.net/157001)
➡️ Image Captioning - 컴퓨터 비전과 자연어처리를 결합하여 이미지에 대한 자연어 설명을 생성하는 작업 (사용법 참조 - https://huggingface.co/docs/transformers/main/ko/tasks/image_captioning)
➡️ TTS - 텍스트를 입력하면 출력으로 음성을 생성해주는 모델 (사용법 참조 - https://huggingface.co/tasks/text-to-speech)
➡️ Voice Conversion
<성능 개선>
multiprocessing & parmap을 이용한 병렬처리로 프로레서를 최대로 사용하여 기존 소요시간을 단축시킨다.
<데이터 관리>
전처리한 데이터셋과 fine-tuning한 모델들은 hugging-face hub를 통해 관리한다.
<과정>
1. 사용자가 원하는 주제, 동화 내용 또는 동화에 대한 질문을 음성 데이터로 저장한다.
2. 음성 인식 모델인 Whisper를 사용하여 음성 데이터를 텍스트로 변환해준다.
3. 해당 텍스트를 GPT-4에 전달하여 동화책 또는 질문에 대한 답을 생성한다.
4. 생성된 동화책이나 대답을 사용자에게 전달한다.
⭐ToDoList⭐
1. 데이터 전처리
- 음성의 공백을 제거하고 0.5초씩 묵음을 삽입하여 데이터를 규격화한다.
- 음성 속도를 0.8~1.2배속(변경가능)으로 변경하여 데이터에 추가한다.
- 아동, 성인, 어린이데이터 등 다양한 음성 데이터를 사용한다. (과도하게 많이 사용하면 오히려 성능이 떨어지므로 주의)
'kt aivle' 카테고리의 다른 글
[Python] 텍스트를 띄어쓰기 기준 리스트 형태로 저장하기 (1) | 2024.07.09 |
---|---|
[Python] 다른 파일의 함수 from, import로 불러오기 (0) | 2024.07.01 |
[Whisper] Whisper를 활용하여 STT 구현하기 (0) | 2024.06.27 |
[Python] 가상환경 구축하기 (VSCode/Conda) (0) | 2024.06.27 |
[Github] 깃 허브 기초 사용법 정리 (0) | 2024.06.24 |