본문 바로가기

음성합성

(2)

음성 합성 #002 데이터 : 텍스트와 음성의 쌍이 필요하다! # 데이터 프로세싱 : Step1. [텍스트 + 음성] 추출 / Step2. 음성을 문장별 자르기 음성합성 모델 전체 구조 텍스트를 이용하여 바로 음성으로 만드는것은 어려움으로 타코트론2는 두 단계로 나누어 수행한다. Task1 : 텍스트 -> Mel-Spectrogram 생성 [Tacotron2] Task2 : Mel-Spectrogram -> 음성 합성 [WaveNet] 각 과정에 따른 모델을 따로 만들고 순차적으로 따로 학습해야한다. [Task1 - 타코트론2] Tacotron2 이란? (텍스트[input] -> Mel-Spectogram[output]) 우선 텍스트를 Encoder 에 넣기 전에 전처리과정이 필요하다. 1. Tacotron2 전처리 전처리..

음성 합성 #001 # 음성합성 : 텍스트를 사람의 음성으로 자연스럽게 읽어주는 기술 # 3세대 기술 : 타코트론(Tacotron) : 입력 데이터와 그에 대한 음성 신호 예측 - 학습 모델: 1) 인코더 : 입력 문자열에서 특징 정보를 생성 2) 디코더 : 음성의 스펙트로그램을 예측 3) 어텐션 : 인코더와 디코더를 연결 4) 음성합성부(Vocoder) : 음성을 만듦 # Text to Speech(TTS) 사전적 의미: 디지털 텍스트(input)를 음성(Output)으로 변환하는 기술 통상적 의미: 음성합성 시스템 # 이전의 TTS가 어려웠던 이유 1) 문자를 음성으로 바꾸는데 복잡한 작업이 필요함으로 2) 각 작업의 난이도가 높아 전문가의 지식이 필요함으로 3) 작업이 여러 단계로 분리되어 개발되므로 합쳤을때 품질이 ..

이전 1 다음

티스토리툴바