Speechz Text to speech 1.0

Licença: Livre ‎Tamanho do arquivo: N/A
‎Classificação dos usuários: 0.0/5 - ‎0 ‎Votos

Sobre Speechz Text to speech

Texto de Speechz para falar

Síntese da fala é a produção artificial da fala humana. Um sistema de computador usado para este fim é chamado de sintetizador de fala, e pode ser implementado em software ou produtos de hardware. Um sistema de texto para fala (TTS) converte texto de linguagem normal em fala; outros sistemas tornam representações linguísticas simbólicas como transcrições fonéticas em discurso. [1] A fala sintetizada pode ser criada concatenando peças de fala gravadas que são armazenadas em um banco de dados. Os sistemas diferem no tamanho das unidades de fala armazenadas; um sistema que armazena telefones ou diphones fornece a maior faixa de saída, mas pode não ter clareza. Para domínios de uso específicos, o armazenamento de palavras ou frases inteiras permite uma saída de alta qualidade. Alternativamente, um sintetizador pode incorporar um modelo do trato vocal e outras características de voz humana para criar uma saída de voz completamente "sintética". [2] A qualidade de um sintetizador de fala é julgada por sua semelhança com a voz humana e por sua capacidade de ser compreendido. Um programa inteligíveis de texto para fala permite que pessoas com deficiência visual ou deficiência de leitura ouçam trabalhos escritos em um computador doméstico. Muitos sistemas operacionais de computador incluíram sintetizadores de fala desde o início da década de 1990.

Visão geral de um sistema TTS típico

Anúncio automático MENU0:00 Uma voz sintética anunciando um trem chegando na Suécia. Problemas em reproduzir esse arquivo? Veja a ajuda da mídia.

Amostra do Microsoft Sam MENU0:00 A voz de sintetizador de fala padrão do Microsoft Windows XP dizendo "A raposa marrom rápida pula sobre o cão preguiçoso 1.234.567.890 vezes. soi" Problemas em reproduzir esse arquivo? Veja a ajuda da mídia. Um sistema de texto para fala (ou "motor") é composto por duas partes:[3] uma front-end e uma back-end. A frente tem duas tarefas principais. Primeiro, converte textos brutos contendo símbolos como números e abreviaturas em o equivalente a palavras escritas. Esse processo é frequentemente chamado de normalização de texto, pré-processamento ou tokenização. A frente atribui transcrições fonéticas a cada palavra, divide e marca o texto em unidades prosódicas, como frases, cláusulas e frases. O processo de atribuição de transcrições fonéticas às palavras é chamado de conversão text-to-phoneme ou grapheme-to-phoneme. Transcrições fonéticas e informações de prosódico juntas compõem a representação linguística simbólica que é a saída pela parte frontal. O back-end—muitas vezes referido como o sintetizador—então converte a representação linguística simbólica em som. Em certos sistemas, esta parte inclui o cálculo da prosódia alvo (contorno de tom, durações de fonema),[4] que é então imposta ao discurso de saída.