Speechz Text to speech 1.0

Licencia: Gratis ‎Tamaño del archivo: N/A
‎Calificación de usuarios: 0.0/5 - ‎0 ‎Votos

acerca de Speechz Text to speech

Speechz Texto a voz

La síntesis del habla es la producción artificial del habla humana. Un sistema informático utilizado para este propósito se llama sintetizador de voz, y se puede implementar en productos de software o hardware. Un sistema de texto a voz (TTS) convierte el texto de idioma normal en voz; otros sistemas representan representaciones linguísticas simbólicas como transcripciones fonéticas en el habla. [1] La voz sintetizada se puede crear concatenando fragmentos de voz grabadas que se almacenan en una base de datos. Los sistemas difieren en el tamaño de las unidades de voz almacenadas; un sistema que almacena teléfonos o difonos proporciona el rango de salida más grande, pero puede carecer de claridad. Para dominios de uso específicos, el almacenamiento de palabras o oraciones completas permite una salida de alta calidad. Alternativamente, un sintetizador puede incorporar un modelo del tracto vocal y otras características de voz humana para crear una salida de voz completamente "sintética". [2] La calidad de un sintetizador de voz se juzga por su similitud con la voz humana y por su capacidad de ser entendido. Un programa inteligible de texto a voz permite que las personas con discapacidades visuales o con discapacidades de lectura escuchen obras escritas en un ordenador doméstico. Muchos sistemas operativos informáticos han incluido sintetizadores de voz desde principios de la década de 1990.

Descripción general de un sistema TTS típico

Anuncio automático MENU0:00 Una voz sintética anunciando un tren que llega a Suecia. ¿Problemas para reproducir este archivo? Consulte la ayuda de los medios de comunicación.

Ejemplo de Microsoft Sam MENU0:00 La voz predeterminada del sintetizador de voz de Microsoft Windows XP diciendo "El zorro marrón rápido salta sobre el perro perezoso 1,234,567,890 veces. soi" ¿Problemas para reproducir este archivo? Consulte la ayuda de los medios de comunicación. Un sistema de texto a voz (o "motor") se compone de dos partes:[3] un front-end y un back-end. El front-end tiene dos tareas principales. En primer lugar, convierte el texto sin formato que contiene símbolos como números y abreviaturas en el equivalente de palabras escritas. Este proceso a menudo se denomina normalización de texto, preprocesamiento o tokenización. A continuación, el front-end asigna transcripciones fonéticas a cada palabra y divide y marca el texto en unidades prosódicas, como frases, cláusulas y oraciones. El proceso de asignación de transcripciones fonéticas a las palabras se denomina conversión de texto a fonema o grafema a fonema. Las transcripciones fonéticas y la información de prosodia juntos conforman la representación linguística simbólica que genera el front-end. El back-end—a menudo conocido como el sintetizador—luego convierte la representación linguística simbólica en sonido. En ciertos sistemas, esta parte incluye el cálculo de la prosodia objetivo (contorno de tono, duraciones del fonema),[4] que luego se impone en el discurso de salida.