¿Qué es Speech Synthesis Markup Language (SSML)? Cómo usarlo en software de conversión de texto a voz y la lista de códigos principales.
17 de abril de 2024
Hola, bienvenido al sitio web de Ondoku.
Hoy, nos gustaría presentar SSML.
Puede resultarle difícil, ya que existen algunos términos técnicos.
Sin embargo, si lo conoce, hará una gran diferencia en la forma en que usa Ondoku.
Por favor, léalo mientras intentamos que sea fácil de entender.
¿Qué es SSML?
En primer lugar, SSML significa Speech Synthesis Markup Language.
Es similar a HTML.
Al escribir este código SSML, puede controlar aún más el habla de Ondoku.
Cómo usar SSML con Ondoku
Es muy fácil usar SSML en Ondoku.
Ingrese directamente el código SSML en el cuadro de texto Ondoku.
El SSML se aplicará automáticamente.
Asegúrese de incluir
<speak> </speak>
al principio y al final del código. Sin el código <speak>, no se aplicará SSML.
<speak> </speak>
Como se mencionó anteriormente, este es el código para activar SSML.
Asegúrese de incluir este código al principio y al final del texto que desea convertir a voz.
Ejemplo
<speak> Ingrese el texto que desea convertir de texto a voz aquí </speak>
<tiempo de pausa = "○○ ms" />
Como su nombre lo indica, el código de tiempo de pausa es un código para hacer una pausa.
Ingrese el código donde desea insertar un tiempo de descanso y reemplace ○○ con el número que desee.
El discurso generado por Ondoku no tendrá "pausa" a menos que se especifique.
Puede hacer un descanso con paréntesis o puntuación, pero es posible que estas pausas no se establezcan como desea.
Especialmente si necesita un tiempo de descanso de más de 2 segundos, será más difícil de controlar.
Sin embargo, si ingresa
<tiempo de pausa = "1000 ms" />
al lugar donde quieres poner una pausa,
<hablar>
Quiero un tiempo de descanso <break time = "1000ms" /> al leer esta oración.
</speak>
oirás una pausa en el medio de la oración.
* 1000 ms = 1 segundo
Puede cambiar el número antes de ms o s libremente para controlar la duración de la pausa.
200 ms = 0,200 segundos
500ms = 0.500 segundos
1000ms = 1.000 segundos
2000ms = 2.000 segundos
3 s = 3 segundos
10 s = 10 segundos, etc.
<say-as interpret-as = "improperio"> ○○ </say-as>
Con este código, el texto en ○○ se reproducirá con un pitido para censurar un pitido.
Es una especie de código divertido. El texto incluido en este código será reemplazado por un pitido.
<hablar>
Esta palabra está <say-as interpret-as = "expletive"> restringida </say-as>
</speak>
<sub alias = "◇◇"> ○○ </sub>
Es un código que te permite indicar la pronunciación.
A veces, cuando usa la conversión de texto a voz, es posible que escuche una palabra pronunciada de manera inesperada.
Por ejemplo, puede hacer que el software pronuncie la palabra "一行", una línea, como "Ichigyo", mientras que el sistema la pronuncie como "Ichiyuki".
Para el código, ingrese el kanji de ○○ y la pronunciación de ◇◇.
<hablar>
Pronunciar correctamente como <sub alias = "Ichigyo"> 一行 </sub> en lugar de Ichiyuki
</speak>
<emphasis> ○○ </emphasis>
Puede enfatizar el texto incluido en el código en el discurso.
<hablar>
Este código <emphasis> enfatizará el texto </emphasis>
</speak>
<prosody> ○○ </prosody>
Prosodia es un término lingüístico que describe las reglas del inglés hablado de forma natural, incluyendo
- Entonación (tono ascendente y descendente)
- Posición de pausa
- Duración del sonido y estrés, etc.
Con estos códigos, puede ajustar los siguientes 3 elementos de prosodia:
- Tasa (tasa, velocidad)
Código: "x-lento" "lento" "medio" "rápido" "x-rápido" "predeterminado" - Paso (paso, altura)
Código: "x-bajo" "bajo" "medio" "alto" "x-alto" "predeterminado" - Volumen (volumen, tamaño)
Código: "silencioso" "x-suave" "suave" "medio" "fuerte" "x-fuerte" "predeterminado"
<hablar>
<prosody rate = "fast"> Habla rápido. </prosody>
<prosody pitch = "high"> Hable con un tono de voz alto. </prosody>
<prosody volume = "loud"> Habla en voz alta. </prosody>
<prosody rate = "slow" pitch = "x-low"> Habla despacio y con un tono de voz bajo. </prosody>
<prosody rate = "fast" pitch = "high" volume = "medium"> Habla rápido, con un tono de voz alto y con un volumen normal. </prosody>
</speak>
■ Software de síntesis de voz con IA “Ondoku”
"Ondoku" es una herramienta de conversión de texto a voz en línea que se puede utilizar sin costo inicial.
- Admite aproximadamente 50 idiomas, incluidos japonés, inglés, chino, coreano, español, francés y alemán.
- Disponible tanto desde PC como desde teléfono inteligente
- Adecuado para negocios, educación, entretenimiento, etc.
- No requiere instalación, puede usarse inmediatamente desde su navegador
- También admite la lectura de imágenes.
Para usarlo, simplemente ingrese texto o cargue un archivo desde el sitio. Genere archivos de sonido naturales en segundos. Puede utilizar la síntesis de voz de hasta 5000 caracteres de forma gratuita, así que pruébelo primero.
Email: ondoku3.com@gmail.com
Software de lectura de texto Ondoku. Es un servicio de conversión de texto a voz que no requiere instalación y puede ser utilizado por cualquier persona de forma gratuita. Si te registras gratis, podrás obtener hasta 5000 caracteres gratis cada mes. Regístrese ahora gratis