¿Qué es Speech Synthesis Markup Language (SSML)? Cómo usarlo en software de conversión de texto a voz y la lista de códigos principales.

17 de abril de 2024

¿Qué es Speech Synthesis Markup Language (SSML)? Cómo usarlo en software de conversión de texto a voz y la lista de códigos principales.


Hola, bienvenido al sitio web de Ondoku.

Hoy, nos gustaría presentar SSML.

Puede resultarle difícil, ya que existen algunos términos técnicos.

Sin embargo, si lo conoce, hará una gran diferencia en la forma en que usa Ondoku.

Por favor, léalo mientras intentamos que sea fácil de entender.

¿Qué es SSML?

En primer lugar, SSML significa Speech Synthesis Markup Language.

Es similar a HTML.

Al escribir este código SSML, puede controlar aún más el habla de Ondoku.

Cómo usar SSML con Ondoku

Es muy fácil usar SSML en Ondoku.

Ingrese directamente el código SSML en el cuadro de texto Ondoku.

El SSML se aplicará automáticamente.

Asegúrese de incluir

<speak> </speak>

al principio y al final del código. Sin el código <speak>, no se aplicará SSML.

<speak> </speak>

Como se mencionó anteriormente, este es el código para activar SSML.

Asegúrese de incluir este código al principio y al final del texto que desea convertir a voz.

Ejemplo

<speak> Ingrese el texto que desea convertir de texto a voz aquí </speak>

<tiempo de pausa = "○○ ms" />

Como su nombre lo indica, el código de tiempo de pausa es un código para hacer una pausa.

Ingrese el código donde desea insertar un tiempo de descanso y reemplace ○○ con el número que desee.

El discurso generado por Ondoku no tendrá "pausa" a menos que se especifique.

Puede hacer un descanso con paréntesis o puntuación, pero es posible que estas pausas no se establezcan como desea.

Especialmente si necesita un tiempo de descanso de más de 2 segundos, será más difícil de controlar.

Sin embargo, si ingresa

<tiempo de pausa = "1000 ms" />

al lugar donde quieres poner una pausa,

<hablar>
Quiero un tiempo de descanso <break time = "1000ms" /> al leer esta oración.
</speak>

oirás una pausa en el medio de la oración.

* 1000 ms = 1 segundo

Puede cambiar el número antes de ms o s libremente para controlar la duración de la pausa.

200 ms = 0,200 segundos
500ms = 0.500 segundos
1000ms = 1.000 segundos
2000ms = 2.000 segundos
3 s = 3 segundos
10 s = 10 segundos, etc.

<say-as interpret-as = "improperio"> ○○ </say-as>

Con este código, el texto en ○○ se reproducirá con un pitido para censurar un pitido.

Es una especie de código divertido. El texto incluido en este código será reemplazado por un pitido.

<hablar>
Esta palabra está <say-as interpret-as = "expletive"> restringida </say-as>
</speak>

<sub alias = "◇◇"> ○○ </sub>

Es un código que te permite indicar la pronunciación.

A veces, cuando usa la conversión de texto a voz, es posible que escuche una palabra pronunciada de manera inesperada.

Por ejemplo, puede hacer que el software pronuncie la palabra "一行", una línea, como "Ichigyo", mientras que el sistema la pronuncie como "Ichiyuki".

Para el código, ingrese el kanji de ○○ y la pronunciación de ◇◇.

<hablar>
Pronunciar correctamente como <sub alias = "Ichigyo"> 一行 </sub> en lugar de Ichiyuki
</speak>

<emphasis> ○○ </emphasis>

Puede enfatizar el texto incluido en el código en el discurso.

<hablar>
Este código <emphasis> enfatizará el texto </emphasis>
</speak>

<prosody> ○○ </prosody>

Prosodia es un término lingüístico que describe las reglas del inglés hablado de forma natural, incluyendo

  • Entonación (tono ascendente y descendente)
  • Posición de pausa
  • Duración del sonido y estrés, etc.

Con estos códigos, puede ajustar los siguientes 3 elementos de prosodia:

  • Tasa (tasa, velocidad)
    Código: "x-lento" "lento" "medio" "rápido" "x-rápido" "predeterminado"
  • Paso (paso, altura)
    Código: "x-bajo" "bajo" "medio" "alto" "x-alto" "predeterminado"
  • Volumen (volumen, tamaño)
    Código: "silencioso" "x-suave" "suave" "medio" "fuerte" "x-fuerte" "predeterminado"

<hablar>
<prosody rate = "fast"> Habla rápido. </prosody>
<prosody pitch = "high"> Hable con un tono de voz alto. </prosody>
<prosody volume = "loud"> Habla en voz alta. </prosody>
<prosody rate = "slow" pitch = "x-low"> Habla despacio y con un tono de voz bajo. </prosody>
<prosody rate = "fast" pitch = "high" volume = "medium"> Habla rápido, con un tono de voz alto y con un volumen normal. </prosody>
</speak>

El software de texto a voz "Ondoku" puede leer 5000 caracteres cada mes con voz AI de forma gratuita. Puede descargar MP3 fácilmente y también es posible el uso comercial. Si te registras gratis, puedes convertir hasta 5000 caracteres por mes de forma gratuita de texto a voz. Prueba Ondoku ahora.
HP: ondoku3.com
Email: ondoku3.com@gmail.com
Artículo relacionado