O que é Speech Synthesis Markup Language (SSML)? Como usá-lo em software de conversão de texto em voz e a lista de códigos principais.

21 de Junho de 2025

Olá, seja bem-vindo ao site da Ondoku.

Hoje, gostaríamos de apresentar o SSML.

Você pode achar difícil, pois existem alguns termos técnicos.

No entanto, se você souber disso, fará uma grande diferença na maneira como você usa o Ondoku.

Por favor, leia enquanto tentamos torná-lo fácil de entender.

O que é SSML?

Em primeiro lugar, SSML significa Speech Synthesis Markup Language.

É semelhante ao HTML.

Ao escrever este código SSML, você pode controlar ainda mais a fala do Ondoku.

Como usar SSML com Ondoku

É muito fácil usar o SSML no Ondoku.

Por favor, insira o código SSML diretamente na caixa de texto Ondoku.

O SSML será aplicado automaticamente.

Certifique-se de incluir

<speak> </speak>

no início e no final do código! Sem o código <speak>, SSML não será aplicado.

<speak> </speak>

Conforme mencionado anteriormente, este é o código para ativar o SSML.

Certifique-se de incluir este código no início e no final do texto que deseja converter para fala.

Exemplo

<speak> Digite o texto que deseja converter de texto em fala aqui </speak>

<break time = "○○ ms" />

Como o nome indica, o código de tempo de pausa é um código para fazer uma pausa.

Insira o código onde deseja inserir um intervalo e substitua ○○ pelo número de sua preferência.

A fala gerada pelo Ondoku não terá "pausa" a menos que especificado.

Você pode fazer algum intervalo com colchetes ou pontuações, mas essas pausas podem não ser definidas como você deseja.

Especialmente se você precisar de um intervalo de mais de 2 segundos, será mais difícil de controlar.

No entanto, se você entrar

<intervalo de tempo = "1000ms" />

para o lugar onde você deseja colocar uma pausa,

<falar>
Eu quero algum tempo de pausa <break time = "1000ms" /> ao ler esta frase.
</speak>

você ouvirá uma pausa no meio da frase.

* 1000 ms = 1 segundo

Você pode alterar o número antes de ms ou s livremente para controlar a duração da pausa.

200ms = 0,200 segundos
500ms = 0,500 segundos
1000ms = 1.000 segundos
2.000 ms = 2.000 segundos
3s = 3 segundos
10s = 10 segundos etc.

<say-as interpret-as = "expletive"> ○○ </say-as>

Com este código, o texto no ○○ será reproduzido com um som de bip para censor bip.

É uma espécie de código divertido. O texto contido neste código será substituído por um som de bipe.

<falar>
Esta palavra é <say-as interpret-as = "expletive"> restrita </say-as>
</speak>

<sub alias = "◇◇"> ○○ </sub>

É um código que permite indicar a pronúncia.

Às vezes, quando você usa a conversão de texto em fala, pode ouvir uma palavra falada de uma forma inesperada.

Por exemplo, você pode fazer o software pronunciar a palavra "一行," em uma linha, como "Ichigyo", enquanto o sistema a pronuncia como "Ichiyuki".

Para o código, insira o kanji para ○○ e a pronúncia para ◇◇.

<falar>
Pronuncie corretamente como <sub alias = "Ichigyo"> 一行 </sub> em vez de Ichiyuki
</speak>

<emphasis> ○○ </emphasis>

Você pode enfatizar o texto contido no código no discurso.

<falar>
Este código irá <emphasis> enfatizar o texto </emphasis>
</speak>

<prosody> ○○ </prosody>

Prosódia é um termo linguístico que descreve as regras do inglês falado naturalmente, incluindo

Entonação (tom crescente e decrescente)
Posição de pausa
Duração do som e estresse, etc.

Com esses códigos, você pode ajustar os seguintes 3 elementos de prosódia:

Taxa (taxa, velocidade)
Código: "x-lento" "lento" "médio" "rápido" "x-rápido" "padrão"
Inclinação (inclinação, altura)
Código: "x-baixo" "baixo" "médio" "alto" "x-alto" "padrão"
Volume (volume, tamanho)
Código: "silencioso" "x-suave" "suave" "médio" "alto" "x-alto" "padrão"

<falar>
<prosody rate = "fast"> Fale rápido. </prosody>
<prosody pitch = "high"> Fale em voz alta. </prosody>
<prosody volume = "loud"> Fale alto. </prosody>
<prosody rate = "slow" pitch = "x-low"> Fale devagar e em tom baixo. </prosody>
<prosody rate = "fast" pitch = "high" volume = "medium"> Fale rápido, em voz alta e em volume normal. </prosody>
</speak>

■ Software de síntese de voz AI “Ondoku”

"Ondoku" é uma ferramenta online de conversão de texto em fala que pode ser usada sem custo inicial.

Suporta aproximadamente 50 idiomas, incluindo japonês, inglês, chinês, coreano, espanhol, francês e alemão.
Disponível para PC e smartphone
Adequado para negócios, educação, entretenimento, etc.
Não requer instalação, pode ser usado imediatamente no seu navegador
Também suporta leitura de imagens

Para utilizá-lo, basta inserir um texto ou fazer upload de um arquivo do site. Gere arquivos de som naturais em segundos. Você pode usar síntese de voz para até 5.000 caracteres gratuitamente, então experimente primeiro.

Converta texto em áudio agora

O software de conversão de texto em fala "Ondoku" pode ler 5.000 caracteres todos os meses com voz AI gratuitamente. Você pode facilmente baixar MP3s e o uso comercial também é possível. Se você se inscrever gratuitamente, poderá converter até 5.000 caracteres por mês gratuitamente de texto em fala. Experimente o Ondoku agora.

HP: ondoku3.com
Email: ondoku3.com@gmail.com

←Artigo anterior | Artigo seguinte→