Che cos'è SSML (Speech Synthesis Markup Language)? Come usarlo nel software di sintesi vocale e nell'elenco dei principali codici.

17 Aprile 2024

Che cos'è SSML (Speech Synthesis Markup Language)? Come usarlo nel software di sintesi vocale e nell'elenco dei principali codici.


Ciao, benvenuto nel sito web di Ondoku.

Oggi vorremmo introdurre SSML.

Potrebbe essere difficile poiché ci sono alcuni termini tecnici.

Tuttavia, se lo conosci, farà un'enorme differenza nel modo in cui utilizzi Ondoku.

Per favore leggilo mentre cerchiamo di renderlo facile da capire.

Cos'è SSML?

Prima di tutto, SSML sta per Speech Synthesis Markup Language.

È simile all'HTML.

Scrivendo questo codice SSML, puoi controllare ulteriormente il discorso di Ondoku.

Come usare SSML con Ondoku

È molto facile usare SSML in Ondoku.

Inserisci direttamente il codice SSML nella casella di testo Ondoku.

L'SSML verrà applicato automaticamente.

Assicurati di includere

<speak> </speak>

all'inizio e alla fine del codice! Senza il codice <speak>, SSML non verrà applicato.

<speak> </speak>

Come accennato in precedenza, questo è il codice per attivare SSML.

Assicurati di includere questo codice all'inizio e alla fine del testo che desideri convertire in parlato.

Esempio

<speak> Inserisci qui il testo che desideri convertire da testo a parlato </speak>

<break time = "○○ ms" />

Come suggerisce il nome, il codice temporale dell'interruzione è un codice per fare una pausa.

Immettere il codice in cui si desidera inserire un tempo di pausa e sostituire ○○ con il numero desiderato.

Il discorso generato da Ondoku non avrà "pausa" se non specificato.

Puoi fare delle pause con parentesi o punteggiatura, ma queste pause potrebbero non essere impostate come desideri.

Soprattutto se hai bisogno di una pausa di più di 2 secondi, sarà più difficile da controllare.

Tuttavia, se inserisci

<break time = "1000ms" />

nel luogo in cui vuoi mettere una pausa,

<speak>
Voglio un po 'di tempo di pausa <break time = "1000ms" /> quando leggo questa frase.
</speak>

sentirai delle interruzioni a metà della frase.

* 1000 ms = 1 secondo

È possibile modificare liberamente il numero prima di ms o s per controllare la durata della pausa.

200 ms = 0,200 secondi
500 ms = 0,500 secondi
1000ms = 1.000 secondi
2000 ms = 2.000 secondi
3s = 3 secondi
10s = 10 secondi ecc.

<say-as interpret-as = "expletive"> ○○ </say-as>

Con questo codice, il testo nel ○○ verrà riprodotto con un segnale acustico per il censore del segnale acustico.

È una specie di codice giocoso. Il testo racchiuso in questo codice verrà sostituito da un segnale acustico.

<speak>
Questa parola è <say-as interpret-as = "expletive"> limitata </say-as>
</speak>

<sub alias = "◇◇"> ○○ </sub>

È un codice che ti permette di indicare la pronuncia.

A volte, quando utilizzi la conversione da testo a voce, potresti sentire una parola pronunciata in modo inaspettato.

Ad esempio, puoi fare in modo che il software pronunci la parola "一行," una riga, come "Ichigyo", mentre il sistema la pronunci come "Ichiyuki".

Per il codice, inserisci il kanji per ○○ e la pronuncia per ◇◇.

<speak>
Pronuncia correttamente come <sub alias = "Ichigyo"> 一行 </sub> invece di Ichiyuki
</speak>

<emphasis> ○○ </emphasis>

Puoi enfatizzare il testo racchiuso nel codice nel discorso.

<speak>
Questo codice <emphasis> enfatizzerà il testo </emphasis>
</speak>

<prosody> ○○ </prosody>

Prosody è un termine linguistico che descrive le regole dell'inglese parlato naturale, incluso

  • Intonazione (tono crescente e decrescente)
  • Posizione di pausa
  • Durata del suono e dello stress, ecc.

Con questi codici, puoi regolare i seguenti 3 elementi di prosodia:

  • Tasso (tasso, velocità)
    Codice: "x-slow" "slow" "medium" "fast" "x-fast" "predefinito"
  • Passo (passo, altezza)
    Codice: "x-low" "low" "medium" "high" "x-high" "predefinito"
  • Volume (volume, dimensione)
    Codice: "silenzioso" "x-soft" "soft" "medio" "alto" "x-loud" "predefinito"

<speak>
<prosody rate = "fast"> Parla velocemente. </prosody>
<prosody pitch = "high"> Parla con una voce acuta. </prosody>
<prosody volume = "loud"> Parla ad alta voce. </prosody>
<prosody rate = "slow" pitch = "x-low"> Parla lentamente e con voce bassa. </prosody>
<prosody rate = "fast" pitch = "high" volume = "medium"> Parla velocemente, con un tono di voce acuto e a volume normale. </prosody>
</speak>

Il software di sintesi vocale "Ondoku" può leggere gratuitamente 5000 caratteri al mese con la voce AI. Puoi facilmente scaricare MP3 ed è anche possibile l'uso commerciale. Se ti iscrivi gratuitamente, puoi convertire gratuitamente fino a 5.000 caratteri al mese dalla sintesi vocale. Prova Ondoku adesso.
HP: ondoku3.com
Email: ondoku3.com@gmail.com
Articolo inerente