Was ist die Sprachsynthese-Markup-Sprache (SSML)? Verwendung in Text-to-Speech-Software und Liste der wichtigsten Codes.

17. April 2024

Was ist die Sprachsynthese-Markup-Sprache (SSML)? Verwendung in Text-to-Speech-Software und Liste der wichtigsten Codes.


Hallo, willkommen auf der Ondoku-Website.

Heute möchten wir SSML einführen.

Möglicherweise fällt es Ihnen schwer, da es einige Fachbegriffe gibt.

Wenn Sie es jedoch wissen, wird es einen großen Unterschied in der Art und Weise machen, wie Sie Ondoku verwenden.

Bitte lesen Sie es durch, da wir versuchen, es leicht verständlich zu machen.

Was ist SSML?

Zunächst einmal steht SSML für Speech Synthesis Markup Language.

Es ist ähnlich wie HTML.

Durch Schreiben dieses SSML-Codes können Sie die Sprache von Ondoku weiter steuern.

Verwendung von SSML mit Ondoku

Es ist sehr einfach, SSML in Ondoku zu verwenden.

Bitte geben Sie den SSML-Code direkt in das Ondoku-Textfeld ein.

Die SSML wird automatisch angewendet.

Achten Sie darauf, einzuschließen

<speak> </ talk>

am Anfang und am Ende des Codes! Ohne den Code <speak> wird SSML nicht angewendet.

<speak> </ talk>

Wie bereits erwähnt, ist dies der Code zum Aktivieren von SSML.

Stellen Sie sicher, dass Sie diesen Code am Anfang und Ende des Textes einfügen, den Sie in Sprache konvertieren möchten.

Beispiel

<speak> Geben Sie hier den Text ein, den Sie von Text in Sprache konvertieren möchten </ talk>

<break time = "○○ ms" />

Wie der Name schon sagt, ist der Pausenzeitcode ein Code zum Pausieren.

Geben Sie den Code ein, in den Sie eine Pausenzeit einfügen möchten, und ersetzen Sie das ○○ durch die gewünschte Nummer.

Die von Ondoku erzeugte Sprache hat keine "Pause", sofern nicht anders angegeben.

Sie können mit Klammern oder Interpunktionen eine Pause einlegen, aber diese Pausen können möglicherweise nicht wie gewünscht eingestellt werden.

Insbesondere wenn Sie eine Pausenzeit von mehr als 2 Sekunden benötigen, ist die Steuerung schwieriger.

Wenn Sie jedoch eingeben

<break time = "1000ms" />

an den Ort, an dem Sie eine Pause einlegen möchten,

<speak>
Ich möchte eine Pause <break time = "1000ms" />, wenn ich diesen Satz lese.
</ speak>

Sie werden in der Mitte des Satzes eine Pause hören.

* 1000 ms = 1 Sekunde

Sie können die Nummer vor ms oder s frei ändern, um die Länge der Pause zu steuern.

200 ms = 0,200 Sekunden
500 ms = 0,500 Sekunden
1000 ms = 1.000 Sekunden
2000 ms = 2.000 Sekunden
3s = 3 Sekunden
10s = 10 Sekunden usw.

<say-as interpret-as = "expletive"> ○○ </ say-as>

Mit diesem Code wird der Text im ○○ mit einem Piepton für die Pieps-Zensur abgespielt.

Es ist eine Art spielerischer Code. Der in diesem Code enthaltene Text wird durch einen Piepton ersetzt.

<speak>
Dieses Wort ist <say-as interpret-as = "expletive"> eingeschränkt </ say-as>
</ speak>

<sub alias = "◇◇"> ○○ </ sub>

Es ist ein Code, mit dem Sie die Aussprache angeben können.

Wenn Sie die Text-zu-Sprache-Konvertierung verwenden, hören Sie manchmal ein Wort, das auf unerwartete Weise gesprochen wird.

Sie können beispielsweise festlegen, dass die Software das Wort "一行" in einer Zeile als "Ichigyo" ausspricht, während das System es als "Ichiyuki" ausspricht.

Geben Sie für den Code das Kanji für ○○ und die Aussprache für ◇◇ ein.

<speak>
Richtig aussprechen als <sub alias = "Ichigyo"> 一行 </ sub> anstelle von Ichiyuki
</ speak>

<Betonung> ○○ </ Betonung>

Sie können den im Code enthaltenen Text in der Rede hervorheben.

<speak>
Dieser Code betont <emphasis> den Text </ betont>
</ speak>

<prosody> ○○ </ prosody>

Prosodie ist ein sprachlicher Begriff, der die Regeln des natürlich gesprochenen Englisch beschreibt, einschließlich

  • Intonation (steigende und fallende Tonhöhe)
  • Position der Pause
  • Länge des Geräusches und des Stresses usw.

Mit diesen Codes können Sie die folgenden 3 Elemente der Prosodie anpassen:

  • Rate (Rate, Geschwindigkeit)
    Code: "x-langsam" "langsam" "mittel" "schnell" "x-schnell" "Standard"
  • Tonhöhe (Tonhöhe, Höhe)
    Code: "x-niedrig" "niedrig" "mittel" "hoch" "x-hoch" "Standard"
  • Volumen (Volumen, Größe)
    Code: "leise" "x-leise" "leise" "mittel" "laut" "x-laut" "Standard"

<speak>
<prosody rate = "fast"> Sprechen Sie schnell. </ prosody>
<prosody pitch = "high"> Sprechen Sie mit hoher Stimme. </ prosody>
<prosody volume = "oud "> Sprechen Sie laut. </ prosody>
<prosody rate = "slow" Pitch = "x-low"> Sprechen Sie langsam und leise. </ prosody>
<prosody rate = "schnelle" Tonhöhe = "hohe" Lautstärke = "mittlere"> Sprechen Sie schnell, mit hoher Stimme und normaler Lautstärke. </ prosody>
</ speak>

Die Text-to-Speech-Software „Ondoku“ kann jeden Monat 5000 Zeichen mit KI-Stimme kostenlos vorlesen. Sie können MP3s problemlos herunterladen und auch eine kommerzielle Nutzung ist möglich. Wenn Sie sich kostenlos anmelden, können Sie bis zu 5.000 Zeichen pro Monat kostenlos von Text in Sprache umwandeln. Probieren Sie Ondoku jetzt aus.
HP: ondoku3.com
Email: ondoku3.com@gmail.com
Ähnlicher Artikel.