Was ist Irodori-TTS? Funktionen, Tipps und Anleitung einfach erklärt

31. Mai 2026

Was ist Irodori-TTS? Funktionen, Tipps und Anleitung einfach erklärt
dog

Was für eine Art von AI-Vorlese-Software ist Irodori-TTS?

Viele von Ihnen fragen sich wahrscheinlich, was es mit der neuen AI-Vorlese-Software „Irodori-TTS“ auf sich hat.

In diesem Artikel erklären wir leicht verständlich die Merkmale, Funktionen, Vorsichtsmaßnahmen und die Bedienung von Irodori-TTS.

Darüber hinaus stellen wir für diejenigen, die das Gefühl haben, dass das „Setup schwierig aussieht“, eine Methode zur Sprachsynthese vor, die ohne Installation sofort einsatzbereit ist.

Was Sie in diesem Artikel erfahren

  1. Was für eine Software ist Irodori-TTS?
  2. Funktionen und Vorsichtsmaßnahmen von Irodori-TTS
  3. Bedienung von Irodori-TTS (vom Setup bis zur Audio-Anpassung)
  4. Empfohlene Methode, wenn der Umgebungsaufbau schwierig ist

Was ist Irodori-TTS? Erläuterung der japanischen AI-Sprachsynthese-Software

Was ist Irodori-TTS? Erläuterung der japanischen AI-Sprachsynthese-Software

Zuerst erklären wir kurz die Merkmale von Irodori-TTS und was für eine AI-Sprachsynthese-Software es ist.

Irodori-TTS ist ein lokal laufendes AI-Sprachsynthese-Modell

Irodori-TTS ist eine auf Japanisch spezialisierte AI-Sprachsynthese-Software.

Der Entwickler ist Aratako, und die Software wird als Open Source (MIT-Lizenz) kostenlos veröffentlicht.

Das wichtigste Merkmal ist der „lokale Betrieb“, bei dem die Sprachsynthese ausschließlich auf dem eigenen PC erfolgt.

Da die gesamte Verarbeitung zur Erzeugung der Stimme auf dem lokalen PC stattfindet, werden weder Texte noch die erzeugten Audiodaten an externe Server gesendet.

Nach dem ersten Setup kann Audio ohne Internetverbindung erzeugt werden, und es gibt keine Begrenzung für die Anzahl der Erzeugungen.

Für das Setup sind jedoch Programmierwerkzeuge wie Python und Git erforderlich.

Zudem wird für einen schnellen Betrieb ein Hochleistungs-PC mit einer GPU (Grafikkarte) empfohlen.

Was Irodori-TTS kann und was nicht

Was Irodori-TTS kann und was nicht

Als Nächstes erklären wir, was mit Irodori-TTS möglich ist und was nicht.

Was mit Irodori-TTS möglich ist

Da Irodori-TTS in einer lokalen Umgebung läuft, können Sie unbegrenzt oft Audio erzeugen.

Auch in einer Umgebung ohne Internetverbindung können Sie nach Abschluss des ersten Setups frei Audio erstellen.

Es gibt mehrere Möglichkeiten anzuweisen, welche Art von Audio erstellt werden soll. Mit der Caption-Funktion können Sie allein durch Textanweisungen die von Ihnen bevorzugte Sprachqualität erzeugen.

Außerdem ist es möglich, vorhandene Stimmen durch Sprachklonen zu reproduzieren oder emotionale Ausdrücke durch Emojis hinzuzufügen.

Da es unter der MIT-Lizenz steht, ist auch die kommerzielle Nutzung der erzeugten Audiodaten möglich.

Vorsichtsmaßnahmen bei Irodori-TTS

Andererseits gibt es auch Vorsichtsmaßnahmen, die man vor der Nutzung von Irodori-TTS kennen sollte.

Die pro Erstellung generierte Audio-Länge ist auf ca. 30 Sekunden begrenzt

In einem Durchgang können maximal ca. 30 Sekunden vorgelesen werden.

Wenn Sie lange Texte vorlesen möchten, müssen Sie den Text aufteilen und mehrmals generieren.

Es ist schwierig, genau die gewünschte Stimme oder Sprechweise zu treffen

Irodori-TTS bietet zwar viel Freiheit, verfügt aber über keine voreingestellte Standardstimme (Basisstimme).

Daher ändern sich Geschlecht und Alter bei jeder Generierung zufällig, wenn keine Caption oder Referenz-Audio angegeben wird.

Wenn Sie mit derselben Stimme vorlesen möchten, müssen Sie ein Referenz-Audio laden.

Zudem gibt es keine Funktion zur manuellen Anpassung von Intonation und Betonung.

Unterstützte Sprache ist nur Japanisch

Die unterstützte Sprache ist ausschließlich Japanisch; Fremdsprachen wie Englisch werden nicht unterstützt.

Zudem kann es bei der Lesung von Kanji zu Fehlern kommen, worauf man achten sollte.

High-Spec-PC mit GPU empfohlen

Je nach PC-Spezifikationen kann die Erzeugung von Audio Zeit in Anspruch nehmen.

Auf PCs ohne GPU dauert die Erzeugung selbst bei kurzen Sätzen etwa eine Minute.

Bei CPUs der Einstiegsklasse wie Celeron oder N100 erscheint eine praktische Nutzung schwierig.

So verwenden Sie Irodori-TTS (Ablauf des Setups)

Hier erklären wir kurz die Bedienung von Irodori-TTS.

Der gesamte Ablauf des Setups sieht wie folgt aus:

  1. Notwendige Software installieren
  2. Arbeitsordner erstellen
  3. Irodori-TTS von GitHub klonen
  4. Notwendige Pakete installieren
  5. Irodori-TTS starten
  6. AI-Modell laden
  7. Text vorlesen

1. Notwendige Software für Irodori-TTS installieren

Für das Setup von Irodori-TTS ist eine Vorbereitung erforderlich.

Zuerst installieren Sie diese drei Arten:

  • Python 3.10 oder höher: Programmiersprache
  • Git: Versionsverwaltungssystem (erforderlich zum Herunterladen von Irodori-TTS)
  • uv: Paketmanager für Python

Um Python, Git und uv zu installieren, klicken Sie zunächst mit der rechten Maustaste auf das Startmenü und wählen Sie „Terminal“ (ein Start als Administrator ist nicht erforderlich).

Klicken Sie auf „Terminal“

Daraufhin öffnet sich das Terminal-Fenster (PowerShell).

Terminal (PowerShell)

Geben Sie in diesem Fenster die folgenden Befehle ein und führen Sie sie aus.

winget install --id Git.Git -e

winget install --id=astral-sh.uv -e

Befehl wird ausgeführt

Damit haben Sie alles installiert, was für das Setup von Irodori-TTS benötigt wird.

*Python wird von uv verwaltet und daher beim Setup automatisch installiert.

Nach der Installation schließen Sie das Terminal (PowerShell) einmal und öffnen es erneut (um den „Pfad zu aktualisieren“).

2. Arbeitsordner erstellen

Als Nächstes erstellen Sie einen Arbeitsordner.

Hier wird Irodori-TTS installiert.

Diesmal haben wir direkt unter dem Laufwerk C einen Ordner namens „irodori-tts“ erstellt.

Arbeitsordner erstellen

Nachdem der Ordner erstellt wurde, wechseln Sie im Terminal in diesen Ordner.

cd C:\irodori-tts

In den Arbeitsordner wechseln

3. Irodori-TTS von GitHub klonen

Geben Sie den folgenden Befehl im Terminal ein, um das Irodori-TTS-Repository von GitHub zu klonen.

git clone https://github.com/Aratako/Irodori-TTS.git

Repository von GitHub klonen

Das Klonen des Repositorys dauert nur wenige Sekunden.

Geben Sie den nächsten Befehl ein, um in den Ordner des geklonten Repositorys zu wechseln.

cd Irodori-TTS

In den Ordner wechseln

4. Notwendige Pakete installieren

Geben Sie den folgenden Befehl ein und führen Sie ihn aus, um die für den Betrieb von Irodori-TTS notwendigen Pakete zu installieren.

uv sync

Pakete installieren

Das Herunterladen und Installieren einer großen Menge an Paketen nimmt Zeit in Anspruch.

Bildschirm während der Paketinstallation

Auch Python selbst wird hier installiert.

Warten Sie, während der Download und die Installation laufen, ohne das Terminal-Fenster zu schließen.

Da Dateien mit einer Kapazität von fast 3 GB heruntergeladen werden, wird empfohlen, das Setup an einem Ort mit guter Internetverbindung durchzuführen.

5. Irodori-TTS starten

Sobald der Download und die Installation der Pakete abgeschlossen sind, ist das Setup fertig.

Starten Sie Irodori-TTS.

Geben Sie den folgenden Befehl ein, führen Sie ihn aus und warten Sie kurz bis zum Start.

uv run python gradio_app.py --server-name 0.0.0.0 --server-port 7860

Wenn im Terminal Folgendes angezeigt wird, ist der Start abgeschlossen.

Bildschirm nach erfolgreichem Start

Running on local URL: http://0.0.0.0:7860

Öffnen Sie einen Webbrowser und rufen Sie http://localhost:7860 auf.

Daraufhin öffnet sich der Bildschirm (WebUI) von Irodori-TTS.

WebUI von Irodori-TTS

6. AI-Modell laden

Klicken Sie auf „Load Model“, um das AI-Modell zu laden, das zum Vorlesen von Texten verwendet wird.

Load Model

Bei der ersten Nutzung beginnt der Download des AI-Modells, wenn Sie diesen Button drücken.

Wenn im Model Status (der im nächsten Bild rot umrandete Bereich) eine Erfolgsmeldung erscheint, ist das Laden des AI-Modells abgeschlossen.

Model Status

7. Texte mit Irodori-TTS vorlesen

Mit Irodori-TTS können Sie Anweisungen zur Sprechweise, einschließlich emotionaler Ausdrücke, geben. Versuchen wir jedoch zunächst als Beispiel, ohne Anweisungen vorzulesen.

Scrollen Sie nach unten zum Texteingabefeld und geben Sie den Text ein, den Sie vorlesen möchten.

Text eingeben

Diesmal lassen wir „こんにちは、これはイロドリTTSで作成された音声です。“ (Guten Tag, dies ist eine mit Irodori-TTS erstellte Stimme.) vorlesen.

(Da die Eingabe von „Irodori-TTS“ in lateinischen Buchstaben nicht korrekt vorgelesen werden konnte, haben wir es in Katakana als „イロドリTTS“ geschrieben.)

Klicken Sie auf den Button „Generate“, um die Erzeugung der Stimme zu starten.

Erzeugung starten

Irodori-TTS nutzt die CPU oder GPU (Grafikkarte) Ihres PCs, um die Stimme zu erzeugen.

Daher variiert die für die Erzeugung benötigte Zeit stark je nach Leistung Ihres PCs.

Da wir diesmal die Erzeugung auf einem Laptop ohne GPU durchgeführt haben, dauerte die Erzeugung selbst für diesen kurzen Satz etwa eine Minute.

Referenz: Test-Erzeugung in einer Umgebung mit CPU: Ryzen 5 4650U, Arbeitsspeicher: DDR4 32GB, Windows 11 Pro 24H2.

Nach Abschluss der Erzeugung wird die Wellenform der Stimme angezeigt, und Sie können das Audio abspielen.

Erzeugung abgeschlossen

Beispiel für das Vorlesen von „こんにちは、これはイロドリTTSで作成された音声です。“

Wenn das Probehören in Ordnung ist, klicken Sie auf den Download-Button (Pfeilsymbol nach unten), um die Audiodatei zu speichern.

Die Audiodatei wird im WAV-Format gespeichert.

Damit konnten Sie erfolgreich Audio mit Irodori-TTS synthetisieren.

So passen Sie die Stimme in Irodori-TTS an

In Irodori-TTS können Sie auf verschiedene Weise Ausdrücke wie Geschlecht oder Emotionen anpassen.

Emotionale Ausdrücke durch Emojis festlegen

Klicken Sie auf „Emoji Palette“ unter dem Texteingabefeld, um Emojis auszuwählen.

Emoji Palette

Jedem Emoji sind bestimmte emotionale Ausdrücke zugewiesen.

  • 😊 Fröhlich, erfreut
  • 😭 Schluchzen, Weinen
  • 😰 Hastig, erschüttert
  • ⏩ Schnelles Sprechen
  • 📖 Narration, Monolog

Indem Sie einfach ein Emoji in das Texteingabefeld einfügen, können Sie den Text mit dem angegebenen emotionalen Ausdruck vorlesen lassen.

Beispiel für das Vorlesen von „😊 こんにちは、これはイロドリTTSで作成された音声です。“

Beispiel für das Vorlesen von „📖 こんにちは、これはイロドリTTSで作成された音声です。“

Beachten Sie jedoch, dass allein durch die Angabe von Emojis Geschlecht oder Alter nicht spezifisch festgelegt werden können.

Referenz-Audio laden, um mit derselben Stimme vorzulesen

In Irodori-TTS können Sie eine Referenz-Audiodatei laden und den Text basierend auf dieser Stimme vorlesen lassen.

Das Referenz-Audio wird in den Bereich geladen, in dem „Drop Audio Here - or - Click to Upload“ steht.

Referenz-Audio laden

Dies ermöglicht nicht nur das Vorlesen mit derselben Stimme, sondern führt im Vergleich zu keiner Angabe auch zu einer klareren Tonqualität.

Anpassung des Vorlesestils direkt über die Caption-Funktion möglich

In Irodori-TTS können Sie auch direkt per Text angeben, mit welcher Art von Stimme vorgelesen werden soll.

Um die Caption-Funktion zu nutzen, müssen Sie die „VoiceDesign-Version“ starten, wofür sich der Befehl zum Starten von Irodori-TTS im Terminal ändert.

uv run python gradio_app_voicedesign.py --server-name 0.0.0.0 --server-port 7861

VoiceDesign-Version starten

Wenn Sie diesen Befehl ausführen, startet die Bedienoberfläche der VoiceDesign-Version.

Da die VoiceDesign-Version ein anderes AI-Modell als die Standardversion verwendet, müssen Sie bei der ersten Nutzung auf „Load Model“ klicken, um das Modell separat von der Standardversion herunterzuladen.

Da das AI-Modell eine Kapazität von etwa 2 GB hat, wird empfohlen, den Download an einem Ort mit guter Internetverbindung durchzuführen.

In der Bedienoberfläche der VoiceDesign-Version gibt es ein Textfeld für „Caption / Style Prompt (optional)“.

Caption / Style Prompt (optional)

Hier geben Sie als Text ein, mit welcher Art von Stimme Sie das Vorlesen wünschen.

  • Bitte lesen Sie mit einer ruhigen Frauenstimme in einer nahen, weichen und natürlichen Art vor.
  • Bitte sprechen Sie mit einer energischen Männerstimme hell und artikuliert.
  • Bitte lesen Sie mit einer tiefen Männerstimme sachlich wie ein Nachrichtensprecher vor.

Auf diese Weise können Sie festlegen, welche Art von Stimme erzeugt werden soll.

Wenn wir beispielsweise „Bitte lesen Sie mit einer ruhigen Frauenstimme in einer nahen, weichen und natürlichen Art vor.“ angeben, erhalten wir folgendes Audio.

Beispiel mit der Angabe „Bitte lesen Sie mit einer ruhigen Frauenstimme in einer nahen, weichen und natürlichen Art vor.“

Auch hier konnte eine gut verständliche Stimme mit klarer Tonqualität erzeugt werden.

Allerdings gibt es bei der Caption-Funktion eine Vorsichtsmaßnahme.

Die Caption-Funktion benötigt im Vergleich zu anderen Vorlesemethoden mehr Zeit für die Erzeugung des Audios.

Als wir diesmal auf einem Laptop generierten, dauerte die Erzeugung dieses kurzen Satzes etwa 5 Minuten.

Für die Nutzung der Caption-Funktion wird ein High-Spec-PC mit GPU empfohlen.

Was passiert, wenn man englischen Text vorlesen lässt?

Irodori-TTS ist eine Vorlese-Software, die ausschließlich Japanisch unterstützt.

Was passiert also, wenn man versucht, englischen Text vorlesen zu lassen?

Versuchen wir es mit der Eingabe eines einfachen Beispielsatzes.

Beispiel für das Vorlesen von „Hello, this is a voice recording created using Irodori-TTS.“

Wie man hört, wurde „Hello“ wie das Katakana-Wort „Harō“ ausgesprochen, und der Teil „recording“ wurde unverständlich, sodass kein korrektes Vorlesen möglich war.

Wenn Sie englische Texte vorlesen lassen möchten, empfiehlt es sich, einen AI-Vorlesedienst zu nutzen, der Fremdsprachen unterstützt.

Empfohlene Sprachsynthese-Methode, wenn das „Setup schwierig“ ist

Vielleicht haben einige von Ihnen nach dem bisherigen Lesen das Gefühl, dass das Setup von Irodori-TTS etwas mühsam aussieht.

Wenn man nicht an die Bedienung des Terminals oder den Aufbau einer Python-Umgebung gewöhnt ist, kann allein das Befolgen der Schritte viel Zeit in Anspruch nehmen.

Zudem ist es ohne einen PC mit GPU schwierig, die Software für Zwecke wie Videonarratión zu nutzen, da eine einzelne Sprachsynthese zu lange dauert.

In solchen Fällen empfiehlt sich die Nutzung einer AI-Stimme, die weder Installation noch Setup erfordert.

『Ondoku』 – Eine AI-Stimme, die ohne Installation nutzbar ist

Ondoku

Wenn Sie mit modernster AI ganz einfach Sprache synthetisieren möchten, ist der AI-Sprachsynthesedienst 『Ondoku』 empfehlenswert.

『Ondoku』 ist ein AI-Sprachsynthesedienst, bei dem Sie einfach nur den Browser öffnen und Text einfügen müssen, um Audio zu erstellen.

Sie können sofort kostenlos Audio auf dem PC, Smartphone oder Tablet erstellen.

Da die Erzeugung der Stimme in der Cloud (serverseitig) erfolgt, spielt es keine Rolle, ob Ihr PC über eine GPU verfügt.

Da von Anfang an mehrere Stimmen wie Männer-, Frauen- und Kinderstimmen bereitstehen, können Sie sofort durch einfaches Auswählen vorlesen lassen, ohne Referenz-Audio oder Captions vorbereiten zu müssen.

Auch lange Texte können direkt vorgelesen werden.

Zudem unterstützt Ondoku Englisch!

Da es viele Sprachen wie Französisch, Spanisch, Koreanisch und Chinesisch unterstützt, kann es auch für Vorlesungen in anderen Sprachen als Japanisch verwendet werden.

Darüber hinaus können Sie mit der AI-Stimme der nächsten Generation (OndokuBeta) ein noch natürlicheres Vorlesen erleben.

Wenn Sie nach einer Methode suchen, Text als Sprache vorlesen zu lassen, warum probieren Sie dann nicht das kostenlos und einfach nutzbare 『Ondoku』 aus?

Vergleich der Unterschiede zwischen Ondoku und Irodori-TTS

Abschließend vergleichen wir die Hauptunterschiede zwischen Ondoku und Irodori-TTS.

👆 Seitlich scrollen möglich
PunktOndokuIrodori-TTS
BetriebsartCloud (Bedienung im Browser)Lokal (Verarbeitung auf dem eigenen PC)
SetupNicht erforderlichUmgebungsaufbau für Python, Git etc. erforderlich
Unterstützte SprachenÜber 35 SprachenNur Japanisch
StimmenauswahlEinfache Auswahl aus mehreren StimmenFestlegung durch Sprachklonen, Caption, Emojis
Limit pro ErzeugungUnterstützt lange TexteBis zu ca. 30 Sekunden
Kommerzielle NutzungMöglich (Urheberrechtshinweis bei kostenloser Nutzung erforderlich)Möglich (MIT-Lizenz)
Unterstützte GerätePC, Smartphone, TabletPC (GPU empfohlen)
GebührenKostenloser Plan verfügbar (Zeichenerweiterung durch Bezahlplan)Kostenlos (da lokaler Betrieb)

Im Vergleich lässt sich sagen: Ondoku eignet sich für Einfachheit und sofortige Einsatzbereitschaft, während Irodori-TTS für diejenigen geeignet ist, die einen Hochleistungs-PC besitzen und Stimmen detailliert ausarbeiten möchten.

Für diejenigen, die sofort Audio benötigen, eine mehrsprachige Vorlesung brauchen oder die Software auf dem Smartphone oder Tablet nutzen möchten, ist Ondoku zu empfehlen.

Es eignet sich auch für diejenigen, die lange Texte direkt vorlesen lassen möchten, keine Zeit in das Setup investieren wollen oder deren PC nicht über eine GPU verfügt.

Da Sie durch einfaches Öffnen des Browsers sofort hochwertige Sprache erzeugen können, warum probieren Sie Ondoku nicht erst einmal kostenlos aus?

Zusammenfassung der Merkmale, des Setups und der Bedienung von Irodori-TTS

In diesem Artikel haben wir Irodori-TTS vorgestellt, eine auf Japanisch spezialisierte AI-Sprachsynthese-Software für den lokalen Betrieb.

Irodori-TTS ist ein attraktives Werkzeug für alle, die Wert auf stimmlichen Ausdruck legen, etwa durch Sprachklonen, Stimmendesign per Caption oder Emotionssteuerung per Emoji.

Allerdings sind Setup und Bedienung eher für Fortgeschrittene gedacht, da der Aufbau einer Umgebung für Python und Git erforderlich ist.

Zudem nimmt die Erzeugung von Audio auf PCs ohne GPU viel Zeit in Anspruch.

Für diejenigen, die „Sprachsynthese jetzt sofort und unkompliziert nutzen möchten“, ist das nur im Browser nutzbare 『Ondoku』 empfehlenswert.

Möchten auch Sie mit einer einfach zu bedienenden, kostenlosen AI-Sprachsynthese hochwertige Audioinhalte erstellen?

■ KI-Sprachsynthesesoftware „Ondoku“

„Ondoku“ ist ein Online-Text-to-Speech-Tool, das ohne Anfangskosten genutzt werden kann.

  • Unterstützt etwa 50 Sprachen, darunter Japanisch, Englisch, Chinesisch, Koreanisch, Spanisch, Französisch und Deutsch.
  • Verfügbar sowohl vom PC als auch vom Smartphone
  • Geeignet für Business, Bildung, Unterhaltung usw.
  • Keine Installation erforderlich, kann sofort über Ihren Browser verwendet werden
  • Unterstützt auch das Auslesen von Bildern

Um es zu verwenden, geben Sie einfach Text ein oder laden Sie eine Datei von der Website hoch. Erstellen Sie in Sekundenschnelle natürliche Klangdateien. Sie können die Sprachsynthese für bis zu 5.000 Zeichen kostenlos nutzen, also probieren Sie es bitte zuerst aus.

Die Text-to-Speech-Software „Ondoku“ kann jeden Monat 5000 Zeichen mit KI-Stimme kostenlos vorlesen. Sie können MP3s problemlos herunterladen und auch eine kommerzielle Nutzung ist möglich. Wenn Sie sich kostenlos anmelden, können Sie bis zu 5.000 Zeichen pro Monat kostenlos von Text in Sprache umwandeln. Probieren Sie Ondoku jetzt aus.
HP: ondoku3.com
Email: ondoku3.com@gmail.com
Ähnlicher Artikel.

Text-zu-Sprache-Software Ondoku.Es ist eine kostenlose Text-to-Speech-Anwendung ohne Installation. Wenn Sie sich kostenlos registrieren, können Sie jeden Monat bis zu 5000 Zeichen kostenlos erhalten. Registrieren Sie sich jetzt kostenlos