Qu'est-ce qu'Irodori-TTS ? Fonctions, limites et guide d'utilisation

28 juillet 2026

Quel type de logiciel de synthèse vocale IA est Irodori-TTS ?

Vous êtes probablement nombreux à vous interroger sur le nouveau logiciel de synthèse vocale IA « Irodori-TTS ».

Dans cet article, nous expliquerons de manière claire les caractéristiques, les fonctionnalités, les points de vigilance et l'utilisation de Irodori-TTS.

De plus, pour ceux qui pensent que « la configuration semble difficile », nous présentons également une méthode de synthèse vocale utilisable immédiatement sans installation.

Ce que vous apprendrez dans cet article

Quel type de logiciel est Irodori-TTS ?
Ce qu'il est possible de faire avec Irodori-TTS et points de vigilance
Comment utiliser Irodori-TTS (de la configuration au réglage de la voix)
Méthode recommandée lorsque la configuration de l'environnement est difficile

Qu'est-ce que Irodori-TTS ? Explication du logiciel de synthèse vocale IA japonaise

Tout d'abord, nous allons expliquer brièvement les caractéristiques de Irodori-TTS en tant que logiciel de synthèse vocale IA.

Irodori-TTS est un modèle de synthèse vocale IA fonctionnant en local

Irodori-TTS est un logiciel de synthèse vocale IA spécialisé dans la langue japonaise.

Le développeur est Aratako, et le logiciel est publié gratuitement en open source (licence MIT).

Sa caractéristique principale est le « fonctionnement local », où la synthèse vocale s'effectue uniquement sur votre propre PC.

Comme tout le processus de génération vocale se déroule sur votre PC, le texte et les données vocales générées ne sont jamais envoyés à un serveur externe.

Après la configuration initiale, il est possible de générer des voix sans connexion Internet, et il n'y a aucune limite au nombre de générations.

Cependant, la configuration nécessite des outils de programmation tels que Python et Git.

De plus, un PC haute performance équipé d'un GPU (carte graphique) est recommandé pour un fonctionnement rapide.

Ce qu'il est possible de faire et de ne pas faire avec Irodori-TTS

Ensuite, nous allons expliquer ce que Irodori-TTS permet de faire et ses limitations.

Ce qu'il est possible de faire avec Irodori-TTS

Comme Irodori-TTS fonctionne dans un environnement local, vous pouvez générer des voix de manière illimitée, autant de fois que vous le souhaitez.

Même dans un environnement sans connexion Internet, une fois la configuration initiale terminée, vous pouvez créer des voix librement.

Plusieurs méthodes sont disponibles pour indiquer quel type de voix créer, et en utilisant la fonction de légende (caption), vous pouvez créer le timbre de voix de votre choix uniquement avec des instructions textuelles.

Il est également possible de reproduire une voix existante via le clonage vocal ou d'ajouter des expressions émotionnelles à l'aide d'emojis.

Grâce à la licence MIT, l'utilisation commerciale des voix générées est également possible.

Points de vigilance concernant Irodori-TTS

D'un autre côté, il existe des points de vigilance à connaître avant d'utiliser Irodori-TTS.

La durée de la voix créée en une seule fois est d'environ 30 secondes maximum

La lecture est limitée à environ 30 secondes par génération.

Si vous souhaitez lire un texte long, vous devrez diviser le texte et procéder à plusieurs générations.

Il est difficile d'obtenir exactement la voix ou la façon de parler souhaitée

Bien que Irodori-TTS offre une grande liberté, aucune voix par défaut (voix de base) n'est fournie.

Par conséquent, si vous ne spécifiez pas de légende ou de voix de référence, le sexe et l'âge de la voix changeront de manière aléatoire à chaque génération.

Si vous souhaitez lire avec la même voix, vous devez charger une voix de référence.

De plus, il n'y a pas de fonction pour ajuster manuellement l'inflexion ou l'intonation.

La seule langue prise en charge est le japonais

La langue prise en charge est uniquement le japonais ; les langues étrangères comme l'anglais ne sont pas supportées.

De plus, des erreurs de lecture de kanjis peuvent survenir, il faut donc rester vigilant.

PC haute performance avec GPU recommandé

Selon les spécifications de votre PC, la génération de la voix peut prendre du temps.

Sur un PC sans GPU, la génération d'une phrase courte peut prendre environ une minute.

Sur des processeurs d'entrée de gamme comme Celeron ou N100, l'utilisation semble difficilement exploitable en pratique.

Comment utiliser Irodori-TTS (flux de configuration)

Voici une brève explication sur l'utilisation de Irodori-TTS.

Le flux global de la configuration est le suivant :

Installer les logiciels nécessaires
Créer un dossier de travail
Cloner Irodori-TTS depuis GitHub
Installer les packages nécessaires
Démarrer Irodori-TTS
Charger le modèle IA
Lire le texte

1. Installer les logiciels nécessaires pour Irodori-TTS

Une préparation est nécessaire pour configurer Irodori-TTS.

Tout d'abord, installez ces trois éléments :

Python 3.10 ou supérieur : Langage de programmation
Git : Système de gestion de versions (nécessaire pour télécharger Irodori-TTS)
uv : Gestionnaire de packages pour Python

Pour installer Python, Git et uv, commencez par faire un clic droit sur le menu Démarrer et cliquez sur « Terminal » (il n'est pas nécessaire de l'exécuter en tant qu'administrateur).

La fenêtre du Terminal (PowerShell) s'ouvre alors.

Saisissez et exécutez les commandes suivantes dans cette fenêtre :

winget install --id Git.Git -e
winget install --id=astral-sh.uv -e

Vous avez maintenant installé les éléments nécessaires pour configurer Irodori-TTS.

※ Comme Python est géré par uv, il sera installé automatiquement lors de la configuration.

Une fois l'installation terminée, fermez et rouvrez le Terminal (PowerShell) une fois (pour que le « chemin d'accès » soit pris en compte).

2. Créer un dossier de travail

Ensuite, créez un dossier de travail.

C'est ici que Irodori-TTS sera installé.

Dans cet exemple, nous avons créé un dossier nommé « irodori-tts » directement à la racine du disque C.

Une fois le dossier créé, déplacez-vous dans ce dossier via le Terminal.

cd C:\irodori-tts

3. Cloner Irodori-TTS depuis GitHub

Saisissez la commande suivante dans le Terminal pour cloner le dépôt Irodori-TTS depuis GitHub.

git clone https://github.com/Aratako/Irodori-TTS.git

Le clonage du dépôt se termine en quelques secondes.

Saisissez la commande suivante pour vous déplacer dans le dossier du dépôt cloné.

cd Irodori-TTS

4. Installer les packages nécessaires

Saisissez et exécutez la commande suivante pour installer les packages nécessaires au fonctionnement de Irodori-TTS.

uv sync

Cela prendra du temps car un grand nombre de packages doivent être téléchargés et installés.

Écran pendant l'installation des packages

Python lui-même est également installé à cette étape.

Pendant le téléchargement et l'installation, attendez sans fermer la fenêtre du Terminal.

Comme vous téléchargez des fichiers d'une taille proche de 3 Go, il est recommandé de procéder à la configuration dans un endroit disposant d'une bonne connexion Internet.

5. Démarrer Irodori-TTS

Une fois le téléchargement et l'installation des packages terminés, la configuration est finie.

Démarrez Irodori-TTS.

Saisissez et exécutez la commande suivante, puis patientez un peu jusqu'au démarrage.

uv run python gradio_app.py --server-name 0.0.0.0 --server-port 7860

Lorsque le Terminal affiche ce qui suit, le démarrage est terminé.

Running on local URL: http://0.0.0.0:7860

Ouvrez votre navigateur Web et accédez à http://localhost:7860.

L'interface de Irodori-TTS (WebUI) s'affiche comme ceci.

6. Charger le modèle IA

Cliquez sur « Load Model » pour charger le modèle IA utilisé pour la synthèse vocale.

Lors de la première utilisation, cliquer sur ce bouton lancera le téléchargement du modèle IA.

Lorsque le message de confirmation s'affiche dans Model Status (la zone encadrée en rouge sur l'image suivante), le chargement du modèle IA est terminé.

7. Lire du texte avec Irodori-TTS

Avec Irodori-TTS, vous pouvez donner des instructions sur la façon de lire, y compris des expressions émotionnelles, mais commençons par un exemple de lecture sans instructions.

Faites défiler vers le bas pour trouver la zone de saisie de texte, puis entrez la phrase que vous souhaitez faire lire.

Pour cet exemple, nous allons faire lire : « こんにちは、これはイロドリTTSで作成された音声です。 » (Bonjour, ceci est une voix créée avec Irodori-TTS).

(Comme l'écriture en alphabet « Irodori-TTS » ne permettait pas une lecture correcte, nous l'avons écrit en katakana « イロドリTTS »).

Cliquez sur le bouton « Generate » pour lancer la génération de la voix.

Irodori-TTS utilise le CPU ou le GPU (carte graphique) de votre PC pour générer la voix.

Par conséquent, le temps nécessaire à la génération varie considérablement en fonction des performances de votre PC.

Dans cet exemple, comme nous avons utilisé un ordinateur portable sans GPU, la génération a pris environ une minute malgré la brièveté de la phrase.

Référence : Test effectué dans l'environnement suivant : CPU : Ryzen 5 4650U, Mémoire : DDR4 32 Go, Windows 11 Pro 24H2.

Une fois la génération terminée, la forme d'onde de la voix s'affiche et vous pouvez lire la voix.

Exemple de lecture de « こんにちは、これはイロドリTTSで作成された音声です。 »

Si l'écoute vous convient, cliquez sur le bouton de téléchargement (icône flèche vers le bas) pour enregistrer le fichier audio.

Le fichier audio est enregistré au format WAV.

Vous avez maintenant réussi à synthétiser une voix à l'aide de Irodori-TTS.

Comment ajuster la voix dans Irodori-TTS

Irodori-TTS permet d'ajuster le sexe, les émotions et d'autres expressions de diverses manières.

Spécifier des expressions émotionnelles avec des emojis

En cliquant sur « Emoji Palette » sous la zone de saisie de texte, vous pouvez choisir des emojis.

Chaque emoji est associé à une expression émotionnelle :

😊 Joyeusement, avec plaisir
😭 Sanglots, pleurs
😰 Précipitamment, agitation
⏩ Parler rapidement
📖 Narration, monologue

Il suffit d'insérer un emoji dans la zone de saisie de texte pour que la lecture se fasse avec l'expression émotionnelle spécifiée.

Exemple de lecture de « 😊 こんにちは、これはイロドリTTSで作成された音声です。 »

Exemple de lecture de « 📖 こんにちは、これはイロドリTTSで作成された音声です。 »

Cependant, le simple fait de spécifier un emoji ne permet pas de définir précisément le sexe ou l'âge.

Charger une voix de référence pour lire avec la même voix

Dans Irodori-TTS, vous pouvez charger un fichier de voix de référence pour que la lecture s'en inspire.

La voix de référence se charge via la zone indiquant 「音声をここにドロップ - または - クリックしてアップロード」 (Déposez l'audio ici - ou - Cliquez pour télécharger).

En plus de pouvoir lire avec la même voix, cela permet d'obtenir une qualité sonore plus claire par rapport à une génération sans spécification.

Il est également possible d'ajuster directement le style de lecture via la fonction de légende

Dans Irodori-TTS, vous pouvez spécifier directement par texte le type de voix souhaité pour la lecture.

Pour utiliser la fonction de légende, vous devez lancer la version « VoiceDesign », et la commande pour démarrer Irodori-TTS dans le Terminal change.

uv run python gradio_app_voicedesign.py --server-name 0.0.0.0 --server-port 7861

En exécutant cette commande, l'interface de contrôle de la version VoiceDesign démarre.

Comme la version VoiceDesign utilise un modèle IA différent de la version standard, vous devez cliquer sur « Load Model » pour télécharger le modèle séparément de la version standard lors de la première utilisation.

La taille du modèle IA est d'environ 2 Go, il est donc recommandé de le télécharger dans un endroit disposant d'une bonne connexion Internet.

L'interface de la version VoiceDesign comporte une zone de texte « Caption / Style Prompt (optional) ».

Vous y saisissez une phrase décrivant la voix que vous souhaitez obtenir.

Veuillez lire d'une voix féminine calme, de manière douce et naturelle, avec une certaine proximité.
Veuillez parler d'une voix masculine énergique, de façon claire et dynamique.
Veuillez lire d'une voix masculine grave, de manière détachée comme un présentateur de journal télévisé.

C'est ainsi que vous pouvez spécifier le type de voix pour la lecture.

Par exemple, en spécifiant 「落ち着いた女性の声で、近い距離感でやわらかく自然に読み上げてください。」 (Veuillez lire d'une voix féminine calme, de manière douce et naturelle, avec une certaine proximité), nous avons obtenu la voix suivante :

Exemple avec la spécification « Veuillez lire d'une voix féminine calme, de manière douce et naturelle, avec une certaine proximité ».

Ici aussi, nous avons pu générer une voix claire et facile à écouter.

Cependant, la fonction de légende comporte un point de vigilance.

La fonction de légende prend plus de temps pour générer la voix par rapport aux autres méthodes de lecture.

Lors de notre test sur un ordinateur portable, la génération de cette courte phrase a pris environ 5 minutes.

Pour utiliser la fonction de légende, un PC haute performance équipé d'un GPU est recommandé.

Que se passe-t-il si vous lisez un texte en anglais ?

Irodori-TTS est un logiciel de lecture uniquement compatible avec le japonais.

Alors, que se passe-t-il si l'on essaie de lui faire lire un texte en anglais ?

Essayons d'entrer une phrase simple en exemple.

Exemple de lecture de « Hello, this is a voice recording created using Irodori-TTS. »

Comme on peut l'entendre, le « Hello » a pris une prononciation en katakana (« harô »), et la partie « recording » est devenue inintelligible, rendant la lecture incorrecte.

Si vous souhaitez lire des textes en anglais, il est recommandé d'utiliser un service de synthèse vocale IA compatible avec les langues étrangères.

Méthode de synthèse vocale recommandée lorsque « la configuration est difficile »

Après avoir lu jusqu'ici, certains d'entre vous ont peut-être le sentiment que la configuration de Irodori-TTS semble un peu complexe.

Si vous n'êtes pas habitué à manipuler le Terminal ou à configurer un environnement Python, le simple fait de suivre les étapes peut prendre beaucoup de temps.

De plus, si vous ne possédez pas de PC équipé d'un GPU, chaque synthèse vocale prendra trop de temps, ce qui rendra son utilisation difficile pour des usages tels que la narration de vidéos.

Dans ce cas, il est recommandé d'utiliser une voix IA ne nécessitant ni installation ni configuration.

« Ondoku », la voix IA utilisable sans installation

Pour synthétiser facilement une voix avec une IA de pointe, nous vous recommandons le service de synthèse vocale IA 『Ondoku』.

『Ondoku』 est un service de synthèse vocale IA où il suffit d'ouvrir son navigateur et de coller du texte pour créer une voix.

Vous pouvez créer gratuitement des voix dès maintenant sur PC, smartphone ou tablette.

Comme la génération de la voix s'effectue sur le cloud (côté serveur), l'absence de GPU sur votre PC ne pose aucun problème.

Des voix d'hommes, de femmes, d'enfants, etc., sont proposées parmi plusieurs options dès le départ, vous permettant de lancer la lecture immédiatement en choisissant simplement une voix, sans avoir besoin de préparer une voix de référence ou une légende.

Les textes longs peuvent également être lus tels quels.

De plus, Ondoku est compatible avec l'anglais !

Il prend en charge de nombreuses langues comme le français, l'espagnol, le coréen, le chinois, etc., et peut donc être utilisé pour des lectures dans d'autres langues que le japonais.

De plus, avec la voix IA de nouvelle génération (OndokuBeta), vous pouvez faire l'expérience d'une lecture encore plus naturelle.

Si vous cherchez une méthode pour transformer du texte en voix, pourquoi ne pas essayer Ondoku, facile à utiliser et gratuit ?

Essayer Ondoku maintenant

Comparaison des différences entre Ondoku et Irodori-TTS

Enfin, comparons les principales différences entre Ondoku et Irodori-TTS.

👆 Défilement horizontal possible

Élément	Ondoku	Irodori-TTS
Mode de fonctionnement	Cloud (via navigateur)	Local (traitement sur son propre PC)
Configuration	Inutile	Nécessite la configuration de Python, Git, etc.
Langues prises en charge	Plus de 35 langues	Japonais uniquement
Choix de la voix	Choisir simplement parmi plusieurs voix	Spécification par clonage vocal, légende ou emoji
Limite par génération	Prend en charge les longs textes	Jusqu'à environ 30 secondes
Utilisation commerciale	Possible (crédit requis en cas d'utilisation gratuite)	Possible (licence MIT)
Appareils compatibles	PC, smartphone, tablette	PC (GPU recommandé)
Tarif	Plan gratuit disponible (augmentation des caractères avec les plans payants)	Gratuit (car fonctionnement local)

En comparant, on peut dire que l'on choisira Ondoku pour la simplicité et l'utilisation immédiate, et Irodori-TTS si l'on possède un PC performant et que l'on souhaite peaufiner les voix dans les moindres détails.

Pour ceux qui veulent une voix tout de suite, ceux qui ont besoin d'une lecture en plusieurs langues, ou ceux qui souhaitent utiliser un smartphone ou une tablette, Ondoku est recommandé.

Il convient également à ceux qui souhaitent lire de longs textes tels quels, à ceux qui ne veulent pas passer du temps sur la configuration, ou à ceux dont le PC n'est pas équipé d'un GPU.

Comme vous pouvez générer des voix de haute qualité simplement en ouvrant votre navigateur, pourquoi ne pas commencer par essayer Ondoku gratuitement ?

Essayer Ondoku maintenant

Résumé des caractéristiques, de la configuration et de l'utilisation de Irodori-TTS

Dans cet article, nous avons présenté Irodori-TTS, un logiciel de synthèse vocale IA fonctionnant en local et spécialisé dans la langue japonaise.

Irodori-TTS est un outil séduisant pour ceux qui accordent de l'importance à l'expression vocale, avec des fonctionnalités telles que le clonage vocal, le design du timbre via des légendes et le contrôle des émotions par emojis.

Cependant, la méthode de configuration et l'utilisation s'adressent à des utilisateurs avancés, car elles nécessitent la mise en place d'un environnement Python et Git.

De plus, sur un PC sans GPU, la génération de la voix prendra du temps.

Pour ceux qui souhaitent « utiliser la synthèse vocale facilement et immédiatement », nous recommandons 『Ondoku』, utilisable directement dans le navigateur.

Pourquoi ne pas créer vous aussi des voix de haute qualité grâce à une synthèse vocale IA gratuite et simple d'utilisation ?

■ Logiciel de synthèse vocale IA « Ondoku »

"Ondoku" est un outil de synthèse vocale en ligne qui peut être utilisé sans frais initiaux.

Prend en charge environ 50 langues, dont le japonais, l'anglais, le chinois, le coréen, l'espagnol, le français et l'allemand.
Disponible sur PC et smartphone
Convient pour les affaires, l'éducation, le divertissement, etc.
Aucune installation requise, peut être utilisé immédiatement depuis votre navigateur
Prend également en charge la lecture d'images

Pour l'utiliser, saisissez simplement du texte ou téléchargez un fichier depuis le site. Générez des fichiers sonores naturels en quelques secondes. Vous pouvez utiliser gratuitement la synthèse vocale jusqu’à 5 000 caractères, alors essayez-la d’abord.

Le logiciel de synthèse vocale "Ondoku" peut lire gratuitement 5000 caractères chaque mois avec la voix AI. Vous pouvez facilement télécharger des MP3 et une utilisation commerciale est également possible. Si vous vous inscrivez gratuitement, vous pouvez convertir gratuitement jusqu'à 5 000 caractères par mois du texte en parole. Essayez Ondoku maintenant.

HP: ondoku3.com
Email: ondoku3.com@gmail.com

←Article précédent |