Cos'è Irodori-TTS? Funzioni, avvertenze e guida all'uso
31 Maggio 2026

Che tipo di software di lettura AI è Irodori-TTS?
Molte persone potrebbero essere curiose riguardo al nuovo software di lettura AI "Irodori-TTS".
In questo articolo spiegheremo in modo semplice le caratteristiche, cosa può fare, le precauzioni e l'utilizzo di Irodori-TTS.
Inoltre, per chi ritiene che la "configurazione sembri difficile", presenteremo anche un metodo di sintesi vocale utilizzabile immediatamente senza installazione.
Cosa imparerai in questo articolo
- Che tipo di software è Irodori-TTS?
- Cosa si può fare con Irodori-TTS e precauzioni
- Come usare Irodori-TTS (dalla configurazione alla regolazione della voce)
- Metodo consigliato quando la creazione dell'ambiente è difficile
Cos'è Irodori-TTS? Spiegazione del software di sintesi vocale AI giapponese

Per prima cosa, spiegheremo brevemente le caratteristiche di Irodori-TTS come software di sintesi vocale AI.
Irodori-TTS è un modello di sintesi vocale AI che funziona in locale
Irodori-TTS è un software di sintesi vocale AI specializzato nella lingua giapponese.
Lo sviluppatore è Aratako, ed è rilasciato gratuitamente come open source (licenza MIT).
La caratteristica principale è la capacità di "funzionamento locale", in cui la sintesi vocale viene completata interamente sul proprio PC.
Poiché tutto il processo di generazione della voce avviene sul PC dell'utente, i testi e i dati vocali generati non vengono inviati a server esterni.
Dopo la configurazione iniziale, è possibile generare voci senza connessione internet e non ci sono limiti al numero di generazioni.
Tuttavia, per la configurazione sono necessari strumenti di programmazione come Python e Git.
Inoltre, per un funzionamento rapido, è consigliato un PC ad alte prestazioni dotato di GPU (scheda grafica).
Cosa si può fare e cosa non si può fare con Irodori-TTS

Successivamente, spiegheremo cosa è possibile fare e cosa non è possibile fare con Irodori-TTS.
Cosa si può fare con Irodori-TTS
Poiché Irodori-TTS funziona in un ambiente locale, è possibile generare voci illimitatamente, quante volte si vuole.
Anche in ambienti senza connessione internet, una volta terminata la configurazione iniziale, è possibile creare voci liberamente.
Sono disponibili diversi modi per istruire il software su quale voce creare; usando la funzione caption, è possibile creare la qualità vocale preferita solo tramite istruzioni testuali.
Inoltre, è possibile riprodurre voci esistenti tramite il cloning vocale o aggiungere espressioni emotive tramite emoji.
Essendo sotto licenza MIT, è possibile anche l'uso commerciale delle voci generate.
Precauzioni per Irodori-TTS
D'altra parte, ci sono alcune precauzioni da conoscere prima di utilizzare Irodori-TTS.
La durata della voce creata in una volta è limitata a circa 30 secondi
La lettura generata in una singola sessione può arrivare fino a circa 30 secondi.
Se si desidera leggere testi lunghi, è necessario dividere il testo e generarlo più volte.
È difficile ottenere esattamente la voce o lo stile di conversazione desiderati
Data l'elevata libertà di Irodori-TTS, non sono fornite voci predefinite (voci di base).
Per questo motivo, se non si specificano caption o voci di riferimento, il genere e l'età cambieranno casualmente a ogni generazione.
Quando si desidera leggere con la stessa voce, è necessario caricare una voce di riferimento.
Inoltre, non esiste una funzione per regolare manualmente l'inflessione o l'intonazione.
La lingua supportata è solo il giapponese
La lingua supportata è solo il giapponese; non supporta lingue straniere come l'inglese.
Inoltre, possono verificarsi errori di lettura dei kanji, quindi è necessaria attenzione.
Consigliato PC ad alte prestazioni con GPU
A seconda delle specifiche del PC, la generazione della voce può richiedere tempo.
Sui PC non dotati di GPU, la generazione può richiedere circa un minuto anche per testi brevi.
Sulle CPU di fascia entry-level come Celeron o N100, l'uso pratico risulta difficile.
Come usare Irodori-TTS (flusso di configurazione)
Da qui, spiegheremo brevemente come utilizzare Irodori-TTS.
Il flusso generale della configurazione è il seguente:
- Installare i software necessari
- Creare una cartella di lavoro
- Clonare Irodori-TTS da GitHub
- Installare i pacchetti necessari
- Avviare Irodori-TTS
- Caricare il modello AI
- Leggere il testo
1. Installare i software necessari per Irodori-TTS
La configurazione di Irodori-TTS richiede una preparazione preliminare.
Per prima cosa, installare questi tre tipi di software:
- Python 3.10 o superiore: linguaggio di programmazione
- Git: sistema di controllo versione (necessario per scaricare Irodori-TTS)
- uv: gestore di pacchetti per Python
Per installare Python, Git e uv, fare clic con il pulsante destro del mouse sul menu Start e fare clic su "Terminale" (non è necessario avviarlo come amministratore).

Si aprirà la schermata del terminale (PowerShell).

In questa schermata, inserire ed eseguire i seguenti comandi:
winget install --id Git.Git -e
winget install --id=astral-sh.uv -e

Con questo, abbiamo installato il necessario per configurare Irodori-TTS.
*Poiché Python è gestito da uv, verrà installato automaticamente durante la configurazione.
Dopo l'installazione, chiudere il terminale (PowerShell) e riaprirlo (per "aggiornare il percorso").
2. Creare una cartella di lavoro
Successivamente, creare una cartella di lavoro.
Irodori-TTS verrà installato qui.
In questo esempio, abbiamo creato una cartella chiamata "irodori-tts" direttamente nel disco C.

Dopo aver creato la cartella, spostarsi in quella cartella nel terminale.
cd C:\irodori-tts

3. Clonare Irodori-TTS da GitHub
Inserire il seguente comando nel terminale per clonare il repository di Irodori-TTS da GitHub.
git clone https://github.com/Aratako/Irodori-TTS.git

La clonazione del repository terminerà in pochi secondi.
Inserire il comando seguente per spostarsi nella cartella del repository clonato.
cd Irodori-TTS

4. Installare i pacchetti necessari
Inserire ed eseguire il seguente comando per installare i pacchetti necessari per far funzionare Irodori-TTS.
uv sync

Il download e l'installazione di una grande quantità di pacchetti richiederanno tempo.

Anche Python stesso verrà installato qui.
Attendere senza chiudere la schermata del terminale durante il download e l'installazione.
Poiché verranno scaricati file per una dimensione di quasi 3GB, si consiglia di eseguire la configurazione in un luogo con una buona connessione internet.
5. Avviare Irodori-TTS
Una volta terminato il download e l'installazione dei pacchetti, la configurazione è completata.
Avviare Irodori-TTS.
Inserire ed eseguire il comando seguente e attendere un momento per l'avvio.
uv run python gradio_app.py --server-name 0.0.0.0 --server-port 7860
L'avvio è completato quando sul terminale appare quanto segue:

Running on local URL: http://0.0.0.0:7860
Aprire un browser web e accedere a http://localhost:7860.
In questo modo, si aprirà la schermata di Irodori-TTS (WebUI).

6. Caricare il modello AI
Per caricare il modello AI da utilizzare per la lettura del testo, fare clic su "Load Model".

Al primo utilizzo, premendo questo pulsante inizierà il download del modello AI.
Quando compare il messaggio di completamento in Model Status (l'area evidenziata in rosso nell'immagine seguente), il caricamento del modello AI è terminato.

7. Leggere il testo con Irodori-TTS
In Irodori-TTS è possibile impartire istruzioni sullo stile di lettura, incluse le espressioni emotive, ma come primo esempio proviamo a leggere senza istruzioni.
Scorrendo verso il basso si trova il campo di inserimento del testo; inserire la frase che si desidera far leggere.

In questo caso, proviamo a far leggere "こんにちは、これはイロドリTTSで作成された音声です。" (Buongiorno, questa è una voce creata con Irodori-TTS).
(Scrivendo "Irodori-TTS" in alfabeto la lettura non era corretta, quindi abbiamo usato il katakana "イロドリTTS")
Premendo il pulsante "Generate", inizierà la generazione della voce.

Irodori-TTS utilizza la CPU o la GPU (scheda grafica) del proprio PC per generare la voce.
Pertanto, il tempo necessario per la generazione varia notevolmente a seconda delle prestazioni del PC.
In questo test abbiamo utilizzato un notebook non dotato di GPU, quindi, nonostante la frase breve, la generazione ha richiesto circa un minuto.
Riferimento: Test di generazione effettuato in ambiente CPU: Ryzen 5 4650U, RAM: DDR4 32GB, Windows 11 Pro 24H2.
Al termine della generazione, verrà visualizzata la forma d'onda della voce e sarà possibile riprodurla.

Esempio di lettura di 「こんにちは、これはイロドリTTSで作成された音声です。」
Se l'ascolto è soddisfacente, fare clic sul pulsante di download (l'icona con la freccia verso il basso) per salvare il file audio.
Il file audio verrà salvato in formato WAV.
In questo modo, siamo riusciti a sintetizzare una voce usando Irodori-TTS.
Come regolare la voce di Irodori-TTS
In Irodori-TTS è possibile regolare espressioni come genere ed emozioni in vari modi.
Specificare l'espressione emotiva con le emoji
Facendo clic su "Emoji Palette" sotto il campo di inserimento del testo, è possibile selezionare le emoji.

Ad ogni emoji è assegnata un'espressione emotiva specifica.
- 😊 In modo allegro, felice
- 😭 Singhiozzi, pianto
- 😰 In preda al panico, agitato
- ⏩ Parlata veloce
- 📖 Narrazione, soliloquio
Inserendo semplicemente l'emoji nel campo di testo, è possibile leggere con l'espressione emotiva specificata.
Esempio di lettura di 「😊 こんにちは、これはイロドリTTSで作成された音声です。」
Esempio di lettura di 「📖 こんにちは、これはイロドリTTSで作成された音声です。」
Tuttavia, specificando solo l'emoji, non è possibile definire concretamente il genere o l'età.
Caricare una voce di riferimento per leggere con la stessa voce
In Irodori-TTS è possibile caricare un file audio di riferimento e far eseguire la lettura basandosi su quella voce.
La voce di riferimento va caricata nella sezione dove è scritto 「音声をここにドロップ - または - クリックしてアップロード」 (Trascina l'audio qui o fai clic per caricarlo).

Oltre a poter leggere con la stessa voce, è possibile ottenere una qualità audio più chiara rispetto a quando non si specifica nulla.
È anche possibile regolare direttamente lo stile di lettura con la funzione caption
In Irodori-TTS è possibile specificare direttamente tramite testo con quale tipo di voce leggere.
Per utilizzare la funzione caption, è necessario avviare la "versione VoiceDesign", e il comando per avviare Irodori-TTS nel terminale cambia.
uv run python gradio_app_voicedesign.py --server-name 0.0.0.0 --server-port 7861

Eseguendo questo comando, si avvierà la schermata operativa della versione VoiceDesign.
Poiché la versione VoiceDesign utilizza un modello AI diverso dalla versione standard, al primo utilizzo è necessario fare clic su "Load Model" e scaricare il modello separatamente dalla versione standard.
La dimensione del modello AI è di circa 2GB, quindi si consiglia di scaricarlo in un luogo con una buona connessione internet.
Nella schermata operativa della versione VoiceDesign è presente la casella di testo "Caption / Style Prompt (optional)".

Qui è possibile inserire una descrizione del tipo di voce desiderata.
- Con una voce femminile calma, leggi in modo naturale, morbido e con un senso di vicinanza.
- Con una voce maschile energica, parla in modo brillante e vivace.
- Con una voce maschile profonda, leggi in modo distaccato come un presentatore di telegiornale.
In questo modo, è possibile specificare il tipo di voce per la lettura.
Ad esempio, specificando 「落ち着いた女性の声で、近い距離感でやわらかく自然に読み上げてください。」 (Con una voce femminile calma, leggi in modo naturale, morbido e con un senso di vicinanza), si è ottenuta questa voce.
Esempio specificando 「落ち着いた女性の声で、近い距離感でやわらかく自然に読み上げてください。」
Anche in questo caso, è stata prodotta una voce chiara e facile da ascoltare.
Tuttavia, c'è una precauzione per la funzione caption.
La funzione caption richiede più tempo per la generazione della voce rispetto agli altri metodi di lettura.
Generando con il notebook utilizzato questa volta, la creazione di questa breve frase ha richiesto circa 5 minuti.
Quando si usa la funzione caption, è caldamente consigliato un PC ad alte prestazioni dotato di GPU.
Cosa succede se si fa leggere un testo in inglese?
Irodori-TTS è un software di lettura che supporta solo il giapponese.
Quindi, cosa succede se proviamo a fargli leggere un testo in inglese?
Proviamo a inserire una semplice frase d'esempio.
Esempio di lettura di 「Hello, this is a voice recording created using Irodori-TTS.」
In questo modo, "Hello" è stato letto con la pronuncia katakana "haroo" e la parte "recording" è risultata incomprensibile, non riuscendo quindi a leggere correttamente.
Se si desidera leggere testi in inglese, si consiglia di utilizzare un servizio di lettura AI che supporti le lingue straniere.
Metodo di sintesi vocale consigliato quando la "configurazione è difficile"
Leggendo fin qui, alcuni potrebbero aver pensato che la configurazione di Irodori-TTS sembri un po' faticosa.
Se non si ha familiarità con le operazioni da terminale o con la creazione di ambienti Python, anche solo seguire la procedura può richiedere molto tempo.
Inoltre, se non si possiede un PC con GPU, ogni singola sintesi vocale richiede troppo tempo, rendendo difficile l'uso per scopi come la narrazione di video.
In questi casi, la soluzione consigliata è utilizzare una voce AI che non richiede né installazione né configurazione.
『Ondoku』: Voce AI utilizzabile senza installazione

Per chi vuole sintetizzare voci facilmente con le ultime tecnologie AI, il servizio consigliato è 『Ondoku』.
『Ondoku』 è un servizio di sintesi vocale AI dove basta aprire il browser e incollare il testo per creare l'audio.
Puoi creare audio gratuitamente in questo momento su PC, smartphone o tablet.
Poiché la generazione della voce avviene sul cloud (lato server), non è un problema se il tuo PC non ha una GPU.
Voci maschili, femminili, di bambini, ecc., sono già pronte all'uso, quindi puoi leggere subito semplicemente scegliendo, senza dover preparare voci di riferimento o caption.
È possibile leggere direttamente anche testi lunghi.
Inoltre, Ondoku supporta anche l'inglese!
Supporta molte lingue come francese, spagnolo, coreano, cinese, ecc., quindi può essere utilizzato per letture in lingue diverse dal giapponese.
Inoltre, con la voce AI di nuova generazione (OndokuBeta), puoi sperimentare una lettura ancora più naturale.
Se stai cercando un modo per leggere testi ad alta voce, perché non provare 『Ondoku』, che è facile da usare e gratuito?
Confronto delle differenze tra Ondoku e Irodori-TTS
Infine, confrontiamo le principali differenze tra Ondoku e Irodori-TTS.
| Voce | Ondoku | Irodori-TTS |
|---|---|---|
| Modalità di funzionamento | Cloud (tramite browser) | Locale (elaborazione sul proprio PC) |
| Configurazione | Non necessaria | Richiede creazione ambiente Python, Git, ecc. |
| Lingue supportate | Oltre 35 lingue | Solo giapponese |
| Scelta della voce | Basta scegliere tra più voci | Specificabile tramite cloning, caption, emoji |
| Limite per generazione | Supporta testi lunghi | Fino a circa 30 secondi |
| Uso commerciale | Possibile (richiede attribuzione per uso gratuito) | Possibile (licenza MIT) |
| Dispositivi supportati | PC, smartphone, tablet | PC (GPU consigliata) |
| Tariffe | Piano gratuito disponibile (piani a pagamento per più caratteri) | Gratuito (per funzionamento locale) |
In sintesi, si possono distinguere così: Ondoku per la semplicità e l'uso immediato, Irodori-TTS per chi possiede un PC ad alte prestazioni e desidera creare voci nei minimi dettagli.
Ondoku è consigliato a chi desidera audio immediato, a chi ha bisogno di letture multilingue o a chi vuole usare smartphone o tablet.
È adatto anche a chi vuole leggere testi lunghi così come sono, a chi non vuole dedicare tempo alla configurazione o a chi non ha una GPU nel PC.
Poiché puoi generare audio di alta qualità semplicemente aprendo il browser, perché non provare Ondoku gratuitamente?
Sintesi delle caratteristiche, configurazione e utilizzo di Irodori-TTS
In questo articolo abbiamo spiegato Irodori-TTS, un software di sintesi vocale AI a funzionamento locale specializzato nel giapponese.
Irodori-TTS è uno strumento affascinante per chi vuole curare l'espressione vocale, grazie al cloning vocale, al design della qualità vocale tramite caption e al controllo delle emozioni tramite emoji.
Tuttavia, il metodo di configurazione e l'utilizzo sono rivolti a utenti esperti, poiché richiedono la creazione di un ambiente Python e Git.
Inoltre, sui PC senza GPU, la generazione della voce richiede tempo.
Per chi desidera "usare la sintesi vocale in modo semplice e immediato", consigliamo 『Ondoku』, utilizzabile solo tramite browser.
Che ne dici di creare anche tu audio di alta qualità con una sintesi vocale AI gratuita e facile da usare?
■ Software di sintesi vocale AI “Ondoku”
"Ondoku" è uno strumento di sintesi vocale online che può essere utilizzato senza alcun costo iniziale.
- Supporta circa 50 lingue tra cui giapponese, inglese, cinese, coreano, spagnolo, francese e tedesco.
- Disponibile sia da PC che da smartphone
- Adatto per affari, istruzione, intrattenimento, ecc.
- Nessuna installazione richiesta, utilizzabile immediatamente dal tuo browser
- Supporta anche la lettura dalle immagini
Per usarlo è sufficiente inserire del testo o caricare un file dal sito. Genera file audio naturali in pochi secondi. Puoi utilizzare la sintesi vocale per un massimo di 5.000 caratteri gratuitamente, quindi provala prima.
Email: ondoku3.com@gmail.com
Software di sintesi vocale del testo Ondoku. È un servizio di sintesi vocale che non richiede installazione e può essere utilizzato da chiunque gratuitamente. Se ti registri gratuitamente, puoi ottenere fino a 5000 caratteri gratuitamente ogni mese. Registrati adesso gratuitamente
- Cos'è Ondoku?
- Leggi il testo su Ondoku
- Registrazione gratuita
- Piano tariffario
- Elenco di articoli
- Prova anche altri servizi gratuiti