¿Qué es Irodori-TTS? Funciones, precauciones y guía de uso

28 de julio de 2026

¿Qué tipo de software de lectura por IA es Irodori-TTS?

Es probable que muchos de ustedes tengan curiosidad por el nuevo software de lectura por IA "Irodori-TTS".

En este artículo, explicaremos de forma sencilla las características, lo que puede hacer, las precauciones y el uso de Irodori-TTS.

Además, para aquellos que sientan que "la configuración parece difícil", también presentamos un método de síntesis de voz que se puede usar ahora mismo sin necesidad de instalación.

Lo que aprenderás en este artículo

¿Qué tipo de software es Irodori-TTS?
Lo que puedes hacer con Irodori-TTS y sus precauciones
Cómo usar Irodori-TTS (desde la configuración hasta el ajuste de voz)
Método recomendado cuando la construcción del entorno es difícil

¿Qué es Irodori-TTS? Explicación del software de síntesis de voz por IA en japonés

En primer lugar, explicaremos brevemente qué tipo de software de síntesis de voz por IA es Irodori-TTS y sus características.

Irodori-TTS es un modelo de síntesis de voz por IA que funciona localmente

Irodori-TTS es un software de síntesis de voz por IA especializado en el idioma japonés.

El desarrollador es Aratako, y está publicado de forma gratuita como código abierto (licencia MIT).

Su característica principal es que permite la "operación local", donde la síntesis de voz se completa únicamente en tu propia PC.

Dado que todo el proceso de generación de voz se realiza en tu computadora, el texto y los datos de voz generados no se envían a servidores externos.

Después de la configuración inicial, es posible generar voz sin conexión a Internet, y no hay límites en el número de generaciones.

Sin embargo, para la configuración se requieren herramientas de programación como Python y Git.

Además, para que funcione a alta velocidad, se recomienda una PC de alto rendimiento equipada con una GPU (tarjeta gráfica).

Lo que puedes y no puedes hacer con Irodori-TTS

A continuación, explicaremos lo que se puede y no se puede hacer con Irodori-TTS.

Lo que puedes hacer con Irodori-TTS

Dado que Irodori-TTS funciona en un entorno local, puedes generar voz de forma ilimitada tantas veces como quieras.

Incluso en entornos sin conexión a Internet, una vez terminada la configuración inicial, puedes crear voces libremente.

Existen múltiples formas de indicar qué tipo de voz crear; mediante la función de capturas (captions), puedes crear la calidad de voz de tu preferencia solo con instrucciones de texto.

Además, es posible recrear una voz que ya tengas mediante la clonación de voz (voice cloning) o añadir expresiones emocionales con emojis.

Al ser licencia MIT, el uso comercial de la voz generada también es posible.

Precauciones de Irodori-TTS

Por otro lado, hay algunas precauciones que debes conocer antes de usar Irodori-TTS.

La voz que se puede crear de una sola vez es de aproximadamente 30 segundos

Lo máximo que puede leer en una sola generación es de unos 30 segundos.

Si deseas leer un texto largo, es necesario dividirlo y generarlo varias veces.

Es difícil lograr exactamente la voz o la forma de hablar deseada

Irodori-TTS ofrece mucha libertad, pero a cambio, no incluye voces por defecto (voces base).

Por lo tanto, si no especificas una captura o un audio de referencia, el género y la edad cambiarán aleatoriamente cada vez que generes voz.

Para leer con la misma voz, es necesario cargar un audio de referencia

Además, no tiene una función para ajustar manualmente la entonación o la acentuación.

El idioma compatible es solo japonés

Solo es compatible con el idioma japonés; no es compatible con idiomas extranjeros como el inglés.

También se debe tener cuidado, ya que pueden ocurrir errores en la lectura de los kanji.

Se recomienda una PC de altas especificaciones con GPU

Dependiendo de las especificaciones de la PC, la generación de voz puede llevar tiempo.

En computadoras que no tienen GPU, incluso un texto corto puede tardar aproximadamente 1 minuto en generarse.

Con CPUs de gama de entrada como Celeron o N100, se siente que su uso práctico es difícil.

Cómo usar Irodori-TTS (flujo de configuración)

A continuación, explicaremos brevemente cómo usar Irodori-TTS.

El flujo general de la configuración es el siguiente:

Instalar el software necesario
Crear una carpeta de trabajo
Clonar Irodori-TTS desde GitHub
Instalar los paquetes necesarios
Iniciar Irodori-TTS
Cargar el modelo de IA
Leer el texto

1. Instalar el software necesario para Irodori-TTS

Para configurar Irodori-TTS, se requiere una preparación previa.

Primero, instala estos tres tipos de software:

Python 3.10 o superior: Lenguaje de programación
Git: Sistema de control de versiones (necesario para descargar Irodori-TTS)
uv: Gestor de paquetes de Python

Para instalar Python, Git y uv, primero haz clic derecho en el menú de inicio y selecciona "Terminal" (no es necesario ejecutarlo como administrador).

Se abrirá la pantalla de la terminal (PowerShell).

En esta pantalla, ingresa y ejecuta los siguientes comandos:

winget install --id Git.Git -e
winget install --id=astral-sh.uv -e

Con esto, has instalado lo necesario para configurar Irodori-TTS.

*Python será gestionado por uv, por lo que se instalará automáticamente durante la configuración.

Una vez instalado, cierra la terminal (PowerShell) y ábrela de nuevo (para que se reconozcan las rutas o "paths").

2. Crear una carpeta de trabajo

A continuación, crea una carpeta de trabajo.

Aquí es donde se instalará Irodori-TTS.

En este caso, hemos creado una carpeta llamada "irodori-tts" directamente en la unidad C.

Una vez creada la carpeta, muévete a ella en la terminal.

cd C:\irodori-tts

3. Clonar Irodori-TTS desde GitHub

Ingresa el siguiente comando en la terminal para clonar el repositorio de Irodori-TTS desde GitHub.

git clone https://github.com/Aratako/Irodori-TTS.git

La clonación del repositorio terminará en unos pocos segundos.

Ingresa el siguiente comando para moverte a la carpeta del repositorio clonado.

cd Irodori-TTS

4. Instalar los paquetes necesarios

Ingresa y ejecuta el siguiente comando para instalar los paquetes necesarios para ejecutar Irodori-TTS.

uv sync

Llevará tiempo ya que se descargarán e instalarán una gran cantidad de paquetes.

Pantalla durante la instalación de paquetes

El núcleo de Python también se instalará aquí.

Espera sin cerrar la pantalla de la terminal mientras se descarga e instala.

Se descargarán archivos con una capacidad cercana a los 3GB, por lo que se recomienda realizar la configuración en un lugar con buena conexión a Internet.

5. Iniciar Irodori-TTS

Una vez terminada la descarga e instalación de los paquetes, la configuración habrá finalizado.

Inicia Irodori-TTS.

Ingresa y ejecuta el siguiente comando y espera un momento a que inicie.

uv run python gradio_app.py --server-name 0.0.0.0 --server-port 7860

Cuando aparezca lo siguiente en la terminal, el inicio se habrá completado.

Running on local URL: http://0.0.0.0:7860

Abre tu navegador web y accede a http://localhost:7860.

Se abrirá la pantalla de Irodori-TTS (WebUI).

6. Cargar el modelo de IA

Para cargar el modelo de IA que se usará para la lectura del texto, haz clic en "Load Model".

La primera vez que lo uses, al presionar este botón comenzará la descarga del modelo de IA.

Cuando aparezca un mensaje de finalización en Model Status (el lugar rodeado en rojo en la siguiente imagen), la carga del modelo de IA habrá terminado.

7. Leer texto con Irodori-TTS

En Irodori-TTS puedes dar instrucciones sobre cómo leer, incluyendo expresiones emocionales, pero primero, como ejemplo, intentemos leer sin instrucciones.

Desplázate hacia abajo para encontrar el cuadro de entrada de texto e ingresa el texto que deseas que sea leído.

Esta vez intentaremos leer: "こんにちは、これはイロドリTTSで作成された音声です。" (Hola, este es un audio creado con Irodori-TTS).

(Al escribir "Irodori-TTS" en alfabeto no pudo leerlo correctamente, así que lo escribí en katakana como "イロドリTTS").

Haz clic en el botón "Generate" para comenzar la generación de voz.

Irodori-TTS utiliza la CPU o GPU (tarjeta gráfica) de tu computadora para generar la voz.

Por lo tanto, el tiempo que tarda en generarse cambia significativamente dependiendo del rendimiento de la PC.

En esta ocasión, al generar en una laptop sin GPU, tardó aproximadamente 1 minuto a pesar de ser una frase corta.

Referencia: Se realizó la generación de prueba en un entorno con CPU: Ryzen 5 4650U, Memoria: DDR4 32GB, Windows 11 Pro 24H2.

Cuando termine la generación, se mostrará la onda de audio y podrás reproducirla.

Ejemplo de lectura de "こんにちは、これはイロドリTTSで作成された音声です。"

Si no hay problemas tras escucharla, presiona el botón de descarga (icono de flecha hacia abajo) para guardar el archivo de audio.

El archivo de audio se guarda en formato WAV.

Con esto, has podido sintetizar voz usando Irodori-TTS.

Cómo ajustar la voz de Irodori-TTS

En Irodori-TTS, puedes ajustar expresiones como el género y las emociones de diversas maneras.

Especificar expresiones emocionales con emojis

Al hacer clic en "Emoji Palette" debajo del cuadro de entrada de texto, puedes seleccionar emojis.

A cada emoji se le asigna una expresión emocional:

😊 Con alegría, feliz
😭 Sollozos, llanto
😰 Con prisa, agitación
⏩ Habla rápida
📖 Narración, monólogo

Simplemente insertando el emoji en el cuadro de texto, puedes realizar la lectura con la expresión emocional especificada.

Ejemplo de lectura de "😊 こんにちは、これはイロドリTTSで作成された音声です。"

Ejemplo de lectura de "📖 こんにちは、これはイロドリTTSで作成された音声です。"

Sin embargo, solo especificando un emoji no es posible designar concretamente el género o la edad.

Cargar un audio de referencia para leer con la misma voz

En Irodori-TTS, puedes cargar un archivo de audio de referencia para que lea basándose en esa voz.

El audio de referencia se carga desde la sección que dice "Suelte el audio aquí - o - haga clic para cargar".

No solo permite leer con la misma voz, sino que la calidad del audio es más clara en comparación con cuando no se especifica nada.

También es posible ajustar directamente el estilo de lectura con la función de captura

En Irodori-TTS, también puedes especificar directamente mediante texto qué tipo de voz deseas para la lectura.

Para usar la función de captura, es necesario iniciar la "versión VoiceDesign", y el comando para iniciar Irodori-TTS en la terminal cambia.

uv run python gradio_app_voicedesign.py --server-name 0.0.0.0 --server-port 7861

Al ejecutar este comando, se iniciará la pantalla de operación de la versión VoiceDesign.

Dado que la versión VoiceDesign utiliza un modelo de IA diferente a la versión estándar, la primera vez que la uses deberás hacer clic en "Load Model" y descargar el modelo por separado de la versión estándar.

La capacidad del modelo de IA es de unos 2GB, por lo que se recomienda descargarlo en un lugar con buena conexión a Internet.

En la pantalla de operación de VoiceDesign hay un cuadro de texto llamado "Caption / Style Prompt (optional)".

Aquí ingresas en frases qué tipo de voz quieres para la lectura:

Lea con voz de mujer calmada, con una distancia cercana y de manera suave y natural.
Hable con voz de hombre enérgico, de forma alegre y clara.
Lea de forma monótona como un presentador de noticias, con voz de hombre profunda.

De esta manera, puedes especificar qué tipo de voz usar para la lectura.

Por ejemplo, al especificar "Lea con voz de mujer calmada, con una distancia cercana y de manera suave y natural", el audio resultó así:

Ejemplo especificando "Lea con voz de mujer calmada, con una distancia cercana y de manera suave y natural"

En este caso también se pudo obtener una lectura con una calidad de audio clara y fácil de escuchar.

Sin embargo, hay una precaución con la función de captura.

La función de captura tarda más tiempo en generar la voz en comparación con otros métodos de lectura.

Al generar en una laptop esta vez, la generación de esta frase corta tardó unos 5 minutos.

Se recomienda una PC de altas especificaciones con GPU cuando se use la función de captura.

¿Qué pasa si lees un texto en inglés?

Irodori-TTS es un software de lectura compatible únicamente con el japonés.

Entonces, ¿qué sucede si intentamos leer un texto en inglés?

Probemos ingresando un ejemplo sencillo.

Ejemplo de lectura de "Hello, this is a voice recording created using Irodori-TTS."

Como resultado, "Hello" sonó con una pronunciación de katakana, y la parte de "recording" tuvo una pronunciación ininteligible, por lo que no pudo leerse correctamente.

Cuando quieras leer textos en inglés, se recomienda usar un servicio de lectura por IA compatible con idiomas extranjeros.

Método de síntesis de voz recomendado cuando "la configuración es difícil"

Habiendo leído hasta aquí, es posible que algunos sientan que la configuración de Irodori-TTS parece un poco complicada.

Si no estás acostumbrado al manejo de terminales o a la construcción de entornos Python, seguir los pasos puede llevarte mucho tiempo.

Además, si no tienes una PC con GPU, cada síntesis de voz tardará demasiado tiempo, lo que dificulta su uso para fines como la narración de videos.

En esos casos, lo más recomendable es usar una voz de IA que no requiera instalación ni configuración.

『Ondoku』Voz de IA que se puede usar sin instalación

Cuando desees realizar una síntesis de voz fácilmente con la última IA, el servicio recomendado es 『Ondoku』.

『Ondoku』 es un servicio de síntesis de voz por IA donde puedes crear audio simplemente abriendo el navegador y pegando el texto.

Puedes crear audio de forma gratuita ahora mismo desde tu PC, smartphone o tablet.

Dado que la generación de voz se realiza en la nube (lado del servidor), no hay problema si tu PC no tiene GPU.

Al haber múltiples voces preparadas desde el principio, como voces masculinas, femeninas y de niños, puedes leer de inmediato simplemente eligiendo una, sin necesidad de preparar audios de referencia o capturas.

También es posible leer textos largos tal como están.

¡Además, Ondoku es compatible con el inglés!

Es compatible con múltiples idiomas como francés, español, coreano, chino, etc., por lo que puedes usarlo para lecturas en otros idiomas además del japonés.

Además, puedes experimentar una lectura aún más natural con la IA de próxima generación (OndokuBeta).

Si estás buscando una forma de convertir texto a voz, ¿por qué no pruebas 『Ondoku』, que es gratuito y fácil de usar?

Probar Ondoku ahora mismo

Comparativa de diferencias entre Ondoku e Irodori-TTS

Finalmente, comparamos las principales diferencias entre Ondoku e Irodori-TTS.

👆 Puedes desplazarte lateralmente

Ítem	Ondoku	Irodori-TTS
Modo de funcionamiento	Nube (operación en navegador)	Local (procesamiento en tu propia PC)
Configuración	No necesaria	Requiere construcción de entorno (Python, Git, etc.)
Idiomas compatibles	Más de 35 idiomas	Solo japonés
Cómo elegir la voz	Solo elegir entre múltiples voces	Especificar por clonación de voz, captura o emoji
Límite por generación	Compatible con textos largos	Hasta aprox. 30 segundos
Uso comercial	Posible (requiere crédito en uso gratuito)	Posible (licencia MIT)
Dispositivos compatibles	PC, smartphone, tablet	PC (se recomienda GPU)
Precio	Plan gratuito disponible (ampliación de caracteres con planes de pago)	Gratis (debido a la operación local)

Al comparar, puedes usarlos de forma distinta: Ondoku por su facilidad y disponibilidad inmediata, e Irodori-TTS si tienes una PC de alto rendimiento y quieres personalizar la voz detalladamente.

Para quienes necesitan voz ahora mismo, requieren lectura en múltiples idiomas o quieren usarla en smartphones o tablets, se recomienda Ondoku.

También es adecuado para quienes desean leer textos largos directamente, no quieren dedicar tiempo a la configuración o no tienen una GPU en su PC.

Dado que puedes generar voces de alta calidad con solo abrir tu navegador, ¿por qué no empiezas a usar Ondoku de forma gratuita?

Probar Ondoku ahora mismo

Resumen de características, configuración y uso de Irodori-TTS

En este artículo, hemos explicado sobre Irodori-TTS, el software de síntesis de voz por IA de funcionamiento local especializado en japonés.

Irodori-TTS es una herramienta atractiva para quienes desean esmerarse en la expresión vocal, con funciones como la clonación de voz, el diseño de calidad de voz mediante capturas y el control emocional por emojis.

Sin embargo, el método de configuración y el uso son para usuarios avanzados, ya que se requiere la construcción de un entorno de Python y Git.

Además, en computadoras sin GPU, la generación de voz lleva tiempo.

Para quienes desean "usar la síntesis de voz de forma fácil y rápida", recomendamos 『Ondoku』, que se puede usar solo con el navegador.

¿Por qué no creas tú también audios de alta calidad con una síntesis de voz por IA gratuita y fácil de usar?

■ Software de síntesis de voz con IA “Ondoku”

"Ondoku" es una herramienta de conversión de texto a voz en línea que se puede utilizar sin costo inicial.

Admite aproximadamente 50 idiomas, incluidos japonés, inglés, chino, coreano, español, francés y alemán.
Disponible tanto desde PC como desde teléfono inteligente
Adecuado para negocios, educación, entretenimiento, etc.
No requiere instalación, puede usarse inmediatamente desde su navegador
También admite la lectura de imágenes.

Para usarlo, simplemente ingrese texto o cargue un archivo desde el sitio. Genere archivos de sonido naturales en segundos. Puede utilizar la síntesis de voz de hasta 5000 caracteres de forma gratuita, así que pruébelo primero.

El software de texto a voz "Ondoku" puede leer 5000 caracteres cada mes con voz AI de forma gratuita. Puede descargar MP3 fácilmente y también es posible el uso comercial. Si te registras gratis, puedes convertir hasta 5000 caracteres por mes de forma gratuita de texto a voz. Prueba Ondoku ahora.

HP: ondoku3.com
Email: ondoku3.com@gmail.com

←Artículo anterior |