O que é Irodori-TTS? Funcionalidades, avisos e guia de uso simples

28 de Julho de 2026

Que tipo de software de leitura por IA é o Irodori-TTS?

Provavelmente, muitas pessoas estão interessadas no novo software de leitura por IA "Irodori-TTS".

Neste artigo, explicaremos de forma fácil de entender as características, o que pode fazer, as precauções e como usar o Irodori-TTS.

Além disso, para quem sente que o setup parece difícil, apresentamos um método de síntese de voz que pode ser usado agora mesmo sem necessidade de instalação.

O que você aprenderá neste artigo

Que tipo de software é o Irodori-TTS?
O que pode fazer e precauções do Irodori-TTS
Como usar o Irodori-TTS (do setup ao ajuste de voz)
Método recomendado quando a construção do ambiente é difícil

O que é o Irodori-TTS? Explicação do software de síntese de voz por IA em japonês

Primeiramente, explicaremos brevemente as características do Irodori-TTS como software de síntese de voz por IA.

Irodori-TTS é um modelo de síntese de voz por IA que funciona localmente

O Irodori-TTS é um software de síntese de voz por IA especializado em japonês.

O desenvolvedor é Aratako, e o software é disponibilizado gratuitamente como open source (licença MIT).

A maior característica é que ele permite a "operação local", onde a síntese de voz é concluída apenas no seu próprio PC.

Como todo o processamento de geração de voz é realizado no PC local, o texto e os dados de voz gerados não são enviados para servidores externos.

Após o setup inicial, é possível gerar vozes sem conexão com a internet, e não há limite no número de gerações.

No entanto, o setup requer ferramentas de programação como Python e Git.

Além disso, para funcionar em alta velocidade, recomenda-se um PC de alto desempenho equipado com GPU (placa de vídeo).

O que o Irodori-TTS pode e não pode fazer

A seguir, explicaremos o que é possível e o que não é possível fazer com o Irodori-TTS.

O que o Irodori-TTS pode fazer

Como o Irodori-TTS opera em ambiente local, você pode gerar vozes ilimitadamente, quantas vezes quiser.

Mesmo em ambientes sem conexão de rede, após concluir o setup inicial, você pode criar vozes livremente.

Existem vários métodos para instruir que tipo de voz criar; usando a função de caption, você pode criar a qualidade de voz de sua preferência apenas com instruções de texto.

Também é possível reproduzir uma voz existente através de voice cloning ou adicionar expressões emocionais usando emojis.

Por ser licença MIT, o uso comercial das vozes geradas também é permitido.

Precauções do Irodori-TTS

Por outro lado, existem precauções que você deve conhecer antes de usar o Irodori-TTS.

Cada geração de voz é limitada a cerca de 30 segundos

A leitura permitida em uma única geração é de até aproximadamente 30 segundos.

Se você quiser ler textos longos, precisará dividir o texto e gerar a voz várias vezes.

É difícil obter exatamente a voz ou a forma de falar desejada

Como o Irodori-TTS possui alta flexibilidade, ele não vem com vozes padrão (vozes base) preparadas.

Por isso, se você não especificar um caption ou áudio de referência, o gênero e a idade mudarão aleatoriamente a cada geração.

Quando quiser ler com a mesma voz, é necessário carregar um áudio de referência.

Além disso, não há uma função para ajustar manualmente a entonação ou prosódia.

O idioma suportado é apenas japonês

O idioma suportado é apenas japonês, não sendo compatível com inglês ou outros idiomas estrangeiros.

Além disso, podem ocorrer erros de leitura de Kanji, por isso é necessário ter cautela.

Recomenda-se um PC de alto desempenho com GPU

Dependendo das especificações do PC, a geração da voz pode levar tempo.

Em PCs que não possuem GPU, mesmo frases curtas podem levar cerca de 1 minuto para serem geradas.

Em CPUs de entrada como Celeron ou N100, sentimos que o uso prático é difícil.

Como usar o Irodori-TTS (Fluxo de setup)

A partir daqui, explicaremos brevemente como usar o Irodori-TTS.

O fluxo geral do setup é o seguinte:

Instalar os softwares necessários
Criar uma pasta de trabalho
Clonar o Irodori-TTS do GitHub
Instalar os packages necessários
Iniciar o Irodori-TTS
Carregar o modelo de IA
Ler o texto

1. Instalar os softwares necessários para o Irodori-TTS

É necessária uma preparação prévia para configurar o Irodori-TTS.

Primeiro, instale estes três tipos:

Python 3.10 ou superior: linguagem de programação
Git: sistema de controle de versão (necessário para baixar o Irodori-TTS)
uv: gerenciador de packages para Python

Para instalar Python, Git e uv, primeiro clique com o botão direito no menu iniciar e clique em "Terminal" (não é necessário iniciar como administrador).

A tela do terminal (PowerShell) será aberta.

Nesta tela, insira e execute os seguintes comandos:

winget install --id Git.Git -e
winget install --id=astral-sh.uv -e

Com isso, você instalou o necessário para configurar o Irodori-TTS.

※ O Python será gerenciado pelo uv, portanto será instalado automaticamente durante o setup.

Após a instalação, feche o terminal (PowerShell) e abra-o novamente (para "atualizar o PATH").

2. Criar uma pasta de trabalho

Em seguida, crie uma pasta de trabalho.

É aqui que o Irodori-TTS será instalado.

Desta vez, criamos uma pasta chamada "irodori-tts" diretamente na unidade C.

Após criar a pasta, mova-se para essa pasta no terminal.

cd C:\irodori-tts

3. Clonar o Irodori-TTS do GitHub

No terminal, insira o seguinte comando para clonar o repository do Irodori-TTS do GitHub.

git clone https://github.com/Aratako/Irodori-TTS.git

A clonagem do repository terminará em poucos segundos.

Insira o seguinte comando para entrar na pasta do repository clonado.

cd Irodori-TTS

4. Instalar os packages necessários

Insira e execute o seguinte comando para instalar os packages necessários para rodar o Irodori-TTS.

uv sync

Levará algum tempo para baixar e instalar uma grande quantidade de packages.

O Python também será instalado aqui.

Enquanto baixa e instala, aguarde sem fechar a tela do terminal.

Como arquivos com cerca de 3GB de capacidade serão baixados, recomenda-se fazer o setup em um local com boa conexão de rede.

5. Iniciar o Irodori-TTS

Após o término do download e instalação dos packages, o setup está concluído.

Inicie o Irodori-TTS.

Insira o seguinte comando e aguarde um pouco até iniciar.

uv run python gradio_app.py --server-name 0.0.0.0 --server-port 7860

Quando aparecer o seguinte no terminal, a inicialização está concluída.

Running on local URL: http://0.0.0.0:7860

Abra o navegador web e acesse http://localhost:7860.

Desta forma, a tela do Irodori-TTS (WebUI) será aberta.

6. Carregar o modelo de IA

Para carregar o modelo de IA usado na leitura de texto, clique em "Load Model".

Ao usar pela primeira vez, clicar neste botão iniciará o download do modelo de IA.

Quando a mensagem de conclusão aparecer no Model Status (indicado pelo quadro vermelho na imagem a seguir), o carregamento do modelo de IA está concluído.

7. Ler texto com o Irodori-TTS

No Irodori-TTS, você pode dar instruções sobre como ler, incluindo expressões emocionais, mas primeiro, como exemplo, vamos ler sem instruções.

Ao rolar para baixo, há um campo de entrada de texto; insira a frase que deseja ler.

Desta vez, tentaremos ler "こんにちは、これはイロドリTTSで作成された音声です。" (Olá, esta é uma voz criada pelo Irodori-TTS).

(Ao escrever "Irodori-TTS" em alfabeto, a leitura não foi feita corretamente, por isso escrevi "イロドリTTS" em Katakana)

Clique no botão "Generate" para iniciar a geração da voz.

O Irodori-TTS gera a voz usando a CPU ou GPU (placa de vídeo) do seu PC.

Por isso, o tempo de geração varia muito dependendo do desempenho do seu PC.

Desta vez, geramos em um notebook sem GPU; apesar de ser uma frase curta, a geração levou cerca de 1 minuto.

Referência: Teste gerado em ambiente com CPU: Ryzen 5 4650U, Memória: DDR4 32GB, Windows 11 Pro 24H2.

Quando a geração terminar, a forma de onda da voz será exibida desta maneira, e você poderá reproduzir o áudio.

Exemplo de leitura de "こんにちは、これはイロドリTTSで作成された音声です。"

Se não houver problemas após ouvir, clique no botão de download (ícone de seta para baixo) para salvar o arquivo de áudio.

O arquivo de áudio será salvo no formato WAV.

Com isso, você conseguiu sintetizar voz usando o Irodori-TTS.

Como ajustar a voz no Irodori-TTS

No Irodori-TTS, você pode ajustar expressões como gênero e emoção de várias maneiras.

Especificar expressões emocionais com emojis

Clicar em "Emoji Palette" abaixo do campo de entrada de texto permite selecionar emojis.

Cada emoji tem uma expressão emocional atribuída.

😊 Com alegria, parecendo feliz
😭 Soluços, choro
😰 Com pressa, perturbado
⏩ Fala rápida
📖 Narração, monólogo

Basta colocar o emoji no campo de entrada de texto para ler com a expressão emocional especificada.

Exemplo de leitura de "😊 こんにちは、これはイロドリTTSで作成された音声です。"

Exemplo de leitura de "📖 こんにちは、これはイロドリTTSで作成された音声です。"

No entanto, apenas especificando o emoji, você não pode definir concretamente o gênero ou a idade.

Carregar áudio de referência para ler com a mesma voz

No Irodori-TTS, você pode carregar um arquivo de áudio de referência e fazer com que ele leia baseando-se nessa voz.

O áudio de referência é carregado na parte que diz "Arraste o áudio aqui - ou - clique para fazer upload".

Além de poder ler com a mesma voz, a qualidade do som da leitura pode ser mais clara do que quando nada é especificado.

Também é possível ajustar o estilo de leitura diretamente com a função de caption

No Irodori-TTS, você também pode especificar diretamente por texto com que tipo de voz deseja que a leitura seja feita.

Para usar a função de caption, é necessário iniciar a "versão VoiceDesign", e o comando para iniciar o Irodori-TTS no terminal muda.

uv run python gradio_app_voicedesign.py --server-name 0.0.0.0 --server-port 7861

Ao executar este comando, a tela de operação da versão VoiceDesign será iniciada.

Como a versão VoiceDesign usa um modelo de IA diferente da versão padrão, ao usar pela primeira vez, é necessário clicar em "Load Model" e baixar o modelo separadamente da versão padrão.

A capacidade do modelo de IA é de cerca de 2GB, por isso recomenda-se baixar em um local com boa conexão de rede.

Na tela de operação da versão VoiceDesign, existe a caixa de texto "Caption / Style Prompt (optional)".

Aqui, você insere em frases que tipo de voz deseja para a leitura.

Com uma voz feminina calma, leia de forma natural e suave, com uma sensação de proximidade.
Com uma voz masculina energética, fale de forma alegre e clara.
Com uma voz masculina grave, leia de forma objetiva como um apresentador de notícias.

Desta forma, você pode especificar como a voz deve ler.

Por exemplo, ao ler com "Com uma voz feminina calma, leia de forma natural e suave, com uma sensação de proximidade.", a voz ficou assim:

Exemplo especificando "Com uma voz feminina calma, leia de forma natural e suave, com uma sensação de proximidade."

Aqui também foi possível obter uma leitura com voz clara e fácil de ouvir.

No entanto, há uma precaução com a função de caption.

A função de caption leva mais tempo para gerar a voz em comparação com outros métodos de leitura.

Desta vez, ao gerar no notebook, a geração desta frase curta levou cerca de 5 minutos.

Ao usar a função de caption, recomenda-se um PC de alto desempenho equipado com GPU.

O que acontece ao ler um texto em inglês?

O Irodori-TTS é um software de leitura compatível apenas com japonês.

Então, o que acontece se tentarmos ler um texto em inglês?

Como teste, inserimos uma frase simples de exemplo.

Exemplo de leitura de "Hello, this is a voice recording created using Irodori-TTS."

Desta forma, "Hello" tornou-se uma pronúncia em Katakana ("haroo") e a parte "recording" ficou com uma pronúncia imperceptível, não sendo possível ler corretamente.

Quando quiser ler textos em inglês, recomenda-se usar um serviço de leitura por IA compatível com idiomas estrangeiros.

Método de síntese de voz recomendado quando o "setup é difícil"

Lendo até aqui, algumas pessoas podem sentir que o setup do Irodori-TTS parece um pouco trabalhoso.

Se você não estiver acostumado com operações de terminal ou construção de ambientes Python, apenas seguir os passos pode levar tempo.

Além disso, se você não tiver um PC equipado com GPU, cada síntese de voz levará tempo demais, tornando difícil o uso para finalidades como narração de vídeos.

Nesses casos, o recomendado é usar uma voz por IA que não requer instalação nem setup.

『Ondoku』: Voz por IA que pode ser usada sem instalação

O serviço de síntese de voz por IA 『Ondoku』 é o recomendado quando você deseja sintetizar vozes facilmente com a IA mais recente.

O 『Ondoku』 é um serviço de síntese de voz por IA onde você pode criar vozes apenas abrindo o navegador e colando o texto.

Você pode criar vozes gratuitamente agora mesmo em PCs, smartphones ou tablets.

Como a geração da voz é feita na nuvem (lado do servidor), não há problema se o PC não tiver GPU.

Como vários tipos de vozes já estão preparados, como vozes masculinas, femininas e infantis, você pode ler imediatamente apenas escolhendo, sem precisar preparar áudios de referência ou captions.

Textos longos também podem ser lidos como estão.

Além disso, o Ondoku é compatível com inglês!

Como é compatível com vários idiomas, como francês, espanhol, coreano e chinês, pode ser usado para leituras em outros idiomas além do japonês.

Você também pode experimentar leituras ainda mais naturais com a voz por IA de próxima geração (OndokuBeta).

Quando estiver procurando um método para ler textos como voz, que tal experimentar o 『Ondoku』, que pode ser usado de forma gratuita e fácil?

Experimentar o Ondoku agora mesmo

Comparação das diferenças entre Ondoku e Irodori-TTS

Por fim, comparamos as principais diferenças entre o Ondoku e o Irodori-TTS.

👆 Você pode rolar horizontalmente

Item	Ondoku	Irodori-TTS
Modo de operação	Nuvem (operado no navegador)	Local (processado no próprio PC)
Setup	Desnecessário	Necessária construção de ambiente com Python, Git, etc.
Idiomas suportados	Mais de 35 idiomas	Apenas japonês
Como escolher a voz	Apenas escolher entre várias vozes	Especificar por voice cloning, caption ou emoji
Limite por geração	Compatível com textos longos	Até cerca de 30 segundos
Uso comercial	Possível (requer atribuição de crédito no uso gratuito)	Possível (licença MIT)
Dispositivos compatíveis	PC, Smartphone, Tablet	PC (GPU recomendada)
Preço	Plano gratuito disponível (expansão de caracteres em planos pagos)	Gratuito (devido à operação local)

Comparando, eles podem ser usados de forma distinta: Ondoku pela facilidade e uso imediato, e Irodori-TTS se você tiver um PC de alto desempenho e quiser personalizar a voz detalhadamente.

O Ondoku é recomendado para quem deseja voz agora mesmo, quem precisa de leitura em vários idiomas ou quem deseja usar em smartphones e tablets.

Também é adequado para quem deseja ler textos longos diretamente, quem não quer gastar tempo com setup ou quem não possui GPU no PC.

Como você pode gerar vozes de alta qualidade apenas abrindo o navegador, que tal começar usando o Ondoku gratuitamente?

Experimentar o Ondoku agora mesmo

Resumo das características, setup e uso do Irodori-TTS

Neste artigo, explicamos o Irodori-TTS, um software de síntese de voz por IA de operação local especializado em japonês.

O Irodori-TTS é uma ferramenta atraente para quem deseja se dedicar à expressão vocal, com design de qualidade de voz via voice cloning ou caption, e controle emocional via emojis.

No entanto, o método de setup e o uso são voltados para usuários avançados, exigindo a construção de ambiente Python e Git.

Além disso, em PCs sem GPU, a geração da voz leva tempo.

Para quem deseja "usar a síntese de voz de forma fácil e imediata", o 『Ondoku』, que pode ser usado apenas pelo navegador, é o recomendado.

Com uma síntese de voz por IA gratuita e fácil de usar, por que você também não experimenta criar vozes de alta qualidade?

Translation:

■ Software de síntese de voz AI “Ondoku”

"Ondoku" é uma ferramenta online de conversão de texto em fala que pode ser usada sem custo inicial.

Suporta aproximadamente 50 idiomas, incluindo japonês, inglês, chinês, coreano, espanhol, francês e alemão.
Disponível para PC e smartphone
Adequado para negócios, educação, entretenimento, etc.
Não requer instalação, pode ser usado imediatamente no seu navegador
Também suporta leitura de imagens

Para utilizá-lo, basta inserir um texto ou fazer upload de um arquivo do site. Gere arquivos de som naturais em segundos. Você pode usar síntese de voz para até 5.000 caracteres gratuitamente, então experimente primeiro.

O software de conversão de texto em fala "Ondoku" pode ler 5.000 caracteres todos os meses com voz AI gratuitamente. Você pode facilmente baixar MP3s e o uso comercial também é possível. Se você se inscrever gratuitamente, poderá converter até 5.000 caracteres por mês gratuitamente de texto em fala. Experimente o Ondoku agora.

HP: ondoku3.com
Email: ondoku3.com@gmail.com

←Artigo anterior |