Irodori-TTSとは?できること・注意点・使い方をわかりやすく解説

2026年5月31日

Irodori-TTSとは?できること・注意点・使い方をわかりやすく解説
dog

Irodori-TTSってどんなAI読み上げソフトなの?

新しいAI読み上げソフト「Irodori-TTS」について気になっている方も多いのではないでしょうか。

この記事では、Irodori-TTSの特徴・できること・注意点・使い方をわかりやすく解説します。

さらに「セットアップが難しそう」と感じた方に向けて、インストール不要で今すぐ使える音声合成方法も紹介しています。

この記事でわかること

  1. Irodori-TTSはどんなソフトなの?
  2. Irodori-TTSでできること・注意点
  3. Irodori-TTSの使い方(セットアップから音声調整まで)
  4. 環境構築が難しいときにおすすめの方法

Irodori-TTSとは?日本語AI音声合成ソフトを解説

Irodori-TTSとは?日本語AI音声合成ソフトを解説

まずはじめに、Irodori-TTSはどんなAI音声合成ソフトなのか、特徴をかんたんに解説します。

Irodori-TTSはローカルで動くAI音声合成モデル

Irodori-TTSは、日本語に特化したAI音声合成ソフトです。

開発者は Aratako さんで、オープンソース(MITライセンス)で無料公開されています。

最大の特徴が、自分のPCだけで音声合成が完結する「ローカル動作」ができること。

音声の生成処理がすべて手元のPC上で行われるので、テキストや生成した音声データが外部のサーバーに送信されることはありません。

初回のセットアップ後はインターネット接続なしで音声を生成可能で、生成回数にも制限がありません

ただし、セットアップにはPythonやGitといったプログラミング用のツールが必要です。

また、高速に動作させるにはGPU(グラフィックボード)を搭載した高性能PCが推奨されています。

Irodori-TTSでできること・できないこと

Irodori-TTSでできること・できないこと

つぎに、Irodori-TTSでできることとできないことについて解説します。

Irodori-TTSでできること

Irodori-TTSはローカル環境で動作するので、何度でも無制限に音声を生成できます

インターネット回線のない環境でも、初回セットアップが終われば自由に音声を作ることができます。

どんな音声を作成するか指示する方法も複数用意されていて、キャプション機能を使えば、テキストの指示だけで自分好みの声質を作り出すことができます。

また、音声クローニングで手持ちの音声を再現したり、絵文字で感情表現を付けたりすることも可能です。

MITライセンスなので、生成した音声の商用利用も可能です。

Irodori-TTSの注意点

いっぽうで、Irodori-TTSには使う前に知っておきたい注意点もあります。

1回に作成できる音声は約30秒まで

1回の生成で読み上げできるのは約30秒までです。

長い文章を読み上げたい場合は、文章を分割して何度も生成する必要があります。

思ったとおりの声や話し方にするのは難しい

Irodori-TTSは自由度が高い代わりに、デフォルトの音声(ベースとなる音声)が用意されていません。

そのため、キャプションやリファレンス音声を指定しないと、生成するたびに性別や年齢がランダムに変わってしまいます。

同じ声で読み上げたいときは、リファレンス音声を読み込ませる必要があります

また、抑揚やイントネーションを手動で調整する機能はありません。

対応言語は日本語のみ

対応言語は日本語だけで、英語などの外国語には対応していません。

また、漢字の読み誤りが起きることもあるので、注意が必要です。

GPU搭載のハイスペックPC推奨

PCスペックによっては音声の生成に時間がかかります。

GPUを搭載していないPCでは、短い文章でも生成に1分程度かかります。

CeleronやN100といったエントリークラスのCPUでは、実用は難しいと感じます。

Irodori-TTSを使うには(セットアップの流れ)

ここからは、Irodori-TTSの使い方についてかんたんに解説します。

セットアップの全体の流れは次のとおりです。

  1. 必要なソフトをインストール
  2. 作業フォルダを作る
  3. GitHubからIrodori-TTSをクローン
  4. 必要なパッケージをインストール
  5. Irodori-TTSを起動する
  6. AIモデルを読み込む
  7. テキストを読み上げる

1. Irodori-TTSに必要なソフトをインストール

Irodori-TTSをセットアップするには下準備が必要です。

最初に、この3種類をインストールします。

  • Python 3.10 以上:プログラミング言語
  • Git:バージョン管理システム(Irodori-TTSをダウンロードするために必要)
  • uv:Pythonのパッケージマネージャー

Python・Git・uvをインストールするには、まず、スタートメニューを右クリックして「ターミナル」をクリックします(管理者として起動する必要はありません)。

「ターミナル」をクリック

するとターミナル(PowerShell)の画面が開きます。

ターミナル(PowerShell)

この画面で以下のコマンドを入力して実行します。

winget install --id Git.Git -e

winget install --id=astral-sh.uv -e

コマンド実行中

これで、Irodori-TTSをセットアップするために必要なものをインストールできました。

※Pythonはuvが管理するので、セットアップ時に自動的にインストールされます。

インストールしたら一度、ターミナル(PowerShell)を閉じて開きなおします(「パスを通す」ため)。

2. 作業フォルダを作る

次に、作業フォルダを作ります。

ここにIrodori-TTSがインストールされます。

今回は、Cドライブ直下に「irodori-tts」という名前のフォルダを作成しました。

作業フォルダを作成

フォルダを作成したら、ターミナルでそのフォルダに移動します。

cd C:\irodori-tts

作業フォルダへ移動

3. GitHubからIrodori-TTSをクローン

ターミナルで以下のコマンドを入力して、GitHubからIrodori-TTSのリポジトリをクローンします。

git clone https://github.com/Aratako/Irodori-TTS.git

GitHubからリポジトリをクローン

リポジトリのクローンは数秒ですぐに終わります。

次のコマンドを入力して、クローンしたリポジトリのフォルダに移動します。

cd Irodori-TTS

フォルダを移動

4. 必要なパッケージをインストール

以下のコマンドを入力・実行して、Irodori-TTSを動かすために必要なパッケージをインストールします。

uv sync

パッケージをインストール

大量のパッケージをダウンロード・インストールするため時間がかかります。

パッケージインストール中の画面

Python本体もここでインストールされます。

ダウンロード・インストールしている間、ターミナルの画面を閉じずに待ちます。

3GB近い容量のファイルをダウンロードするので、回線状況がよい場所でセットアップするのがおすすめです。

5. Irodori-TTSを起動する

パッケージのダウンロードとインストールが終わったらセットアップ完了です。

Irodori-TTSを起動します。

以下のコマンドを入力して実行し、起動まで少し待ちます。

uv run python gradio_app.py --server-name 0.0.0.0 --server-port 7860

ターミナルに次のように表示されたら起動完了です。

起動完了した画面

Running on local URL: http://0.0.0.0:7860

Webブラウザを開いて、http://localhost:7860 にアクセスします。

このように、Irodori-TTSの画面(WebUI)が開きます。

Irodori-TTSのWebUI

6. AIモデルを読み込む

音声読み上げに使うAIモデルを読み込むために「Load Model」をクリックします。

Load Model

初めて使うときは、このボタンを押すとAIモデルのダウンロードが始まります。

Model Status(次の画像で赤く囲んだ場所)に完了メッセージが表示されたら、AIモデルの読み込み完了です。

Model Status

7. Irodori-TTSでテキストを読み上げる

Irodori-TTSでは感情表現をはじめ、読み上げ方の指示を出すことができますが、まずは例として、指示なしで読み上げてみましょう。

下にスクロールするとテキスト入力欄があるので、読み上げたい文章を入力します。

文章を入力

今回は「こんにちは、これはイロドリTTSで作成された音声です。」を読み上げてみます。

(「Irodori-TTS」とアルファベットで書くと正しく読み上げできなかったので、カタカナで「イロドリTTS」としました)

「Generate」ボタンを押すと音声の生成が開始します。

生成開始

Irodori-TTSは、手元のPCのCPUやGPU(グラフィックボード)を使って音声を生成します。

そのため、PCの性能によって、生成にかかる時間が大きく変わります

今回はGPUを搭載していないノートPCで生成したため、短い文章ですが、生成に1分くらいかかりました。

参考:CPU: Ryzen 5 4650U メモリ: DDR4 32GB Windows 11 Pro 24H2の環境でテスト生成しました。

生成が終わると、このように音声の波形が表示されて、音声を再生できるようになります。

生成完了

「こんにちは、これはイロドリTTSで作成された音声です。」を読み上げた例

試聴して問題なければ、ダウンロードボタン(下向きの矢印アイコン)を押して音声ファイルを保存します。

音声ファイルはWAV形式で保存されます。

これで、Irodori-TTSを使って音声を合成することができました

Irodori-TTSの音声を調整する方法

Irodori-TTSでは、さまざまな方法で性別や感情などの表現を調整できます。

絵文字で感情表現を指定

テキスト入力欄の下にある「Emoji Palette」をクリックすると、絵文字を選択できます。

Emoji Palette

絵文字にはそれぞれ、感情表現が割り当てられています。

  • 😊 楽しげに、嬉しそうに
  • 😭 嗚咽、泣き声
  • 😰 慌てて、動揺
  • ⏩ 早口
  • 📖 ナレーション、独白

テキスト入力欄に絵文字を入れるだけで、指定した感情表現で読み上げることができます

「😊 こんにちは、これはイロドリTTSで作成された音声です。」を読み上げた例

「📖 こんにちは、これはイロドリTTSで作成された音声です。」を読み上げた例

ただし絵文字を指定しただけだと、性別や年齢を具体的に指定することはできません。

リファレンス音声を読み込ませて同じ声で読み上げる

Irodori-TTSでは、リファレンス音声ファイルを読み込ませて、その声を参考にして読み上げさせることができます。

リファレンス音声は「音声をここにドロップ - または - クリックしてアップロード」と書いてある部分から読み込ませます。

リファレンス音声を読み込ませる

同じ声で読み上げできるだけでなく、なにも指定しなかった場合と比べてクリアな音質で読み上げることができます。

キャプション機能で直接読み上げスタイルを調整することも可能

Irodori-TTSでは、どのような音声で読み上げるかをテキストで直接指定することもできます。

キャプション機能を使う場合は「VoiceDesign版」を起動する必要があり、Irodori-TTSをターミナルで起動するコマンドが変わります。

uv run python gradio_app_voicedesign.py --server-name 0.0.0.0 --server-port 7861

VoiceDesign版を起動

このコマンドを実行すると、VoiceDesign版の操作画面が起動します。

VoiceDesign版では標準版とは異なるAIモデルを使うため、初めて使うときは「Load Model」をクリックして、標準版とは別にモデルをダウンロードする必要があります。

AIモデルの容量は2GBくらいあるため、回線状態がよい場所でダウンロードするのがおすすめです。

VoiceDesign版の操作画面には「Caption / Style Prompt (optional)」のテキストボックスがあります。

Caption / Style Prompt (optional)

ここに、どんな声で読み上げてほしいかを文章で入力します。

  • 落ち着いた女性の声で、近い距離感でやわらかく自然に読み上げてください。
  • 元気な男性の声で、明るくハキハキと話してください。
  • 低めの男性の声で、ニュースキャスターのように淡々と読んでください。

このように、どんな音声で読み上げるか指定できます。

たとえば「落ち着いた女性の声で、近い距離感でやわらかく自然に読み上げてください。」で読み上げると、このような音声になりました。

「落ち着いた女性の声で、近い距離感でやわらかく自然に読み上げてください。」を指定した例

こちらも、クリアな音質の聞き取りやすい音声を読み上げることができました。

ただしキャプション機能には注意点があります。

キャプション機能はほかの読み上げ方法に比べて、音声の生成に時間がかかります。

今回ノートPCで生成したところ、この短い文章の生成に約5分かかりました。

キャプション機能を使うときは、GPUを搭載したハイスペックPCがおすすめです。

英語のテキストを読み上げるとどうなるの?

Irodori-TTSは日本語にだけ対応した読み上げソフトです。

では、英語のテキストを読み上げてみるとどうなるのでしょうか?

試しに、かんたんな例文を入力してみます。

「Hello, this is a voice recording created using Irodori-TTS.」を読み上げた例

このように、Helloが「ハロー」とカタカナ発音になったり、recording の部分が聞き取れない発音になったりして、正しく読み上げることができませんでした。

英語のテキストを読み上げたいときは、外国語に対応したAI読み上げサービスを使うのがおすすめです。

「セットアップが難しい」ときにおすすめの音声合成方法

ここまで読んで、Irodori-TTSのセットアップは少し大変そうだな、と感じた方もいるのではないでしょうか。

ターミナル操作やPython環境の構築に慣れていないと、手順どおりに進めるだけでも時間がかかってしまいます。

また、GPUを搭載したPCを持っていないと、1回の音声合成に時間がかかりすぎて、動画ナレーションなどの用途に使うのは難しいですよね。

そんなときにおすすめなのが、インストールもセットアップも不要なAI音声を使うことです。

『音読さん』インストール不要で使えるAI音声

音読さん

最新AIでかんたんに音声合成したいときにおすすめなのが、AI音声合成サービスの『音読さん』です。

『音読さん』は、ブラウザを開いてテキストを貼るだけで音声を作成できるAI音声合成サービス。

PC・スマホ・タブレットで、いますぐに音声を無料作成できます。

音声の生成はクラウド(サーバー側)で行われるので、PCにGPUが搭載されていなくても問題ありません。

男声・女声・子どもの声など、最初から複数の声が用意されているので、リファレンス音声やキャプションを用意しなくても、選ぶだけですぐに読み上げられます。

長文もそのまま読み上げ可能です。

しかも音読さんは英語にも対応!

フランス語、スペイン語、韓国語、中国語など多言語に対応しているので、日本語以外の読み上げにも使えます。

さらに次世代のAI音声(音読さんBeta)でさらに自然な読み上げも体験できますよ。

テキストを音声として読み上げる方法を探しているときは、無料でかんたんに使える『音読さん』を体験してみませんか?

音読さんとIrodori-TTSの違いを比較

最後に、音読さんとIrodori-TTSの主な違いを比較します。

👆 横にスクロールできます
項目音読さんIrodori-TTS
動作方式クラウド(ブラウザで操作)ローカル(自分のPCで処理)
セットアップ不要Python・Git等の環境構築が必要
対応言語35言語以上日本語のみ
音声の選び方複数の声から選ぶだけ音声クローニング・キャプション・絵文字で指定
1回の生成上限長文に対応約30秒まで
商用利用可能(無料利用時はクレジット表記が必要)可能(MITライセンス)
対応デバイスPC・スマホ・タブレットPC(GPU推奨)
料金無料プランあり(有料プランで文字数拡大)無料(ローカル動作のため)

比較すると、手軽さとすぐに使える点では音読さん、高性能PCを持っていて音声を細かく作り込みたい場合はIrodori-TTSのように使い分けることができます。

今すぐ音声がほしい方、多言語の読み上げが必要な方、スマホやタブレットで使いたい方には音読さんがおすすめです。

長い文章をそのまま読み上げたい方や、セットアップに時間をかけたくない方、PCにGPUが搭載されていない方にも向いています。

ブラウザを開くだけですぐに高品質な音声を生成できるので、まずは音読さん無料で使ってみませんか?

Irodori-TTSの特徴・セットアップ・使い方 まとめ

この記事では、日本語に特化したローカル動作のAI音声合成ソフト、Irodori-TTSについて解説しました。

Irodori-TTSは、音声クローニングやキャプションによる声質デザイン、絵文字による感情制御など、音声表現にこだわりたい方にとって魅力的なツールです。

ただし、セットアップ方法や使い方は上級者向けで、セットアップにはPythonやGitの環境構築が必要です。

また、GPUがないPCでは音声の生成に時間がかかります。

「今すぐ手軽に音声合成を使いたい」という方には、ブラウザだけで使える『音読さん』がおすすめです。

かんたんに使える無料のAI音声合成で、あなたも高品質な音声を作成してみませんか?

■ AI音声合成ソフト『音読さん』

『音読さん』は初期費用ゼロで利用できるオンラインテキスト読み上げツールです。

  • 日本語、英語、中国語、韓国語、スペイン語、フランス語、ドイツ語など約50の言語に対応
  • パソコン・スマホどちらからも利用可能
  • ビジネス・教育・エンターテインメントなどの用途に対応
  • インストール不要でブラウザから即利用可能
  • 画像からの読み上げにも対応

利用方法はサイトからテキストを入力するかファイルをアップロードするだけ。 数秒で自然な音声ファイルが生成されます。 5,000文字までの音声合成なら無料で利用できますので、まずは一度お試しください。

音声読み上げソフト「音読さん」は、無料で毎月5000文字をAI音声で読み上げできます。 MP3を簡単にダウンロードできて、商用利用も可能です。 無料登録をすると毎月5000文字まで無料でテキストを音声に変換できます。 今すぐ音読さんを試す。
HP: ondoku3.com
Email: ondoku3.com@gmail.com
関連記事

音声読み上げソフト音読さん。インストール不要で誰でも無料で利用できる音声読み上げサービスです。 無料登録をすると毎月5000文字まで無料できます 今すぐ無料登録