Irodori-TTSとは？できること・注意点・使い方をわかりやすく解説

2026年7月28日

Irodori-TTSってどんなAI読み上げソフトなの？

新しいAI読み上げソフト「Irodori-TTS」について気になっている方も多いのではないでしょうか。

この記事では、Irodori-TTSの特徴・できること・注意点・使い方をわかりやすく解説します。

さらに「セットアップが難しそう」と感じた方に向けて、インストール不要で今すぐ使える音声合成方法も紹介しています。

この記事でわかること

Irodori-TTSはどんなソフトなの？
Irodori-TTSでできること・注意点
Irodori-TTSの使い方（セットアップから音声調整まで）
環境構築が難しいときにおすすめの方法

Irodori-TTSとは？日本語AI音声合成ソフトを解説

まずはじめに、Irodori-TTSはどんなAI音声合成ソフトなのか、特徴をかんたんに解説します。

Irodori-TTSはローカルで動くAI音声合成モデル

Irodori-TTSは、日本語に特化したAI音声合成ソフトです。

開発者は Aratako さんで、オープンソース（MITライセンス）で無料公開されています。

最大の特徴が、自分のPCだけで音声合成が完結する「ローカル動作」ができること。

音声の生成処理がすべて手元のPC上で行われるので、テキストや生成した音声データが外部のサーバーに送信されることはありません。

初回のセットアップ後はインターネット接続なしで音声を生成可能で、生成回数にも制限がありません。

ただし、セットアップにはPythonやGitといったプログラミング用のツールが必要です。

また、高速に動作させるにはGPU（グラフィックボード）を搭載した高性能PCが推奨されています。

Irodori-TTSでできること・できないこと

つぎに、Irodori-TTSでできることとできないことについて解説します。

Irodori-TTSでできること

Irodori-TTSはローカル環境で動作するので、何度でも無制限に音声を生成できます。

インターネット回線のない環境でも、初回セットアップが終われば自由に音声を作ることができます。

どんな音声を作成するか指示する方法も複数用意されていて、キャプション機能を使えば、テキストの指示だけで自分好みの声質を作り出すことができます。

また、音声クローニングで手持ちの音声を再現したり、絵文字で感情表現を付けたりすることも可能です。

MITライセンスなので、生成した音声の商用利用も可能です。

Irodori-TTSの注意点

いっぽうで、Irodori-TTSには使う前に知っておきたい注意点もあります。

1回に作成できる音声は約30秒まで

1回の生成で読み上げできるのは約30秒までです。

長い文章を読み上げたい場合は、文章を分割して何度も生成する必要があります。

思ったとおりの声や話し方にするのは難しい

Irodori-TTSは自由度が高い代わりに、デフォルトの音声（ベースとなる音声）が用意されていません。

そのため、キャプションやリファレンス音声を指定しないと、生成するたびに性別や年齢がランダムに変わってしまいます。

同じ声で読み上げたいときは、リファレンス音声を読み込ませる必要があります。

また、抑揚やイントネーションを手動で調整する機能はありません。

対応言語は日本語のみ

対応言語は日本語だけで、英語などの外国語には対応していません。

また、漢字の読み誤りが起きることもあるので、注意が必要です。

GPU搭載のハイスペックPC推奨

PCスペックによっては音声の生成に時間がかかります。

GPUを搭載していないPCでは、短い文章でも生成に1分程度かかります。

CeleronやN100といったエントリークラスのCPUでは、実用は難しいと感じます。

Irodori-TTSを使うには（セットアップの流れ）

ここからは、Irodori-TTSの使い方についてかんたんに解説します。

セットアップの全体の流れは次のとおりです。

必要なソフトをインストール
作業フォルダを作る
GitHubからIrodori-TTSをクローン
必要なパッケージをインストール
Irodori-TTSを起動する
AIモデルを読み込む
テキストを読み上げる

1. Irodori-TTSに必要なソフトをインストール

Irodori-TTSをセットアップするには下準備が必要です。

最初に、この3種類をインストールします。

Python 3.10 以上：プログラミング言語
Git：バージョン管理システム（Irodori-TTSをダウンロードするために必要）
uv：Pythonのパッケージマネージャー

Python・Git・uvをインストールするには、まず、スタートメニューを右クリックして「ターミナル」をクリックします（管理者として起動する必要はありません）。

するとターミナル（PowerShell）の画面が開きます。

この画面で以下のコマンドを入力して実行します。

winget install --id Git.Git -e

winget install --id=astral-sh.uv -e

これで、Irodori-TTSをセットアップするために必要なものをインストールできました。

※Pythonはuvが管理するので、セットアップ時に自動的にインストールされます。

インストールしたら一度、ターミナル（PowerShell）を閉じて開きなおします（「パスを通す」ため）。

2. 作業フォルダを作る

次に、作業フォルダを作ります。

ここにIrodori-TTSがインストールされます。

今回は、Cドライブ直下に「irodori-tts」という名前のフォルダを作成しました。

フォルダを作成したら、ターミナルでそのフォルダに移動します。

cd C:\irodori-tts

3. GitHubからIrodori-TTSをクローン

ターミナルで以下のコマンドを入力して、GitHubからIrodori-TTSのリポジトリをクローンします。

git clone https://github.com/Aratako/Irodori-TTS.git

リポジトリのクローンは数秒ですぐに終わります。

次のコマンドを入力して、クローンしたリポジトリのフォルダに移動します。

cd Irodori-TTS

4. 必要なパッケージをインストール

以下のコマンドを入力・実行して、Irodori-TTSを動かすために必要なパッケージをインストールします。

uv sync

大量のパッケージをダウンロード・インストールするため時間がかかります。

Python本体もここでインストールされます。

ダウンロード・インストールしている間、ターミナルの画面を閉じずに待ちます。

3GB近い容量のファイルをダウンロードするので、回線状況がよい場所でセットアップするのがおすすめです。

5. Irodori-TTSを起動する

パッケージのダウンロードとインストールが終わったらセットアップ完了です。

Irodori-TTSを起動します。

以下のコマンドを入力して実行し、起動まで少し待ちます。

uv run python gradio_app.py --server-name 0.0.0.0 --server-port 7860

ターミナルに次のように表示されたら起動完了です。

Running on local URL: http://0.0.0.0:7860

Webブラウザを開いて、http://localhost:7860 にアクセスします。

このように、Irodori-TTSの画面（WebUI）が開きます。

6. AIモデルを読み込む

音声読み上げに使うAIモデルを読み込むために「Load Model」をクリックします。

初めて使うときは、このボタンを押すとAIモデルのダウンロードが始まります。

Model Status（次の画像で赤く囲んだ場所）に完了メッセージが表示されたら、AIモデルの読み込み完了です。

7. Irodori-TTSでテキストを読み上げる

Irodori-TTSでは感情表現をはじめ、読み上げ方の指示を出すことができますが、まずは例として、指示なしで読み上げてみましょう。

下にスクロールするとテキスト入力欄があるので、読み上げたい文章を入力します。

今回は「こんにちは、これはイロドリTTSで作成された音声です。」を読み上げてみます。

（「Irodori-TTS」とアルファベットで書くと正しく読み上げできなかったので、カタカナで「イロドリTTS」としました）

「Generate」ボタンを押すと音声の生成が開始します。

Irodori-TTSは、手元のPCのCPUやGPU（グラフィックボード）を使って音声を生成します。

そのため、PCの性能によって、生成にかかる時間が大きく変わります。

今回はGPUを搭載していないノートPCで生成したため、短い文章ですが、生成に1分くらいかかりました。

参考：CPU: Ryzen 5 4650U メモリ: DDR4 32GB Windows 11 Pro 24H2の環境でテスト生成しました。

生成が終わると、このように音声の波形が表示されて、音声を再生できるようになります。

「こんにちは、これはイロドリTTSで作成された音声です。」を読み上げた例

試聴して問題なければ、ダウンロードボタン（下向きの矢印アイコン）を押して音声ファイルを保存します。

音声ファイルはWAV形式で保存されます。

これで、Irodori-TTSを使って音声を合成することができました。

Irodori-TTSの音声を調整する方法

Irodori-TTSでは、さまざまな方法で性別や感情などの表現を調整できます。

絵文字で感情表現を指定

テキスト入力欄の下にある「Emoji Palette」をクリックすると、絵文字を選択できます。

絵文字にはそれぞれ、感情表現が割り当てられています。

😊 楽しげに、嬉しそうに
😭 嗚咽、泣き声
😰 慌てて、動揺
⏩ 早口
📖 ナレーション、独白

テキスト入力欄に絵文字を入れるだけで、指定した感情表現で読み上げることができます。

「😊 こんにちは、これはイロドリTTSで作成された音声です。」を読み上げた例

「📖 こんにちは、これはイロドリTTSで作成された音声です。」を読み上げた例

ただし絵文字を指定しただけだと、性別や年齢を具体的に指定することはできません。

リファレンス音声を読み込ませて同じ声で読み上げる

Irodori-TTSでは、リファレンス音声ファイルを読み込ませて、その声を参考にして読み上げさせることができます。

リファレンス音声は「音声をここにドロップ - または - クリックしてアップロード」と書いてある部分から読み込ませます。

同じ声で読み上げできるだけでなく、なにも指定しなかった場合と比べてクリアな音質で読み上げることができます。

キャプション機能で直接読み上げスタイルを調整することも可能

Irodori-TTSでは、どのような音声で読み上げるかをテキストで直接指定することもできます。

キャプション機能を使う場合は「VoiceDesign版」を起動する必要があり、Irodori-TTSをターミナルで起動するコマンドが変わります。

uv run python gradio_app_voicedesign.py --server-name 0.0.0.0 --server-port 7861

このコマンドを実行すると、VoiceDesign版の操作画面が起動します。

VoiceDesign版では標準版とは異なるAIモデルを使うため、初めて使うときは「Load Model」をクリックして、標準版とは別にモデルをダウンロードする必要があります。

AIモデルの容量は2GBくらいあるため、回線状態がよい場所でダウンロードするのがおすすめです。

VoiceDesign版の操作画面には「Caption / Style Prompt (optional)」のテキストボックスがあります。

ここに、どんな声で読み上げてほしいかを文章で入力します。

落ち着いた女性の声で、近い距離感でやわらかく自然に読み上げてください。
元気な男性の声で、明るくハキハキと話してください。
低めの男性の声で、ニュースキャスターのように淡々と読んでください。

このように、どんな音声で読み上げるか指定できます。

たとえば「落ち着いた女性の声で、近い距離感でやわらかく自然に読み上げてください。」で読み上げると、このような音声になりました。

「落ち着いた女性の声で、近い距離感でやわらかく自然に読み上げてください。」を指定した例

こちらも、クリアな音質の聞き取りやすい音声を読み上げることができました。

ただしキャプション機能には注意点があります。

キャプション機能はほかの読み上げ方法に比べて、音声の生成に時間がかかります。

今回ノートPCで生成したところ、この短い文章の生成に約5分かかりました。

キャプション機能を使うときは、GPUを搭載したハイスペックPCがおすすめです。

英語のテキストを読み上げるとどうなるの？

Irodori-TTSは日本語にだけ対応した読み上げソフトです。

では、英語のテキストを読み上げてみるとどうなるのでしょうか？

試しに、かんたんな例文を入力してみます。

「Hello, this is a voice recording created using Irodori-TTS.」を読み上げた例

このように、Helloが「ハロー」とカタカナ発音になったり、recording の部分が聞き取れない発音になったりして、正しく読み上げることができませんでした。

英語のテキストを読み上げたいときは、外国語に対応したAI読み上げサービスを使うのがおすすめです。

「セットアップが難しい」ときにおすすめの音声合成方法

ここまで読んで、Irodori-TTSのセットアップは少し大変そうだな、と感じた方もいるのではないでしょうか。

ターミナル操作に慣れていないと、Python・Gitなどのツールを準備し、パッケージをインストールしてAIモデルをダウンロードする手順だけでも時間がかかってしまいます。

また、GPUを搭載したPCを持っていないと、1回の音声合成に時間がかかりすぎて、動画ナレーションなどの用途に使うのは難しいですよね。

長い文章は約30秒分ずつに分けて何度も音声を生成する必要があります。

インストールやセットアップをせずにテキストから音声を作りたい方に向けて、ここからはブラウザで使えるAI音声合成サービスを紹介します。

『音読さん』インストール不要で使えるAI音声

最新AIでかんたんに音声合成したいときにおすすめなのが、AI音声合成サービスの『音読さん』です。

『音読さん』は、ブラウザを開いてテキストを貼るだけで音声を作成できるAI音声合成サービス。

PC・スマホ・タブレットで、いますぐに音声を無料作成できます。

音声の生成はクラウド（サーバー側）で行われるので、PCにGPUが搭載されていなくても問題ありません。

男声・女声・子どもの声など、最初から複数の声が用意されているので、リファレンス音声やキャプションを用意しなくても、選ぶだけですぐに読み上げられます。

長文もそのまま読み上げ可能です。

しかも音読さんは英語にも対応！

フランス語、スペイン語、韓国語、中国語など多言語に対応しているので、日本語以外の読み上げにも使えます。

さらに次世代のAI音声（音読さんBeta）でさらに自然な読み上げも体験できますよ。

テキストを音声として読み上げる方法を探しているときは、無料でかんたんに使える『音読さん』を体験してみませんか？

いますぐ音読さんを使ってみる

音読さんとIrodori-TTSの違いを比較

最後に、音読さんとIrodori-TTSの主な違いを比較します。

👆 横にスクロールできます

項目	音読さん	Irodori-TTS
動作方式	クラウド（ブラウザで操作）	ローカル（自分のPCで処理）
セットアップ	不要	Python・Git等の環境構築が必要
対応言語	35言語以上	日本語のみ
音声の選び方	複数の声から選ぶだけ	音声クローニング・キャプション・絵文字で指定
1回の生成上限	長文に対応	約30秒まで
商用利用	可能（無料利用時はクレジット表記が必要）	可能（MITライセンス）
対応デバイス	PC・スマホ・タブレット	PC（GPU推奨）
料金	無料プランあり（有料プランで文字数拡大）	無料（ローカル動作のため）