Irodori-TTSとは?できること・注意点・使い方をわかりやすく解説
2026年5月30日

Irodori-TTSってどんなAI読み上げソフトなの?
新しいAI読み上げソフト「Irodori-TTS」について気になっている方も多いのではないでしょうか。
この記事では、Irodori-TTSの特徴・できること・注意点・始め方をわかりやすく解説します。
さらに「セットアップが難しそう」と感じた方に向けて、インストール不要で今すぐ使える音声合成方法も紹介しています。
この記事でわかること
- Irodori-TTSはどんなソフトなの?
- Irodori-TTSでできること・注意点
- Irodori-TTSの使い方(セットアップから音声調整まで)
- 環境構築が難しいときにおすすめの方法
Irodori-TTSとは?日本語AI音声合成ソフトを解説

まずはじめに、Irodori-TTSはどんなAI音声合成ソフトなのか、特徴をかんたんに解説します。
Irodori-TTSはローカルで動くAI音声合成モデル
Irodori-TTSは、日本語に特化したAI音声合成ソフトです。
開発者は Aratako さんで、オープンソース(MITライセンス)で無料公開されています。
最大の特徴が、自分のPCだけで音声合成が完結する「ローカル動作」ができること。
音声の生成処理がすべて手元のPC上で行われるので、テキストや生成した音声データが外部のサーバーに送信されることはありません。
初回のセットアップ後はインターネット接続なしで音声を生成可能で、生成回数にも制限がありません。
ただし、セットアップにはPythonやGitといったプログラミング用のツールが必要です。
また、高速に動作させるにはGPU(グラフィックボード)を搭載した高性能PCが推奨されています。
Irodori-TTSでできること・できないこと

つぎに、Irodori-TTSでできることとできないことについて解説します。
Irodori-TTSでできること
Irodori-TTSはローカル環境で動作するので、何度でも無制限に音声を生成できます。
インターネット回線のない環境でも、初回セットアップが終われば自由に音声を作ることができます。
どんな音声を作成するか指示する方法も複数用意されていて、キャプション機能を使えば、テキストの指示だけで自分好みの声質を作り出すことができます。
また、音声クローニングで手持ちの音声を再現したり、絵文字で感情表現を付けたりすることも可能です。
MITライセンスなので、生成した音声の商用利用も可能です。
Irodori-TTSの注意点
いっぽうで、Irodori-TTSには使う前に知っておきたい注意点もあります。
まず、読み上げ可能な音声の長さ。
1回の生成で読み上げられるのは約30秒までです。
長い文章を読み上げたい場合は、文章を分割して何度も生成する必要があります。
また、自由度が高い代わりにデフォルトの音声(ベースとなる音声)が用意されていないため、キャプションやリファレンス音声を指定しないと、生成のたびに性別や年齢がランダムに変わってしまいます。
キャプション機能(VoiceDesign版)で指示した場合も、生成するたびに声が微妙に変わることがあります。
同じ声で読み上げたいときは、リファレンス音声を読み込ませる必要があります。
抑揚やイントネーションを手動で調整する機能はありません。
狙った話し方になるまで、再生成を繰り返す形になります。
また、対応言語は日本語のみです。
漢字の読み誤りが起きることもあるので、注意が必要です。
GPU搭載のハイスペックPC推奨
また、PCスペックによっては音声の生成に時間がかかる場合があります。
GPUを搭載していないPCでは、短い文章でも生成に1分程度かかります。
今回、GPU非搭載のノートPCでテスト生成したところ、Ryzen 5(Zen2)でも1分以上待つ必要がありました。
CeleronやN100といったエントリークラスのCPUでは、実用は難しいと感じます。
Irodori-TTSを使うには(セットアップの流れ)
ここからは、Irodori-TTSの使い方についてかんたんに解説します。
セットアップの全体の流れは次のとおりです。
- 必要なソフトをインストール
- 作業フォルダを作る
- GitHubからIrodori-TTSをクローン
- 必要なパッケージをインストール
- Irodori-TTSを起動する
- AIモデルを読み込む
- テキストを読み上げる
1. Irodori-TTSに必要なソフトをインストール
Irodori-TTSをセットアップするには下準備が必要です。
最初に、この3種類をインストールします。
- Python 3.10 以上:プログラミング言語
- Git:バージョン管理システム(Irodori-TTSをダウンロードするために必要)
- uv:Pythonのパッケージマネージャー
Python・Git・uvをインストールするには、まず、スタートメニューを右クリックして「ターミナル」をクリックします(管理者として起動する必要はありません)。

するとターミナル(PowerShell)の画面が開きます。

この画面で以下のコマンドを入力して実行します。
winget install --id Git.Git -e
winget install --id=astral-sh.uv -e

これで、Irodori-TTSをセットアップするために必要なものをインストールできました。
※Pythonはuvが管理するので、セットアップ時に自動的にインストールされます。
インストールしたら一度、ターミナル(PowerShell)を閉じて開きなおします(「パスを通す」ため)。
2. 作業フォルダを作る
次に、作業フォルダを作ります。
ここにIrodori-TTSがインストールされます。
今回は、Cドライブ直下に「irodori-tts」という名前のフォルダを作成しました。

フォルダを作成したら、ターミナルでそのフォルダに移動します。
cd C:\irodori-tts

3. GitHubからIrodori-TTSをクローン
ターミナルで以下のコマンドを入力して、GitHubからIrodori-TTSのリポジトリをクローンします。
git clone https://github.com/Aratako/Irodori-TTS.git

リポジトリのクローンは数秒ですぐに終わります。
次のコマンドを入力して、クローンしたリポジトリのフォルダに移動します。
cd Irodori-TTS

4. 必要なパッケージをインストール
以下のコマンドを入力・実行して、Irodori-TTSを動かすために必要なパッケージをインストールします。
uv sync

大量のパッケージをダウンロード・インストールするため時間がかかります。

Python本体もここでインストールされます。
ダウンロード・インストールしている間、ターミナルの画面を閉じずに待ちます。
3GB近い容量のファイルをダウンロードするので、回線状況がよい場所でセットアップするのがおすすめです。
5. Irodori-TTSを起動する
パッケージのダウンロードとインストールが終わったらセットアップ完了です。
Irodori-TTSを起動します。
以下のコマンドを入力して実行し、起動まで少し待ちます。
uv run python gradio_app.py --server-name 0.0.0.0 --server-port 7860
ターミナルに次のように表示されたら起動完了です。

Running on local URL: http://0.0.0.0:7860
Webブラウザを開いて、http://localhost:7860 にアクセスします。
このように、Irodori-TTSの画面(WebUI)が開きます。

6. AIモデルを読み込む
音声読み上げに使うAIモデルを読み込むために「Load Model」をクリックします。

初めて使うときは、このボタンを押すとAIモデルのダウンロードが始まります。
Model Status(次の画像で赤く囲んだ場所)に完了メッセージが表示されたら、AIモデルの読み込み完了です。

7. Irodori-TTSでテキストを読み上げる
Irodori-TTSでは感情表現をはじめ、読み上げ方の指示を出すことができますが、まずは例として、指示なしで読み上げてみましょう。
下にスクロールするとテキスト入力欄があるので、読み上げたい文章を入力します。

「Generate」ボタンを押すと音声の生成が開始します。

Irodori-TTSは、手元のPCのCPUやGPU(グラフィックボード)を使って音声を生成します。
そのため、PCの性能によって、生成にかかる時間が大きく変わります。
今回はGPUを搭載していないノートPCで生成したため、短い文章ですが、生成に1分くらいかかりました。
参考:CPU: Ryzen 5 4650U メモリ: DDR4 32GB Windows 11 Pro 24H2の環境でテスト生成しました。
生成が終わると、このように音声の波形が表示されて、音声を再生できるようになります。

「こんにちは、私はAIです。これは音声合成のテストです。」を読み上げた例
試聴して問題なければ、ダウンロードボタン(下向きの矢印アイコン)を押して音声ファイルを保存します。
音声ファイルはWAV形式で保存されます。
これで、Irodori-TTSを使って音声を合成することができました。
Irodori-TTSの音声を調整する方法
Irodori-TTSでは、さまざまな方法で性別や感情などの表現を調整できます。
絵文字で感情表現を指定
テキスト入力欄の下にある「Emoji Palette」をクリックすると、絵文字を選択できます。

絵文字にはそれぞれ、感情表現が割り当てられています。
- 😊 楽しげに、嬉しそうに
- 😭 嗚咽、泣き声
- 😰 慌てて、動揺
- ⏩ 早口
- 📖 ナレーション、独白
テキスト入力欄に絵文字を入れるだけで、指定した感情表現で読み上げることができます。
「😊 こんにちは、私はAIです。これは音声合成のテストです。」を読み上げた例
「📖 こんにちは、私はAIです。これは音声合成のテストです。」を読み上げた例
ただし絵文字を指定しただけだと、性別や年齢を具体的に指定することはできません。
リファレンス音声を読み込ませて同じ声で読み上げる
Irodori-TTSでは、リファレンス音声ファイルを読み込ませて、その声を参考にして読み上げさせることができます。
リファレンス音声は「音声をここにドロップ - または - クリックしてアップロード」と書いてある部分から読み込ませます。

今回は例として、AI読み上げサービス『音読さん』で生成した音声ファイルを読み込ませてみます。
今回は『音読さんBeta』の音声「Ellis」で読み上げたMP3ファイルを読み込ませました。
音読さんの音声サンプル(Ellis)
するとこのように、リファレンスとして読み込ませた音声にかなり近い声で読み上げることができました。
Irodori-TTSの読み上げ結果
また、リファレンス音声を指定しなかった場合と比べて、とてもクリアな音質で、違和感なく読み上げることができています。
キャプション機能で直接読み上げスタイルを調整することも可能
Irodori-TTSでは、どのような音声で読み上げるかをテキストで直接指定することもできます。
キャプション機能を使う場合は「VoiceDesign版」を起動する必要があり、Irodori-TTSをターミナルで起動するコマンドが変わります。
uv run python gradio_app_voicedesign.py --server-name 0.0.0.0 --server-port 7861

このコマンドを実行すると、VoiceDesign版の操作画面が起動します。
VoiceDesign版では標準版とは異なるAIモデルを使うため、初めて使うときは「Load Model」をクリックして、標準版とは別にモデルをダウンロードする必要があります。
AIモデルの容量は2GBくらいあるため、回線状態がよい場所でダウンロードするのがおすすめです。
VoiceDesign版の操作画面には「Caption / Style Prompt (optional)」のテキストボックスがあります。

ここに、どんな声で読み上げてほしいかを文章で入力します。
- 落ち着いた女性の声で、近い距離感でやわらかく自然に読み上げてください。
- 元気な男性の声で、明るくハキハキと話してください。
- 低めの男性の声で、ニュースキャスターのように淡々と読んでください。
このように、どんな音声で読み上げるか指定できます。
たとえば「落ち着いた女性の声で、近い距離感でやわらかく自然に読み上げてください。」で読み上げると、このような音声になりました。
こちらも、クリアな音質の聞き取りやすい音声を読み上げることができました。
「セットアップが難しい」ときにおすすめの音声合成方法
ここまで読んで、Irodori-TTSのセットアップは少し大変そうだな、と感じた方もいるのではないでしょうか。
ターミナル操作やPython環境の構築に慣れていないと、手順どおりに進めるだけでも時間がかかってしまいます。
また、GPUを搭載したPCを持っていないと、1回の音声合成に時間がかかりすぎて、動画ナレーションなどの用途に使うのは難しいですよね。
そんなときにおすすめなのが、インストールもセットアップも不要なAIサイトを使うことなんです。
『音読さん』インストール不要で使えるAIサイト

最新AIでかんたんに音声合成したいときにおすすめなのが、AIサイトの『音読さん』です。
『音読さん』は、ブラウザを開いてテキストを貼るだけで音声を作成できる音声合成サイト。
PC・スマホ・タブレットで、いますぐに音声を無料作成できます。
音声の生成はクラウド(サーバー側)で行われるので、PCにGPUが搭載されていなくても問題ありません。
男声・女声・子どもの声など、最初から複数の声が用意されているので、リファレンス音声やキャプションを用意しなくても、選ぶだけですぐに読み上げられます。
長文もそのまま読み上げ可能です。
35言語以上に対応しているので、日本語以外の読み上げにも使えます。
さらに次世代のAI音声(音読さんBeta)でさらに自然な読み上げも体験できますよ。
テキストを音声として読み上げる方法を探しているときは、無料でかんたんに使える『音読さん』を体験してみませんか?
音読さんとIrodori-TTSの違いを比較
最後に、音読さんとIrodori-TTSの主な違いを比較します。
| 項目 | 音読さん | Irodori-TTS |
|---|---|---|
| 動作方式 | クラウド(ブラウザで操作) | ローカル(自分のPCで処理) |
| セットアップ | 不要 | Python・Git等の環境構築が必要 |
| 対応言語 | 35言語以上 | 日本語のみ |
| 音声の選び方 | 複数の声から選ぶだけ | 音声クローニング・キャプション・絵文字で指定 |
| 1回の生成上限 | 長文に対応 | 約30秒まで |
| 商用利用 | 可能(無料利用時はクレジット表記が必要) | 可能(MITライセンス) |
| 対応デバイス | PC・スマホ・タブレット | PC(GPU推奨) |
| 料金 | 無料プランあり(有料プランで文字数拡大) | 無料(ローカル動作のため) |
比較すると、手軽さとすぐに使える点では音読さん、高性能PCを持っていて音声を細かく作り込みたい場合はIrodori-TTSのように使い分けることができます。
今すぐ音声がほしい方、多言語の読み上げが必要な方、スマホやタブレットで使いたい方には音読さんがおすすめです。
長い文章をそのまま読み上げたい方や、セットアップに時間をかけたくない方、PCにGPUが搭載されていない方にも向いています。
ブラウザを開くだけですぐに高品質な音声を生成できるので、まずは音読さんを無料で使ってみませんか?
Irodori-TTSの特徴・セットアップ・使い方 まとめ
この記事では、日本語に特化したローカル動作のAI音声合成ソフト、Irodori-TTSについて解説しました。
Irodori-TTSは、音声クローニングやキャプションによる声質デザイン、絵文字による感情制御など、音声表現にこだわりたい方にとって魅力的なツールです。
ただし、セットアップ方法や使い方は上級者向けで、セットアップにはPythonやGitの環境構築が必要です。
また、GPUがないPCでは音声の生成に時間がかかります。
「今すぐ手軽に音声合成を使いたい」という方には、ブラウザだけで使える『音読さん』がおすすめです。
かんたんに使える無料AI読み上げサイトで、あなたも高品質な音声を合成してみませんか?
■ AI音声合成ソフト『音読さん』
『音読さん』は初期費用ゼロで利用できるオンラインテキスト読み上げツールです。
- 日本語、英語、中国語、韓国語、スペイン語、フランス語、ドイツ語など約50の言語に対応
- パソコン・スマホどちらからも利用可能
- ビジネス・教育・エンターテインメントなどの用途に対応
- インストール不要でブラウザから即利用可能
- 画像からの読み上げにも対応
利用方法はサイトからテキストを入力するかファイルをアップロードするだけ。 数秒で自然な音声ファイルが生成されます。 5,000文字までの音声合成なら無料で利用できますので、まずは一度お試しください。
Email: ondoku3.com@gmail.com