Irodori-TTS 是什麼？功能、注意事項與使用教學完整介紹

2026年7月28日

Irodori-TTS 是什麼樣的 AI 語音朗讀軟體呢？

您是否也對這款新款 AI 語音朗讀軟體「Irodori-TTS」感到好奇呢？

這篇文章將以簡單易懂的方式說明 Irodori-TTS 的特點、功能、注意事項及使用方法。

此外，針對覺得「設定似乎很困難」的人，我們也會介紹 無需安裝即可立即使用的語音合成方法。

透過這篇文章您可以了解：

Irodori-TTS 是什麼樣的軟體？
Irodori-TTS 的功能與注意事項
Irodori-TTS 的使用方法（從環境建置到語音調整）
環境建置困難時的推薦方法

Irodori-TTS 是什麼？日語 AI 語音合成軟體解析

首先，簡單介紹一下 Irodori-TTS 是一款什麼樣的 AI 語音合成軟體及其特點。

Irodori-TTS 是在本地端運行的 AI 語音合成模型

Irodori-TTS 是一款專門針對日語開發的 AI 語音合成軟體。

開發者為 Aratako 先生，並以開源（MIT 授權）形式免費公開。

其最大的特點是可以在自己的 PC 上完成所有語音合成流程的「本地端運行」。

由於語音生成處理全部在手邊的 PC 上進行，因此文字或生成的語音數據不會被傳送到外部伺服器。

完成首次設定後，即使沒有網路連線也能生成語音，且生成次數沒有限制。

不過，設定過程需要 Python 或 Git 等程式開發相關工具。

此外，為了讓運作更快速，建議使用搭載 GPU（顯示卡）的高性能 PC。

Irodori-TTS 的功能與注意事項

接下來，說明 Irodori-TTS 的功能與注意事項。

Irodori-TTS 的功能

由於 Irodori-TTS 在本地環境運行，因此可以不限次數地生成語音。

即使在沒有網路的環境下，只要完成首次設定，就能自由地製作語音。

軟體提供了多種指示語音生成的方式，透過 Caption 功能，只需輸入文字指示，就能創造出符合自己喜好的音質。

此外，還能透過語音克隆（Voice Cloning）再現手邊有的聲音，或使用繪文字來加入感情表現。

由於採用 MIT 授權，生成的語音也可用於商業用途。

Irodori-TTS 的注意事項

另一方面，Irodori-TTS 在使用前也有一些需要了解的注意事項。

單次可製作的語音長度約為 30 秒

單次生成可朗讀的長度限制在約 30 秒以內。

若想朗讀長篇文章，則需要將文章拆分並分多次生成。

難以精確調整成理想的聲音或說話方式

雖然 Irodori-TTS 的自由度很高，但並未提供預設語音（基準聲音）。

因此，若不指定 Caption 或 Reference 語音，每次生成的性別和年齡都會隨機改變。

若想用相同的聲音朗讀，必須讀取 Reference 語音文件。

此外，目前沒有手動調整抑揚頓挫或語調的功能。

僅支援日語

支援的語言僅限日語，不支援英語等外國語言。

此外，有時會發生漢字讀音錯誤的情況，需要多加注意。

建議使用搭載 GPU 的高階 PC

根據 PC 規格的不同，生成語音可能需要較長時間。

在沒有搭載 GPU 的 PC 上，即使是短句子，生成也可能需要約 1 分鐘左右。

對於 Celeron 或 N100 等入門級 CPU，實際使用起來可能會感到困難。

如何使用 Irodori-TTS（設定流程）

以下簡單說明 Irodori-TTS 的使用方法。

整體設定流程如下：

安裝必要軟體
建立工作資料夾
從 GitHub Clone Irodori-TTS
安裝必要套件
啟動 Irodori-TTS
載入 AI 模型
朗讀文字

1. 安裝 Irodori-TTS 所需的軟體

設定 Irodori-TTS 需要進行前置準備。

首先，安裝這三種工具：

Python 3.10 以上：程式語言
Git：版本控制系統（下載 Irodori-TTS 所需）
uv：Python 套件管理器

要安裝 Python、Git、uv，首先在開始選單點擊右鍵並選擇「終端機」（不需要以管理員身分執行）。

接著會打開終端機（PowerShell）視窗。

在此視窗中輸入以下指令並執行：

winget install --id Git.Git -e
winget install --id=astral-sh.uv -e

這樣就完成了設定 Irodori-TTS 所需工具的安裝。

※Python 將由 uv 管理，因此會在設定時自動安裝。

安裝完成後，請關閉終端機（PowerShell）並重新開啟（以便「套用環境變數」）。

2. 建立工作資料夾

接下來建立工作資料夾。

Irodori-TTS 將會安裝在此處。

在此範例中，我們在 C 槽根目錄下建立了一個名為「irodori-tts」的資料夾。

建立資料夾後，在終端機中移動到該資料夾。

cd C:\irodori-tts

3. 從 GitHub Clone Irodori-TTS

在終端機中輸入以下指令，從 GitHub 複製 Irodori-TTS 的儲存庫（Repository）。

git clone https://github.com/Aratako/Irodori-TTS.git

複製過程幾秒鐘即可完成。

接著輸入以下指令，移動到複製下來的儲存庫資料夾中：

cd Irodori-TTS

4. 安裝必要套件

輸入並執行以下指令，安裝執行 Irodori-TTS 所需的套件：

uv sync

由於需要下載並安裝大量套件，這將會花費一些時間。

Python 本體也會在此步驟安裝。

在下載與安裝期間，請不要關閉終端機視窗並耐心等待。

由於需要下載近 3GB 大小的文件，建議在網路環境良好的地方進行設定。

5. 啟動 Irodori-TTS

套件下載與安裝完成後，設定即告完成。

現在啟動 Irodori-TTS。

輸入以下指令執行，並稍候啟動：

uv run python gradio_app.py --server-name 0.0.0.0 --server-port 7860

當終端機顯示如下訊息時，表示啟動成功：

Running on local URL: http://0.0.0.0:7860

開啟網頁瀏覽器，造訪 http://localhost:7860。

此時會開啟 Irodori-TTS 的介面（WebUI）。

6. 載入 AI 模型

點擊「Load Model」以載入用於朗讀文章的 AI 模型。

第一次使用時，按下此按鈕會開始下載 AI 模型。

當 Model Status（下圖紅框處）顯示完成訊息時，即代表 AI 模型載入完畢。

7. 使用 Irodori-TTS 朗讀文字

在 Irodori-TTS 中，您可以指定朗讀方式（包括情感表現），但讓我們先嘗試在不加任何指示的情況下進行朗讀。

向下滑動會看到文字輸入欄位，請在此輸入想朗讀的文章。

這次我們嘗試朗讀「こんにちは、これはイロドリTTSで作成された音声です。」（你好，這是由 Irodori-TTS 製作的語音）。

（註：若以英文字母書寫「Irodori-TTS」可能無法正確朗讀，因此改用片假名「イロドリTTS」）

按下「Generate」按鈕後，語音生成即會開始。

Irodori-TTS 使用您手邊 PC 的 CPU 或 GPU（顯示卡）來生成語音。

因此，根據 PC 的性能，生成所需的時間會有很大差異。

由於這次是在沒有搭載 GPU 的筆記型電腦上生成，雖然文章很短，但也花了約 1 分鐘左右才生成完畢。

參考：測試環境為 CPU: Ryzen 5 4650U 記憶體: DDR4 32GB Windows 11 Pro 24H2。

生成完成後，會顯示如下的語音波形，即可播放語音。

朗讀「こんにちは、これはイロドリTTSで作成された音声です。」的範例

試聽後若沒問題，點擊下載按鈕（向下箭頭圖示）即可儲存語音文件。

語音文件將以 WAV 格式儲存。

這樣就完成了使用 Irodori-TTS 進行語音合成。

調整 Irodori-TTS 語音的方法

在 Irodori-TTS 中，可以透過多種方式調整性別、情感等表現。

使用繪文字指定情感表現

點擊文字輸入欄位下方的「Emoji Palette」即可選擇繪文字。

每個繪文字都分配了不同的情感表現：

😊 開心地、喜悅地
😭 嗚咽、哭聲
😰 慌張、動搖
⏩ 快語速
📖 旁白、獨白

只需在文字輸入欄位中加入繪文字，就能以指定的感情表現進行朗讀。

加入「😊」朗讀的範例

加入「📖」朗讀的範例

不過，僅指定繪文字無法具體指定性別或年齡。

讀取 Reference 語音以相同聲音朗讀

在 Irodori-TTS 中，可以讀取 Reference 語音文件，參考該聲音進行朗讀。

請從標示為「將音訊拖曳至此 - 或 - 點擊上傳」的部分讀取 Reference 語音。

這不僅能以相同的聲音朗讀，與不指定任何內容時相比，音質也會更清晰。

也可透過 Caption 功能直接調整朗讀風格

在 Irodori-TTS 中，也可以直接透過文字指定要以什麼樣的聲音朗讀。

若要使用 Caption 功能，必須啟動「VoiceDesign 版」，在終端機啟動 Irodori-TTS 的指令會有所不同：

uv run python gradio_app_voicedesign.py --server-name 0.0.0.0 --server-port 7861

執行此指令後，會啟動 VoiceDesign 版的控制畫面。

由於 VoiceDesign 版使用與標準版不同的 AI 模型，第一次使用時需要點擊「Load Model」下載該模型。

AI 模型的大小約為 2GB，建議在網路良好的環境下下載。

VoiceDesign 版的控制畫面中有一個「Caption / Style Prompt (optional)」文字框。

在此輸入您希望如何朗讀的文字描述：

請用沉穩的女性聲音，帶有親近感且溫柔自然地朗讀。
請用充滿活力的男性聲音，開朗且口齒清晰地說話。
請用低沉的男性聲音，像新聞主播一樣平淡地讀。

透過這種方式，您可以指定語音細節。

例如指定「請用沉穩的女性聲音，帶有親近感且溫柔自然地朗讀。」後，語音效果如下：

指定 Caption 的範例

這也能產生音質清晰且易於聽取的語音。

但 Caption 功能也有其注意事項：

與其他朗讀方式相比，Caption 功能生成語音的時間更長。

在本次筆記型電腦的測試中，生成這段短句約花費了 5 分鐘。

若要頻繁使用 Caption 功能，建議配備搭載 GPU 的高階 PC。

朗讀英語文本會發生什麼事？

Irodori-TTS 是一款僅支援日語的朗讀軟體。

那麼，如果輸入英語文本會發生什麼事呢？

我們試著輸入一個簡單的例句：

朗讀「Hello, this is a voice recording created using Irodori-TTS.」的範例

結果顯示，「Hello」變成了片假名式發音（Haroo），「recording」等部分發音模糊不清，無法正確朗讀。

若想朗讀英語文本，建議使用支援外國語的 AI 朗讀服務。

「設定太難」時推薦的語音合成方法

讀到這裡，您是否覺得 Irodori-TTS 的設定似乎有點麻煩呢？

若不習慣終端機操作或 Python 環境建置，光是照著步驟走也可能很花時間。

此外，若沒有搭載 GPU 的 PC，每次語音合成耗時太長，也很難應用於影片旁白等用途。

這時，推薦您使用無需安裝、無需設定的 AI 語音服務。

『Ondoku』免安裝即可使用的 AI 語音

若想利用最新的 AI 輕鬆進行語音合成，推薦使用 AI 語音合成服務『Ondoku』。

『Ondoku』是一款只需開啟瀏覽器並貼上文字即可製作語音的 AI 語音合成服務。

您可以在 PC、手機或平板電腦上立即免費製作語音。

由於語音生成是在雲端（伺服器端）進行，即使 PC 沒有搭載 GPU 也完全沒有問題。

系統預先準備了多種聲音，如男聲、女聲、童聲等，無需準備 Reference 語音或 Caption，只需挑選即可立即朗讀。

長篇文章也能直接進行朗讀。

而且 Ondoku 也支援英語！

它支援法語、西班牙語、韓語、中文等多國語言，可用於日語以外的朗讀需求。

此外，您還能體驗次世代 AI 語音（OndokuBeta），獲得更自然的朗讀效果。

如果您正在尋找將文字轉語音的方法，不妨試試免費且簡單易用的 『Ondoku』 嗎？

立即試用 Ondoku

Ondoku 與 Irodori-TTS 的差異比較

最後，比較 Ondoku 與 Irodori-TTS 的主要差異。

👆 可橫向捲動

項目	Ondoku	Irodori-TTS
運作方式	雲端（網頁瀏覽器操作）	本地端（在自己電腦處理）
設定	不需要	需要建置 Python、Git 等環境
支援語言	35 種語言以上	僅限日語
聲音選擇方式	從多種聲音中直接挑選	語音克隆、Caption、繪文字指定
單次生成上限	支援長文	約 30 秒以內
商業利用	可以（免費使用需註明出處）	可以（MIT 授權）
支援設備	PC、手機、平板	PC（建議搭載 GPU）
費用	有免費方案（付費方案可增加字數）	免費（因為是本地端運作）