Irodori-TTS是什么？功能、注意点及使用方法详解

2026年7月28日

Irodori-TTS 是一款什么样的 AI 朗读软件？

相信很多人都对新款 AI 朗读软件“Irodori-TTS”感到好奇吧。

在这篇文章中，我们将为您简单明了地讲解 Irodori-TTS 的特点、功能、注意事项以及使用方法。

此外，针对觉得“环境搭建似乎很难”的朋友，我们还会介绍无需安装、即刻就能使用的语音合成方法。

通过本文您可以了解到

Irodori-TTS 是一款什么样的软件？
Irodori-TTS 的功能与注意事项
Irodori-TTS 的使用方法（从环境搭建到语音调节）
环境搭建困难时的推荐方法

什么是 Irodori-TTS？日语 AI 语音合成软件详解

首先，我们来简单介绍一下 Irodori-TTS 是一款什么样的 AI 语音合成软件及其特点。

Irodori-TTS 是在本地运行的 AI 语音合成模型

Irodori-TTS 是一款专为日语优化的 AI 语音合成软件。

开发者是 Aratako，该软件作为开源软件（MIT 许可证）免费公开。

其最大的特点是支持“本地运行”，即仅在您自己的电脑上即可完成语音合成。

由于语音的生成处理全部在本地电脑上进行，文本及生成的语音数据不会发送到外部服务器。

完成初始设置后，无需连接互联网即可生成语音，且生成次数没有限制。

不过，环境搭建需要 Python 和 Git 等编程工具。

此外，为了提高运行速度，建议使用配备 GPU（显卡）的高性能电脑。

Irodori-TTS 能做到的事与不能做到的事

接下来，我们将讲解 Irodori-TTS 的功能及其局限性。

Irodori-TTS 能做到的事

由于 Irodori-TTS 在本地运行，因此可以无限次生成语音。

即使在没有网络连接的环境下，只要完成初始设置，就可以自由制作语音。

软件提供了多种指示生成语音的方式，通过 Caption 功能，仅需文本指令即可创造出符合自己喜好的音质。

此外，还可以通过语音克隆还原已有的语音，或使用 Emoji 添加情感表现。

基于 MIT 许可证，生成的语音也可用于商用。

Irodori-TTS 的注意事项

另一方面，在使用 Irodori-TTS 之前，也需要了解一些注意事项。

单次生成的语音长度上限约为 30 秒

单次生成所能朗读的内容上限约为 30 秒。如果要朗读长篇文章，需要将文章分割后多次生成。

难以完全按理想的声音或方式说话

虽然 Irodori-TTS 自由度很高，但它没有提供默认的声音（基础声音）。

因此，如果不指定 Caption 或参考音频，每次生成的性别和年龄都会随机变化。

如果想用同一种声音朗读，则需要加载参考音频。此外，它没有手动调整抑扬顿挫或语调的功能。

仅支持日语

支持的语言仅限日语，不支持英语等外语。此外，有时会出现汉字读错的情况，需要注意。

如何使用 Irodori-TTS（环境搭建流程）

下面简要介绍 Irodori-TTS 的使用方法。

环境搭建的整体流程如下：

安装必要的软件
创建工作文件夹
从 GitHub 克隆 Irodori-TTS
安装必要的包
启动 Irodori-TTS
加载 AI 模型
朗读文本

1. 安装 Irodori-TTS 必要的软件

搭建 Irodori-TTS 需要进行准备工作。

首先，安装以下三种软件：

Python 3.10 或更高版本：编程语言
Git：版本管理系统（下载 Irodori-TTS 所需）
uv：Python 包管理器

要安装 Python、Git 和 uv，请先右键点击“开始”菜单，然后点击“终端”（无需以管理员身份运行）。

随后将打开终端 (PowerShell) 界面。

在此界面中输入并执行以下命令：

winget install --id Git.Git -e
winget install --id=astral-sh.uv -e

这样，搭建 Irodori-TTS 所需的工具就安装完成了。

※Python 由 uv 管理，因此会在搭建时自动安装。

安装完成后，请关闭终端 (PowerShell) 并重新打开（以便“配置路径”）。

2. 创建工作文件夹

接下来，创建一个工作文件夹。Irodori-TTS 将安装在这里。

本次我们在 C 盘根目录下创建了一个名为“irodori-tts”的文件夹。

创建文件夹后，在终端中移动到该文件夹。

cd C:\irodori-tts

3. 从 GitHub 克隆 Irodori-TTS

在终端输入以下命令，从 GitHub 克隆 Irodori-TTS 的仓库。

git clone https://github.com/Aratako/Irodori-TTS.git

仓库克隆过程只需几秒钟即可完成。

输入以下命令进入克隆后的仓库文件夹：

cd Irodori-TTS

4. 安装必要的包

输入并执行以下命令，安装运行 Irodori-TTS 所需的包。

uv sync

由于需要下载并安装大量的包，这会花费一些时间。

Python 本体也会在此步骤中安装。

下载和安装过程中，请不要关闭终端窗口，静候完成。

因为需要下载接近 3GB 的文件，建议在网络环境良好的地方进行设置。

5. 启动 Irodori-TTS

当包的下载和安装完成后，设置即告完成。

启动 Irodori-TTS。输入以下命令并执行，稍等片刻待其启动。

uv run python gradio_app.py --server-name 0.0.0.0 --server-port 7860

当终端显示如下内容时，表示启动成功：

Running on local URL: http://0.0.0.0:7860

打开 Web 浏览器，访问 http://localhost:7860 。

此时，Irodori-TTS 的界面 (WebUI) 将会开启。

6. 加载 AI 模型

点击“Load Model”以加载用于朗读文章的 AI 模型。

首次使用时，点击此按钮将开始下载 AI 模型。

当 Model Status（下图中红框标识处）显示完成消息时，AI 模型加载完毕。

7. 使用 Irodori-TTS 朗读文本

在 Irodori-TTS 中，您可以指定情感表现等各种朗读方式，但首先我们作为示例，尝试在不带指令的情况下进行朗读。

向下滚动可以看到文本输入栏，在此输入您想要朗读的文章。

这次我们尝试朗读“こんにちは、これはイロドリTTSで作成された音声です。”

（如果输入字母“Irodori-TTS”，有时无法正确朗读，因此我们用片假名书写为“イロドリTTS”）

点击“Generate”按钮开始生成语音。

Irodori-TTS 利用本地电脑的 CPU 或 GPU（显卡）生成语音。

因此，生成所需的时间会根据电脑性能产生巨大差异。

由于本次是在未搭载 GPU 的笔记本电脑上生成的，虽然句子很短，但生成大约花费了 1 分钟。

参考：测试生成环境为 CPU: Ryzen 5 4650U 内存: DDR4 32GB Windows 11 Pro 24H2。

生成完成后，会显示语音波形，您可以点击播放语音。

朗读“こんにちは、これはイロドリTTSで作成された音声です。”的示例

试听后如果没有问题，点击下载按钮（向下箭头图标）即可保存语音文件。

语音文件将以 WAV 格式保存。

至此，您已成功使用 Irodori-TTS 合成了语音。

调节 Irodori-TTS 语音的方法

在 Irodori-TTS 中，您可以通过多种方式调节性别和情感等表现。

通过 Emoji 指定情感表现

点击文本输入栏下方的“Emoji Palette”，可以选择表情符号。

每个表情符号都分配了相应的情感表现：

😊 快乐地、开心地
😭 呜咽、哭泣声
😰 慌张、动摇
⏩ 快口
📖 旁白、独白

只需在文本输入栏中加入 Emoji，即可按照指定的情感表现进行朗读。

朗读“😊 こんにちは、これはイロドリTTSで作成された音声です。”的示例

朗读“📖 こんにちは、これはイロドリTTSで作成された音声です。”的示例

不过，仅指定 Emoji 无法具体指定性别或年龄。

加载参考音频以相同声音朗读

在 Irodori-TTS 中，您可以加载参考音频文件，并参考该声音进行朗读。

参考音频可以从写着“将语音拖放到此处 - 或 - 点击上传”的区域加载。

这不仅能以相同的声音朗读，相比于不作任何指定，音质也会更加清晰。

通过 Caption 功能直接调整朗读风格

在 Irodori-TTS 中，您还可以通过文本直接指定朗读的声音特点。

要使用 Caption 功能，需要启动“VoiceDesign 版”，在终端启动 Irodori-TTS 的命令会有所不同：

uv run python gradio_app_voicedesign.py --server-name 0.0.0.0 --server-port 7861

执行此命令后，将启动 VoiceDesign 版的操作界面。

由于 VoiceDesign 版使用的 AI 模型与标准版不同，首次使用时需要点击“Load Model”，下载与标准版不同的模型。

AI 模型大小约为 2GB，建议在网络环境良好的地方下载。

VoiceDesign 版的操作界面中有“Caption / Style Prompt (optional)”文本框。

在此输入您希望以什么样的声音朗读的描述：

请用沉稳的女性声音，以亲近且自然柔和的方式朗读。
请用充满活力的男性声音，清晰响亮地说话。
请用低沉的男性声音，像新闻播音员一样平稳地阅读。

通过这种方式，您可以指定朗读的声音。

例如，指定“请用沉稳的女性声音，以亲近且自然柔和的方式朗读。”后，生成的语音如下：

指定“请用沉稳的女性声音，以亲近且自然柔和的方式朗读。”的示例

同样生成了音质清晰、易于听取的语音。

但 Caption 功能也有注意事项：

相比其他朗读方式，Caption 功能生成语音所需的时间更长。

本次在笔记本电脑上生成时，这段简短文字的生成大约花费了 5 分钟。

使用 Caption 功能时，推荐使用配备 GPU 的高性能电脑。

朗读英语文本会怎么样？

Irodori-TTS 是仅支持日语的朗读软件。

那么，尝试朗读英语文本会发生什么呢？我们尝试输入一个简单的例句：

朗读“Hello, this is a voice recording created using Irodori-TTS.”的示例

结果如上所示，Hello 变成了片假名发音的“哈啰”，recording 的部分变得难以辨认，无法正确朗读。

如果您想朗读英语文本，建议使用支持外语的 AI 朗读服务。

“环境搭建太难”时的推荐语音合成方法

读到这里，是否有人觉得 Irodori-TTS 的环境搭建有点麻烦呢？

如果您不习惯终端操作或 Python 环境的搭建，仅仅是按照步骤操作也会非常耗时。

此外，如果您没有配备 GPU 的电脑，单次语音合成时间过长，也很难将其用于视频配音等用途。

在这种情况下，推荐使用无需安装也无需环境搭建的 AI 语音。

『Ondoku』无需安装即可使用的 AI 语音

当您想利用最新的 AI 轻松合成语音时，推荐使用 AI 语音合成服务『Ondoku』。

『Ondoku』是一款只需打开浏览器并粘贴文本即可创建语音的 AI 语音合成服务。

无论是电脑、智能手机还是平板电脑，现在就可以免费制作语音。

语音生成在云端（服务器端）进行，因此即使电脑没有配备 GPU 也没有问题。

由于预先准备了男声、女声、童声等多种声音，您无需准备参考音频或 Caption，只需选择即可立即朗读。

长篇文章也可以直接朗读。

而且 Ondoku 还支持英语！

它支持法语、西班牙语、韩语、中文等多种语言，因此也可用于日语以外的朗读。

此外，您还可以通过新一代 AI 语音 (OndokuBeta) 体验更加自然的朗读效果。

如果您正在寻找将文本转化为语音的方法，不妨体验一下免费且好用的 『Ondoku』 吧？

立即使用 Ondoku

Ondoku 与 Irodori-TTS 的对比

最后，对比一下 Ondoku 和 Irodori-TTS 的主要区别。

👆 可以横向滚动

项目	Ondoku	Irodori-TTS
运行方式	云端（浏览器操作）	本地（在自己的电脑处理）
环境搭建	无需	需要搭建 Python、Git 等环境
支持语言	35 种以上语言	仅限日语
声音选择方式	从多种声音中直接选择	通过语音克隆、Caption、Emoji 指定
单次生成上限	支持长文本	约 30 秒
商用许可	可以（免费使用时需注明署名）	可以（MIT 许可证）
支持设备	电脑、手机、平板	电脑（推荐 GPU）
费用	有免费计划（付费计划可扩大字数）	免费（因在本地运行）