Что такое Irodori-TTS? Возможности, нюансы и инструкция по использованию

28 июля 2026 г.

Что это за программа для озвучки текста ИИ под названием Irodori-TTS?

Многие из вас, вероятно, интересуются новой программой для озвучки текста ИИ под названием «Irodori-TTS».

В этой статье мы в доступной форме разберем характеристики, возможности, предостережения и способы использования Irodori-TTS.

Кроме того, для тех, кому настройка кажется сложной, мы представим метод синтеза речи, который можно использовать прямо сейчас без установки.

О чем вы узнаете из этой статьи:

Что это за программа — Irodori-TTS?
Возможности и важные моменты при использовании Irodori-TTS
Как использовать Irodori-TTS (от настройки до регулировки голоса)
Рекомендуемый метод, если настройка окружения кажется сложной

Что такое Irodori-TTS? Обзор японской программы синтеза речи на базе ИИ

Для начала кратко разберем основные характеристики Irodori-TTS и то, что это за программа.

Irodori-TTS — это модель синтеза речи ИИ, работающая локально

Irodori-TTS — это программа для синтеза речи ИИ, специализирующаяся на японском языке.

Разработчиком является Aratako, а сама программа опубликована бесплатно как ПО с открытым исходным кодом (лицензия MIT).

Главная особенность заключается в возможности «локальной работы», когда весь процесс синтеза речи происходит только на вашем личном ПК.

Поскольку обработка генерации голоса полностью выполняется на локальном компьютере, текст и сгенерированные аудиоданные не отправляются на внешние серверы.

После первоначальной настройки вы можете генерировать голос без подключения к Интернету, и количество генераций не ограничено.

Однако для настройки требуются инструменты программирования, такие как Python и Git.

Кроме того, для быстрой работы рекомендуется использовать высокопроизводительный ПК с GPU (видеокартой).

Что можно и чего нельзя делать в Irodori-TTS

Далее разберем возможности и ограничения Irodori-TTS.

Что можно делать в Irodori-TTS

Поскольку Irodori-TTS работает локально, вы можете генерировать голос неограниченное количество раз.

Даже в условиях отсутствия интернета, после завершения первой настройки, вы можете свободно создавать аудио.

Существует несколько способов задать параметры голоса. Используя функцию Caption, вы можете создать желаемый тембр голоса, просто вводя текстовые описания.

Кроме того, возможно воссоздать имеющийся голос с помощью клонирования голоса или добавить эмоциональную окраску с помощью эмодзи.

Благодаря лицензии MIT сгенерированный голос можно использовать в коммерческих целях.

Предостережения при использовании Irodori-TTS

С другой стороны, у Irodori-TTS есть несколько моментов, о которых стоит знать перед использованием.

Длительность одного аудио ограничена примерно 30 секундами

За один раз можно озвучить текст длительностью около 30 секунд.

Если вы хотите озвучить длинный текст, его придется разбивать на части и генерировать несколько раз.

Сложно добиться именно того голоса или манеры речи, которую вы задумали

В Irodori-TTS высокая степень свободы, но при этом нет предустановленных голосов (базовых голосов) по умолчанию.

Поэтому, если не указать Caption или референсный голос, пол и возраст будут меняться случайным образом при каждой генерации.

Если вы хотите озвучивать текст одним и тем же голосом, необходимо загружать референсный аудиофайл.

Также отсутствует функция ручной настройки интонации и акцентов.

Поддерживается только японский язык

Поддерживаемый язык — только японский; иностранные языки, такие как английский, не поддерживаются.

Кроме того, следует быть внимательными, так как могут возникать ошибки при чтении кандзи.

Как начать работу с Irodori-TTS (процесс настройки)

Ниже приведено краткое руководство по использованию Irodori-TTS.

Общий процесс настройки выглядит следующим образом:

Установка необходимого ПО
Создание рабочей папки
Клонирование Irodori-TTS с GitHub
Установка необходимых пакетов
Запуск Irodori-TTS
Загрузка модели ИИ
Озвучивание текста

1. Установка необходимого ПО для Irodori-TTS

Для настройки Irodori-TTS требуется предварительная подготовка.

Сначала установите эти три компонента:

Python 3.10 или выше: язык программирования
Git: система управления версиями (нужна для скачивания Irodori-TTS)
uv: менеджер пакетов для Python

Чтобы установить Python, Git и uv, щелкните правой кнопкой мыши по меню «Пуск» и выберите «Терминал» (запуск от имени администратора не обязателен).

Откроется окно терминала (PowerShell).

В этом окне введите и выполните следующие команды:

winget install --id Git.Git -e
winget install --id=astral-sh.uv -e

Теперь всё необходимое для настройки Irodori-TTS установлено.

※ Python управляется через uv, поэтому он будет установлен автоматически во время настройки.

После установки закройте терминал (PowerShell) и откройте его снова (чтобы обновились пути «Path»).

2. Создание рабочей папки

Далее создайте рабочую папку.

Сюда будет установлена Irodori-TTS.

В данном примере мы создали папку с именем «irodori-tts» прямо в корне диска C.

После создания папки перейдите в неё через терминал.

cd C:\irodori-tts

3. Клонирование Irodori-TTS с GitHub

Введите в терминале следующую команду, чтобы клонировать репозиторий Irodori-TTS с GitHub.

git clone https://github.com/Aratako/Irodori-TTS.git

Клонирование репозитория займет всего несколько секунд.

Введите следующую команду, чтобы перейти в папку клонированного репозитория.

cd Irodori-TTS

4. Установка необходимых пакетов

Введите и выполните следующую команду для установки всех пакетов, необходимых для работы Irodori-TTS.

uv sync

Это займет некоторое время, так как будет скачано и установлено большое количество пакетов.

Сам Python также будет установлен на этом этапе.

Пока идет загрузка и установка, не закрывайте окно терминала и дождитесь окончания.

Будет скачано около 3 ГБ данных, поэтому рекомендуется проводить настройку при стабильном интернет-соединении.

5. Запуск Irodori-TTS

После завершения загрузки и установки пакетов настройка завершена.

Запустите Irodori-TTS.

Введите и выполните следующую команду и немного подождите запуска.

uv run python gradio_app.py --server-name 0.0.0.0 --server-port 7860

Когда в терминале появится следующее сообщение, запуск завершен.

Running on local URL: http://0.0.0.0:7860

Откройте веб-браузер и перейдите по адресу http://localhost:7860.

Откроется интерфейс Irodori-TTS (WebUI).

6. Загрузка модели ИИ

Чтобы загрузить модель ИИ, используемую для озвучки, нажмите «Load Model».

При первом использовании нажатие этой кнопки инициирует загрузку модели ИИ.

Когда в поле Model Status (выделено красным на изображении ниже) появится сообщение о завершении, загрузка модели ИИ закончена.

7. Озвучивание текста в Irodori-TTS

В Irodori-TTS можно задавать интонации и стиль чтения, но для начала давайте попробуем озвучить текст без дополнительных настроек.

Прокрутите вниз, найдите поле для ввода текста и введите предложение, которое хотите озвучить.

В этот раз мы озвучим: 「こんにちは、これはイロドリTTSで作成された音声です。」 (Здравствуйте, это голос, созданный в Irodori-TTS).

(При написании «Irodori-TTS» латиницей озвучка была некорректной, поэтому мы использовали катакану: 「イロドリTTS」).

Нажмите кнопку «Generate», чтобы начать генерацию аудио.

Irodori-TTS использует процессор (CPU) или видеокарту (GPU) вашего ПК для генерации голоса.

Поэтому время генерации сильно зависит от мощности вашего ПК.

В данном случае мы использовали ноутбук без выделенного GPU, поэтому генерация даже такого короткого текста заняла около минуты.

Справочно: Тестовая генерация проводилась в среде CPU: Ryzen 5 4650U, RAM: DDR4 32GB, Windows 11 Pro 24H2.

После завершения генерации появится волновой график аудио, и вы сможете прослушать запись.

Пример озвучки фразы 「こんにちは、これはイロドリTTSで作成された音声です。」

Если результат вас устраивает, нажмите кнопку загрузки (иконка стрелки вниз), чтобы сохранить аудиофайл.

Файл будет сохранен в формате WAV.

Теперь вы успешно синтезировали голос с помощью Irodori-TTS.

Как настраивать голос в Irodori-TTS

В Irodori-TTS можно регулировать пол, эмоции и другие параметры различными способами.

Задание эмоций с помощью эмодзи

Нажав на «Emoji Palette» под полем ввода текста, вы можете выбрать эмодзи.

Каждому эмодзи соответствует определенное эмоциональное выражение:

😊 Радостно, весело
😭 Рыдания, плач
😰 Второпях, взволнованно
⏩ Скороговорка (быстрая речь)
📖 Нарратив, монолог

Просто вставив эмодзи в поле ввода текста, вы получите озвучку с заданными эмоциями.

Пример озвучки с 😊: 「😊 こんにちは、これはイロドリTTSで作成された音声です。」

Пример озвучки с 📖: 「📖 こんにちは、これはイロドリTTSで作成された音声です。」

Однако при использовании только эмодзи нельзя точно указать пол или возраст.

Озвучка одним и тем же голосом с помощью референсного аудио

В Irodori-TTS можно загрузить эталонный аудиофайл, и программа будет озвучивать текст, имитируя этот голос.

Загрузите аудио в область с надписью 「Drop Audio Here - or - Click to Upload」 (Перетащите аудио сюда или нажмите для загрузки).

Это позволяет не только сохранять консистентность голоса, но и добиваться более чистого звучания по сравнению с генерацией без указания параметров.

Прямая настройка стиля озвучки через функцию Caption

В Irodori-TTS можно напрямую текстом описать, каким именно голосом нужно прочитать текст.

Для использования функции Caption необходимо запустить версию «VoiceDesign», изменив команду запуска в терминале.

uv run python gradio_app_voicedesign.py --server-name 0.0.0.0 --server-port 7861

После выполнения этой команды откроется интерфейс версии VoiceDesign.

Так как версия VoiceDesign использует другую модель ИИ, при первом использовании нужно нажать «Load Model» и скачать модель отдельно от стандартной версии.

Размер модели ИИ составляет около 2 ГБ, поэтому рекомендуется скачивать её при хорошем интернет-соединении.

В интерфейсе VoiceDesign появится текстовое поле «Caption / Style Prompt (optional)».

Сюда нужно вписать описание того, какой голос вы хотите услышать.

Спокойный женский голос, читайте мягко и естественно, создавая ощущение близости.
Энергичный мужской голос, говорите бодро и четко.
Низкий мужской голос, читайте беспристрастно, как диктор новостей.

Таким образом вы можете задать характеристики голоса.

Например, при указании 「落ち着いた女性の声で、近い距離感でやわらかく自然に読み上げてください。」 (Спокойным женским голосом, мягко и естественно...) получился такой результат:

Пример озвучки с использованием Caption

В этом случае также удалось получить чистую и приятную для слуха речь.

Однако у функции Caption есть важный нюанс.

Использование Caption занимает значительно больше времени на генерацию по сравнению с другими способами.

В нашем тесте на ноутбуке генерация этого короткого предложения заняла около 5 минут.

Для использования функции Caption настоятельно рекомендуется мощный ПК с GPU.

Что будет, если попробовать озвучить английский текст?

Irodori-TTS — это программа, предназначенная только для японского языка.

Что же произойдет, если ввести английский текст?

Попробуем ввести простое предложение.

Пример озвучки: 「Hello, this is a voice recording created using Irodori-TTS.」

Как видите, слово Hello прозвучало как «Харо» (японское произношение катаканой), а часть recording стала неразборчивой. Программа не смогла корректно озвучить английский текст.

Если вам нужно озвучивать английский текст, рекомендуем использовать сервисы озвучки ИИ, поддерживающие иностранные языки.

Параметр	Ondoku	Irodori-TTS
Тип работы	Облачный (через браузер)	Локальный (на вашем ПК)
Настройка	Не требуется	Требуется настройка среды (Python, Git и т.д.)
Поддерживаемые языки	Более 35 языков	Только японский
Выбор голоса	Выбор из готовых вариантов	Клонирование, Caption, эмодзи
Лимит одной генерации	Поддержка длинных текстов	До 30 секунд
Коммерческое использование	Возможно (в бесплатном плане требуется указание авторства)	Возможно (лицензия MIT)
Устройства	ПК, смартфон, планшет	ПК (рекомендуется GPU)
Стоимость	Есть бесплатный план (платные расширяют лимит символов)	Бесплатно (так как работает локально)

Итоги: Характеристики, настройка и использование Irodori-TTS

В этой статье мы рассмотрели Irodori-TTS — программу синтеза речи ИИ, работающую локально и специализирующуюся на японском языке.

Irodori-TTS — это привлекательный инструмент для тех, кто хочет тонко настраивать звучание через клонирование голоса, дизайн тембра с помощью Caption или управление эмоциями через эмодзи.

Однако способ настройки и использования ориентирован на продвинутых пользователей: требуется установка Python и Git.

Кроме того, на компьютерах без GPU генерация голоса занимает значительное время.

Для тех, кто хочет «быстро и легко использовать синтез речи», мы рекомендуем 『Ondoku』, доступный прямо в браузере.

Попробуйте создать высококачественное аудио с помощью простого в использовании бесплатного синтеза речи ИИ!

■ Программное обеспечение для синтеза речи с искусственным интеллектом «Ondoku».

«Ондоку» — это онлайн-инструмент для преобразования текста в речь, который можно использовать без каких-либо первоначальных затрат.

Поддерживает около 50 языков, включая японский, английский, китайский, корейский, испанский, французский и немецкий.
Доступно как с ПК, так и со смартфона
Подходит для бизнеса, образования, развлечений и т. д.
Установка не требуется, можно использовать сразу из браузера.
Также поддерживает чтение изображений

Чтобы им воспользоваться, просто введите текст или загрузите файл с сайта. Создавайте естественные звуковые файлы за считанные секунды. Вы можете бесплатно использовать синтез речи длиной до 5000 символов, поэтому сначала попробуйте.

Программное обеспечение для преобразования текста в речь «Ondoku» может считывать 5000 символов каждый месяц с помощью голоса AI бесплатно. Вы можете легко скачать MP3, а также возможно коммерческое использование. Если вы зарегистрируетесь бесплатно, вы сможете бесплатно конвертировать до 5000 символов в месяц из текста в речь. Попробуйте Ондоку прямо сейчас.

HP: ondoku3.com
Email: ondoku3.com@gmail.com

←Предыдущая статья |

Смежная статья

Чтение текста вслух, часто задаваемые вопросы (FAQ) Ondoku

Как отрегулировать интервалы и паузы при чтении в Ondoku 【2 способа】

Как указать авторство Ondoku. Примеры и важные моменты.

【Бесплатно】5 бесплатных программ для чтения текста вслух на Mac: обзор

Способы оплаты Ondoku (кредитная карта, дебетовая карта, банковский перевод) и квитанции

Ondoku

Программа для чтения текста Ondoku. Это сервис для преобразования текста в речь, который не требует установки и доступный всем для бесплатного использования. Если вы зарегистрируетесь бесплатно, вы сможете получать до 5000 символов бесплатно каждый месяц. Зарегестрируйтесь сейчас бесплатно

Меню

Новые статьи