Що таке Irodori-TTS? Можливості, нюанси та інструкція з використання

28 липня 2026 р.

Що це за програма для AI-озвучування тексту Irodori-TTS?

Мабуть, багато хто з вас цікавиться новою програмою для AI-озвучування тексту під назвою «Irodori-TTS».

У цій статті ми у доступній формі пояснимо особливості, можливості, застереження та спосіб використання Irodori-TTS.

Крім того, для тих, хто вважає, що «налаштування виглядає занадто складним», ми також представимо метод синтезу мовлення, який можна використовувати прямо зараз без необхідності інсталяції.

Про що ви дізнаєтеся з цієї статті:

Що це за програма — Irodori-TTS?
Можливості та застереження при використанні Irodori-TTS
Як використовувати Irodori-TTS (від налаштування до регулювання звуку)
Рекомендований метод, якщо створення середовища здається складним

Що таке Irodori-TTS? Огляд японської програми для AI-синтезу мовлення

Для початку коротко розберемося, що це за програма Irodori-TTS та які вона має особливості.

Irodori-TTS — це локальна модель AI-синтезу мовлення

Irodori-TTS — це програма для AI-синтезу мовлення, спеціалізована на японській мові.

Розробником є Aratako, а сама програма опублікована безкоштовно як відкрите програмне забезпечення (ліцензія MIT).

Найголовнішою особливістю є можливість «локальної роботи», коли синтез мовлення повністю виконується лише на вашому власному ПК.

Оскільки весь процес генерації голосу відбувається на вашому комп'ютері, текст та згенеровані аудіодані не надсилаються на зовнішні сервери.

Після першого налаштування ви можете генерувати голос без підключення до інтернету, і кількість генерацій не обмежена.

Однак для налаштування потрібні інструменти програмування, такі як Python та Git.

Також для швидкої роботи рекомендується використовувати високопродуктивний ПК з GPU (відеокартою).

Що можна і чого не можна робити з Irodori-TTS

Далі розглянемо можливості та обмеження Irodori-TTS.

Що можна робити з Irodori-TTS

Оскільки Irodori-TTS працює локально, ви можете генерувати голос необмежену кількість разів.

Навіть у середовищі без інтернету, після завершення початкового налаштування, ви можете вільно створювати аудіо.

Існує кілька способів вказати, який саме голос потрібно створити. За допомогою функції кепшіонінгу (опису) ви можете створювати бажану якість голосу лише за допомогою текстових інструкцій.

Також можливо відтворити наявний голос за допомогою клонування голосу або додати емоційне забарвлення за допомогою емодзі.

Завдяки ліцензії MIT допускається комерційне використання згенерованого аудіо.

Застереження щодо Irodori-TTS

З іншого боку, є певні моменти, про які варто знати перед використанням Irodori-TTS.

За один раз можна створити аудіо тривалістю до 30 секунд

Максимальна тривалість озвучування за одну генерацію становить близько 30 секунд.

Якщо ви хочете озвучити довгий текст, вам доведеться розділяти його на частини та генерувати кілька разів.

Важко отримати саме той голос чи манеру мовлення, які ви задумали

Irodori-TTS пропонує велику свободу, але в ній немає попередньо встановлених стандартних голосів (базових голосів).

Тому, якщо не вказати опис або референсне аудіо, стать та вік голосу будуть змінюватися випадковим чином при кожній генерації.

Якщо ви хочете озвучувати текст одним і тим самим голосом, необхідно завантажувати референсне аудіо.

Також у програмі немає функцій для ручного налаштування інтонації та наголосів.

Підтримується лише японська мова

Програма підтримує тільки японську мову і не працює з іноземними мовами, такими як англійська.

Крім того, варто бути уважними, оскільки іноді можуть виникати помилки у читанні ієрогліфів (кандзі).

Як використовувати Irodori-TTS (процес налаштування)

Далі ми коротко пояснимо, як користуватися Irodori-TTS.

Загальний процес налаштування виглядає наступним чином:

Встановлення необхідного ПЗ
Створення робочої папки
Клонування Irodori-TTS з GitHub
Встановлення необхідних пакетів
Запуск Irodori-TTS
Завантаження AI-моделі
Озвучування тексту

1. Встановлення необхідного ПЗ для Irodori-TTS

Для налаштування Irodori-TTS потрібна попередня підготовка.

Спершу встановіть ці три компоненти:

Python 3.10 або вище: мова програмування
Git: система контролю версій (потрібна для завантаження Irodori-TTS)
uv: менеджер пакетів для Python

Щоб встановити Python, Git та uv, спершу натисніть правою кнопкою миші на меню «Пуск» і виберіть «Термінал» (запускати від імені адміністратора не обов'язково).

Відкриється вікно терміналу (PowerShell).

У цьому вікні введіть та виконайте наступні команди:

winget install --id Git.Git -e
winget install --id=astral-sh.uv -e

Тепер у вас встановлено все необхідне для налаштування Irodori-TTS.

※ Python керується через uv, тому він буде автоматично встановлений під час налаштування.

Після встановлення закрийте термінал (PowerShell) і відкрийте його знову (щоб оновити шляхи PATH).

2. Створення робочої папки

Далі створіть робочу папку.

Саме сюди буде встановлено Irodori-TTS.

У цьому прикладі ми створили папку з назвою «irodori-tts» безпосередньо на диску C.

Після створення папки перейдіть до неї в терміналі.

cd C:\irodori-tts

3. Клонування Irodori-TTS з GitHub

Введіть наступну команду в терміналі, щоб клонувати репозиторій Irodori-TTS з GitHub.

git clone https://github.com/Aratako/Irodori-TTS.git

Клонування репозиторію триватиме лише кілька секунд.

Введіть наступну команду, щоб перейти в папку клонованого репозиторію.

cd Irodori-TTS

4. Встановлення необхідних пакетів

Введіть та виконайте наступну команду, щоб встановити пакети, необхідні для роботи Irodori-TTS.

uv sync

Завантаження та встановлення великої кількості пакетів займе певний час.

На цьому етапі також буде встановлено сам Python.

Не закривайте вікно терміналу до завершення завантаження та встановлення.

Оскільки завантажуються файли об'ємом майже 3 ГБ, рекомендується проводити налаштування у місці з хорошим інтернет-з'єднанням.

5. Запуск Irodori-TTS

Після завершення завантаження та встановлення пакетів налаштування завершено.

Запустіть Irodori-TTS.

Введіть та виконайте наступну команду і трохи зачекайте на запуск.

uv run python gradio_app.py --server-name 0.0.0.0 --server-port 7860

Коли в терміналі з'явиться наступне повідомлення, запуск завершено.

Running on local URL: http://0.0.0.0:7860

Відкрийте веб-браузер і перейдіть за адресою http://localhost:7860.

Відкриється інтерфейс Irodori-TTS (WebUI).

6. Завантаження AI-моделі

Натисніть «Load Model», щоб завантажити AI-модель для озвучування тексту.

При першому використанні натискання цієї кнопки запустить завантаження AI-моделі.

Коли у полі Model Status (виділено червоним на наступному зображенні) з'явиться повідомлення про завершення, AI-модель готова до роботи.

7. Озвучування тексту в Irodori-TTS

В Irodori-TTS можна давати вказівки щодо манери читання, включаючи емоції, але для початку спробуємо озвучити текст без додаткових вказівок.

Прокрутіть вниз до поля введення тексту та введіть речення, яке хочете озвучити.

Цього разу спробуємо озвучити: «こんにちは、これはイロドリTTSで作成された音声です。」 (Привіт, це голос, створений за допомогою Irodori-TTS).

(При написанні «Irodori-TTS» латиницею озвучування було некоректним, тому ми написали назву катаканою — «イロドリTTS»)

Натисніть кнопку «Generate», щоб почати генерацію голосу.

Irodori-TTS використовує CPU або GPU (відеокарту) вашого ПК для генерації голосу.

Тому час генерації суттєво залежить від продуктивності вашого комп'ютера.

Оскільки цього разу генерація відбувалася на ноутбуці без GPU, створення навіть короткого речення зайняло близько 1 хвилини.

Довідка: Тестова генерація проводилася в середовищі CPU: Ryzen 5 4650U, RAM: DDR4 32GB, Windows 11 Pro 24H2.

Після завершення генерації з'явиться хвильова форма звуку, і ви зможете його прослухати.

Приклад озвучування речення «こんにちは、これはイロドリTTSで作成された音声です。」

Якщо результат вас влаштовує, натисніть кнопку завантаження (іконка зі стрілкою вниз), щоб зберегти аудіофайл.

Аудіофайл зберігається у форматі WAV.

Ось так ви змогли синтезувати голос за допомогою Irodori-TTS.

Як налаштувати голос в Irodori-TTS

В Irodori-TTS можна різними способами регулювати стать, емоції та інші параметри мовлення.

Вказання емоцій за допомогою емодзі

Якщо натиснути «Emoji Palette» під полем введення тексту, можна вибрати емодзі.

Кожному емодзі відповідає певне емоційне забарвлення:

😊 Весело, радісно
😭 Ридання, плач
😰 Поспіхом, схвильовано
⏩ Швидке мовлення
📖 Нарація, монолог

Просто додавши емодзі в поле введення тексту, ви можете озвучити його з вибраною емоцією.

Приклад озвучування «😊 こんにちは、これはイロドリTTSで作成された音声です。」

Приклад озвучування «📖 こんにちは、これはイロドリTTSで作成された音声です。」

Однак лише за допомогою емодзі неможливо конкретно вказати стать чи вік.

Використання референсного аудіо для озвучування тим самим голосом

В Irodori-TTS можна завантажити файл референсного голосу, щоб програма озвучувала текст, орієнтуючись на нього.

Референсне аудіо завантажується через область з написом 「音声をここにドロップ - または - クリックしてアップロード」 (Перетягніть аудіо сюди або натисніть, щоб завантажити).

Це дозволяє не тільки використовувати один і той самий голос, а й отримати більш чисте звучання порівняно з генерацією без вказівок.

Пряме налаштування стилю озвучування за допомогою функції кепшіонінгу

В Irodori-TTS можна напряму вказати текстом, яким саме голосом потрібно озвучити фрагмент.

Для використання функції кепшіонінгу потрібно запустити версію «VoiceDesign», що змінює команду запуску Irodori-TTS у терміналі.

uv run python gradio_app_voicedesign.py --server-name 0.0.0.0 --server-port 7861

Після виконання цієї команди запуститься інтерфейс версії VoiceDesign.

Оскільки VoiceDesign використовує іншу AI-модель, ніж стандартна версія, при першому використанні необхідно натиснути «Load Model» та завантажити модель окремо.

Об'єм AI-моделі становить близько 2 ГБ, тому рекомендується завантажувати її при стабільному інтернет-з'єднанні.

В інтерфейсі версії VoiceDesign є текстове поле «Caption / Style Prompt (optional)».

Сюди ви вписуєте реченням, який голос ви хочете почути:

Будь ласка, озвучте спокійним жіночим голосом, м’яко та природно, наче з близької відстані.
Будь ласка, говоріть бадьорим чоловічим голосом, чітко та енергійно.
Прочитайте, будь ласка, низьким чоловічим голосом, стримано, як диктор новин.

Таким чином можна вказати бажаний тип голосу.

Наприклад, при вказівці «Будь ласка, озвучте спокійним жіночим голосом, м’яко та природно, наче з близької відстані.» вийшов такий результат:

Приклад із використанням опису спокійного жіночого голосу

Цей метод також дозволив отримати чисте та приємне для слуху озвучування.

Однак функція кепшіонінгу має свої особливості.

Генерація голосу за допомогою кепшіонінгу займає більше часу, ніж інші методи.

Під час тестування на ноутбуці генерація цього короткого речення тривала близько 5 хвилин.

Для використання функції кепшіонінгу наполегливо рекомендується потужний ПК з GPU.

Що буде, якщо спробувати озвучити англійський текст?

Irodori-TTS — це програма, призначена лише для японської мови.

Що ж станеться, якщо спробувати озвучити текст англійською?

Спробуємо ввести просте речення.

Приклад озвучування «Hello, this is a voice recording created using Irodori-TTS.»

Як бачимо, слово «Hello» прозвучало з японською вимовою як «харо», а частина «recording» стала нерозбірливою. Коректно озвучити англійську не вдалося.

Якщо вам потрібно озвучити англійський текст, рекомендуємо використовувати сервіси AI-озвучування, що підтримують іноземні мови.

Параметр	Ondoku	Irodori-TTS
Тип роботи	Хмарний (через браузер)	Локальний (на власному ПК)
Налаштування	Не потрібне	Потрібне створення середовища Python, Git тощо
Підтримувані мови	Понад 35 мов	Лише японська
Вибір голосу	Просто вибрати з багатьох варіантів	Клонування, опис, емодзі
Ліміт на одну генерацію	Підтримує довгі тексти	До 30 секунд
Комерційне використання	Можливо (при безкоштовному використанні потрібне вказання авторства)	Можливо (ліцензія MIT)
Пристрої	ПК, смартфон, планшет	ПК (рекомендовано GPU)
Вартість	Є безкоштовний план (платні плани для більшої кількості символів)	Безкоштовно (оскільки працює локально)

Підсумок: Особливості, налаштування та використання Irodori-TTS

У цій статті ми розповіли про Irodori-TTS — спеціалізовану на японській мові програму для AI-синтезу мовлення, що працює локально.

Irodori-TTS — це привабливий інструмент для тих, хто хоче детально працювати над виразністю голосу за допомогою клонування, текстових описів стилю та емодзі.

Однак процес налаштування та використання розрахований на просунутих користувачів, оскільки вимагає встановлення Python та Git.

Також на ПК без GPU генерація голосу займає багато часу.

Для тих, хто хоче «використовувати синтез мовлення легко та прямо зараз», ми рекомендуємо Ondoku, який працює у браузері.

Спробуйте і ви створити високоякісне аудіо за допомогою простого у використанні безкоштовного AI-синтезу мовлення.

■ Програмне забезпечення для синтезу мови зі штучним інтелектом «Ondoku»

«Ondoku» — це онлайн-інструмент перетворення тексту в мовлення, який можна використовувати безкоштовно.

Підтримує приблизно 50 мов, включаючи японську, англійську, китайську, корейську, іспанську, французьку та німецьку.
Доступно як з ПК, так і зі смартфона
Підходить для бізнесу, навчання, розваг тощо.
Встановлювати не потрібно, можна використовувати відразу з браузера
Також підтримує зчитування із зображень

Щоб скористатися ним, просто введіть текст або завантажте файл із сайту. Створюйте природні звукові файли за лічені секунди. Ви можете безкоштовно використовувати синтез мовлення до 5000 символів, тож спочатку спробуйте.

Програма синтезу мовлення «Ondoku» може безкоштовно зчитувати 5000 символів щомісяця за допомогою штучного інтелекту. Ви можете легко завантажити MP3, а також можливе комерційне використання. Якщо ви зареєструєтеся безкоштовно, ви зможете безкоштовно конвертувати до 5000 символів на місяць із тексту в мову. Спробуйте Ondoku зараз.

HP: ondoku3.com
Email: ondoku3.com@gmail.com

←Попередня стаття |

Пов'язана стаття

Перетворення тексту в мовлення, Часті запитання (FAQ) про Ondoku

Як налаштувати паузи та час очікування під час читання Ondoku 【2 способи】

Як зазначати авторство Ondoku. Приклади написання та зауваження.

【Безкоштовно】Добірка 5 безкоштовних програм для читання тексту вголос на Mac

Про методи оплати Ondoku (кредитна картка, дебетова картка, банківський переказ) та квитанції

Ondoku

Програмне забезпечення для читання тексту Ondoku. Це послуга з текстовим мовленням, яка не потребує встановлення і може користуватися будь-ким безкоштовно. Якщо ви зареєструєтесь безкоштовно, ви можете отримати до 5000 символів безкоштовно щомісяця. Зареєструйтеся зараз безкоштовно

меню

Нові статті

Популярні статті