ما هو Irodori-TTS؟ شرح الميزات، التحذيرات، وكيفية الاستخدام

28 يوليو، 2026

أي نوع من برامج القراءة الآلية بالذكاء الاصطناعي هو Irodori-TTS؟

ربما يتساءل الكثيرون عن برنامج القراءة الآلية الجديد بالذكاء الاصطناعي «Irodori-TTS».

في هذه المقالة، سنشرح بوضوح ميزات Irodori-TTS، وما يمكنه فعله، والتنبيهات، وكيفية الاستخدام.

علاوة على ذلك، بالنسبة لأولئك الذين يشعرون أن «الإعداد يبدو صعبًا»، سنقدم أيضًا طريقة لتوليد الكلام يمكن استخدامها فورًا دون الحاجة إلى التثبيت.

ما ستعرفه في هذه المقالة

ما هو نوع برنامج Irodori-TTS؟
ما يمكن فعله بـ Irodori-TTS والتنبيهات
كيفية استخدام Irodori-TTS (من الإعداد إلى ضبط الصوت)
الطريقة الموصى بها عندما يكون بناء البيئة صعبًا

ما هو Irodori-TTS؟ شرح برنامج توليد الكلام بالذكاء الاصطناعي للغة اليابانية

أولاً، سنشرح بإيجاز ميزات برنامج توليد الكلام بالذكاء الاصطناعي Irodori-TTS.

Irodori-TTS هو نموذج لتوليد الكلام بالذكاء الاصطناعي يعمل محليًا

Irodori-TTS هو برنامج لتوليد الكلام بالذكاء الاصطناعي متخصص في اللغة اليابانية.

المطور هو Aratako، وهو متاح مجانًا كمصدر مفتوح (ترخيص MIT).

الميزة الأكبر هي القدرة على «العمل محليًا»، حيث يتم توليد الكلام بالكامل على جهاز الكمبيوتر الخاص بك فقط.

نظرًا لأن جميع عمليات معالجة توليد الصوت تتم على جهاز الكمبيوتر الخاص بك، فلن يتم إرسال النصوص أو بيانات الصوت التي تم إنشاؤها إلى خوادم خارجية.

بعد الإعداد الأولي، يمكنك توليد الصوت دون اتصال بالإنترنت، ولا توجد قيود على عدد مرات التوليد.

ومع ذلك، يتطلب الإعداد أدوات برمجة مثل Python و Git.

أيضًا، يوصى باستخدام جهاز كمبيوتر عالي الأداء مزود بـ GPU (بطاقة رسومات) للتشغيل بسرعة عالية.

ما يمكن وما لا يمكن فعله باستخدام Irodori-TTS

بعد ذلك، سنشرح ما يمكن وما لا يمكن فعله باستخدام Irodori-TTS.

ما يمكن فعله بـ Irodori-TTS

بما أن Irodori-TTS يعمل في بيئة محلية، يمكنك توليد الصوت لعدد غير محدود من المرات.

حتى في البيئات التي لا تتوفر فيها خدمة الإنترنت، يمكنك إنشاء الصوت بحرية بمجرد اكتمال الإعداد الأولي.

تتوفر طرق متعددة لتوجيه نوع الصوت المراد إنشاؤه، وباستخدام وظيفة الكابشن (caption)، يمكنك إنشاء جودة الصوت التي تفضلها من خلال التعليمات النصية فقط.

كما يمكن أيضًا إعادة إنتاج صوت تملكه عبر استنساخ الصوت (voice cloning)، أو إضافة تعبيرات عاطفية باستخدام الرموز التعبيرية.

نظرًا لأنه يحمل ترخيص MIT، فمن الممكن أيضًا استخدام الصوت المولد للأغراض التجارية.

تنبيهات حول Irodori-TTS

من ناحية أخرى، هناك بعض التنبيهات التي يجب معرفتها قبل استخدام Irodori-TTS.

الصوت الذي يمكن إنشاؤه في المرة الواحدة يصل إلى حوالي 30 ثانية

الحد الأقصى للقراءة في عملية توليد واحدة هو حوالي 30 ثانية.

إذا كنت ترغب في قراءة نصوص طويلة، فستحتاج إلى تقسيم النص وتوليده عدة مرات.

من الصعب جعل الصوت أو طريقة الكلام كما تريد تمامًا

نظرًا لأن Irodori-TTS يتمتع بمرونة عالية، فإنه لا يأتي بصوت افتراضي (صوت أساسي) جاهز.

لذلك، إذا لم تحدد كابشن أو صوتًا مرجعيًا، فقد يتغير الجنس والعمر عشوائيًا في كل مرة تقوم فيها بالتوليد.

عندما ترغب في القراءة بنفس الصوت، فمن الضروري تحميل صوت مرجعي.

بالإضافة إلى ذلك، لا توجد وظيفة لضبط النغمة والاتزان يدويًا.

اللغة المدعومة هي اليابانية فقط

اللغة المدعومة هي اليابانية فقط، ولا يدعم اللغات الأجنبية مثل الإنجليزية.

أيضًا، قد تحدث أخطاء في قراءة الكانجي، لذا يجب توخي الحذر.

يوصى بجهاز كمبيوتر عالي المواصفات مزود بـ GPU

بناءً على مواصفات الكمبيوتر، قد يستغرق توليد الصوت وقتًا طويلاً.

في أجهزة الكمبيوتر التي لا تحتوي على GPU، قد يستغرق توليد نص قصير حوالي دقيقة واحدة.

بالنسبة للمعالجات من الفئة الاقتصادية مثل Celeron أو N100، نشعر أن الاستخدام العملي سيكون صعبًا.

كيفية استخدام Irodori-TTS (خطوات الإعداد)

من هنا، سنشرح بإيجاز كيفية استخدام Irodori-TTS.

الخطوات العامة للإعداد هي كما يلي:

تثبيت البرامج اللازمة
إنشاء مجلد للعمل
استنساخ Irodori-TTS من GitHub
تثبيت الحزم اللازمة
تشغيل Irodori-TTS
تحميل نموذج الذاء الاصطناعي (AI model)
قراءة النص

1. تثبيت البرامج اللازمة لـ Irodori-TTS

يتطلب إعداد Irodori-TTS بعض التحضيرات المسبقة.

أولاً، قم بتثبيت هذه الأنواع الثلاثة:

Python 3.10 أو أحدث: لغة برمجة
Git: نظام تحكم في الإصدارات (مطلوب لتحميل Irodori-TTS)
uv: مدير حزم Python

لتثبيت Python و Git و uv، انقر بزر الماوس الأيمن على قائمة ابدأ وانقر على «Terminal» (لا حاجة للتشغيل كمسؤول).

ستفتح شاشة Terminal (PowerShell).

في هذه الشاشة، أدخل الأوامر التالية وقم بتنفيذها:

winget install --id Git.Git -e
winget install --id=astral-sh.uv -e

بهذا، تم تثبيت ما يلزم لإعداد Irodori-TTS.

※ سيتم تثبيت Python تلقائيًا أثناء الإعداد لأن uv يتولى إدارته.

بعد التثبيت، قم بإغلاق الـ Terminal (PowerShell) وافتحه مرة أخرى (من أجل تفعيل المسارات "Path").

2. إنشاء مجلد للعمل

بعد ذلك، قم بإنشاء مجلد للعمل.

سيتم تثبيت Irodori-TTS هنا.

في هذا المثال، قمنا بإنشاء مجلد باسم «irodori-tts» مباشرة تحت القرص C.

بمجرد إنشاء المجلد، انتقل إليه في الـ Terminal.

cd C:\irodori-tts

3. استنساخ Irodori-TTS من GitHub

أدخل الأمر التالي في الـ Terminal لاستنساخ مستودع Irodori-TTS من GitHub.

git clone https://github.com/Aratako/Irodori-TTS.git

سينتهي استنساخ المستودع في بضع ثوانٍ.

أدخل الأمر التالي للانتقال إلى مجلد المستودع المستنسخ.

cd Irodori-TTS

4. تثبيت الحزم اللازمة

أدخل ونفذ الأمر التالي لتثبيت الحزم اللازمة لتشغيل Irodori-TTS.

uv sync

سيستغرق الأمر بعض الوقت حيث يتم تحميل وتثبيت كمية كبيرة من الحزم.

سيتم تثبيت Python نفسه هنا أيضًا.

انتظر دون إغلاق شاشة الـ Terminal أثناء التحميل والتثبيت.

بما أنك ستقوم بتحميل ملفات بحجم يقارب 3 جيجابايت، يوصى بالإعداد في مكان تتوفر فيه سرعة إنترنت جيدة.

5. تشغيل Irodori-TTS

بمجرد انتهاء تحميل وتثبيت الحزم، يكون الإعداد قد اكتمل.

الآن قم بتشغيل Irodori-TTS.

أدخل الأمر التالي ونفذه، وانتظر قليلاً حتى يبدأ التشغيل.

uv run python gradio_app.py --server-name 0.0.0.0 --server-port 7860

عندما تظهر الرسالة التالية في الـ Terminal، يكون التشغيل قد اكتمل.

Running on local URL: http://0.0.0.0:7860

افتح متصفح الويب وانتقل إلى العنوان http://localhost:7860.

ستفتح شاشة Irodori-TTS (WebUI) بهذا الشكل.

6. تحميل نموذج الذكاء الاصطناعي

لتحميل نموذج الذكاء الاصطناعي المستخدم في قراءة النصوص، انقر على «Load Model».

عند استخدامه لأول مرة، سيبدأ تحميل نموذج الذكاء الاصطناعي عند الضغط على هذا الزر.

عند ظهور رسالة اكتمال في Model Status (المكان المحاط باللون الأحمر في الصورة التالية)، يكون تحميل نموذج الذكاء الاصطناعي قد انتهى.

7. قراءة النصوص باستخدام Irodori-TTS

في Irodori-TTS، يمكنك إعطاء تعليمات حول كيفية القراءة بما في ذلك التعبيرات العاطفية، ولكن لنبدأ أولاً بالقراءة دون تعليمات كمثال.

قم بالتمرير لأسفل للعثور على حقل إدخال النص، وأدخل النص الذي تريد قراءته.

هذه المرة، سنقوم بقراءة: «こんにちは、これはイロドリTTSで作成された音声です。» (مرحباً، هذا صوت تم إنشاؤه بواسطة Irodori-TTS).

(بما أن كتابة «Irodori-TTS» بالأحرف اللاتينية لم تتم قراءتها بشكل صحيح، فقد كتبناها بالكاتاكانا «イロドリTTS»)

انقر على زر «Generate» لبدء توليد الصوت.

يستخدم Irodori-TTS الـ CPU أو الـ GPU الخاص بجهاز الكمبيوتر الخاص بك لتوليد الصوت.

لذلك، يختلف الوقت المستغرق للتوليد بشكل كبير حسب أداء جهاز الكمبيوتر.

هذه المرة، قمنا بالتوليد باستخدام كمبيوتر محمول لا يحتوي على GPU، لذا استغرق توليد هذا النص القصير حوالي دقيقة واحدة.

مرجع: تم إجراء اختبار التوليد في بيئة: CPU: Ryzen 5 4650U، الذاكرة: DDR4 32GB، Windows 11 Pro 24H2.

عند انتهاء التوليد، سيظهر شكل موجة الصوت وستتمكن من تشغيله.

مثال على قراءة: «こんにちは、これはイロドリTTSで作成された音声です。»

إذا كانت تجربة الاستماع جيدة، انقر على زر التحميل (أيقونة السهم للأسفل) لحفظ ملف الصوت.

يتم حفظ ملف الصوت بتنسيق WAV.

بهذا، تمكنت من استخدام Irodori-TTS لتوليد الصوت.

كيفية ضبط الصوت في Irodori-TTS

في Irodori-TTS، يمكنك ضبط الجنس والتعبيرات العاطفية بطرق متنوعة.

تحديد التعبيرات العاطفية باستخدام الرموز التعبيرية

بالنقر على «Emoji Palette» أسفل حقل إدخال النص، يمكنك اختيار الرموز التعبيرية.

يتم تخصيص تعبير عاطفي لكل رمز تعبيري.

😊 بسعادة، بمرح
😭 نحيب، صوت بكاء
😰 بذعر، ارتباك
⏩ كلام سريع
📖 سرد، مونولوج

بمجرد وضع الرمز التعبيري في حقل إدخال النص، يمكنك القراءة بالتعبير العاطفي المحدد.

مثال على قراءة: «😊 こんにちは、これはイロドリTTSで作成された音声です。»

مثال على قراءة: «📖 こんにちは、これはイロドリTTSで作成された音声です。»

ومع ذلك، باستخدام الرموز التعبيرية فقط، لا يمكنك تحديد الجنس أو العمر بشكل محدد.

تحميل صوت مرجعي للقراءة بنفس الصوت

في Irodori-TTS، يمكنك تحميل ملف صوت مرجعي وجعل البرنامج يقرأ بناءً على ذلك الصوت.

يتم تحميل الصوت المرجعي من القسم المكتوب عليه 「音声をここにドロップ - または - クリックしてアップロード」(قم بإسقاط الصوت هنا - أو - انقر للتحميل).

لا يقتصر الأمر على القراءة بنفس الصوت فحسب، بل يمكن القراءة بجودة صوت أوضح مقارنة بعدم تحديد أي شيء.

يمكن أيضًا ضبط نمط القراءة مباشرة باستخدام وظيفة الكابشن (Caption)

في Irodori-TTS، يمكنك أيضًا تحديد نوع الصوت الذي تريد القراءة به مباشرة عبر النص.

لاستخدام وظيفة الكابشن، تحتاج إلى تشغيل نسخة «VoiceDesign»، حيث يتغير أمر تشغيل Irodori-TTS في الـ Terminal.

uv run python gradio_app_voicedesign.py --server-name 0.0.0.0 --server-port 7861

عند تنفيذ هذا الأمر، ستبدأ شاشة تشغيل نسخة VoiceDesign.

بما أن نسخة VoiceDesign تستخدم نموذج ذكاء اصطناعي مختلفًا عن النسخة القياسية، يجب عليك النقر على «Load Model» عند الاستخدام الأول لتحميل النموذج بشكل منفصل عن النسخة القياسية.

يبلغ حجم نموذج الذكاء الاصطناعي حوالي 2 جيجابايت، لذا يوصى بالتحميل في مكان تتوفر فيه سرعة إنترنت جيدة.

يوجد في شاشة تشغيل نسخة VoiceDesign مربع نص «Caption / Style Prompt (optional)».

هنا، أدخل نصًا يصف كيف تريد أن يكون الصوت.

صوت امرأة هادئة، يقرأ بشكل طبيعي وناعم بمسافة قريبة.
صوت رجل حيوي، يتحدث بوضوح وإشراق.
صوت رجل منخفض الرخامة، يقرأ بهدوء كأنك مذيع أخبار.

بهذه الطريقة، يمكنك تحديد نوع الصوت المفضل لديك.

على سبيل المثال، عند القراءة مع تحديد «صوت امرأة هادئة، يقرأ بشكل طبيعي وناعم بمسافة قريبة.»، كان الصوت هكذا:

مثال مع تحديد «صوت امرأة هادئة، يقرأ بشكل طبيعي وناعم بمسافة قريبة.»

هنا أيضًا، تمكنا من قراءة صوت واضح وسهل الاستماع.

ولكن، هناك تنبيه بخصوص وظيفة الكابشن.

تستغرق وظيفة الكابشن وقتًا أطول لتوليد الصوت مقارنة بطرق القراءة الأخرى.

عندما قمنا بالتوليد باستخدام الكمبيوتر المحمول هذه المرة، استغرق توليد هذا النص القصير حوالي 5 دقائق.

عند استخدام وظيفة الكابشن، يوصى باستخدام جهاز كمبيوتر عالي المواصفات مزود بـ GPU.

ماذا يحدث عند قراءة نص باللغة الإنجليزية؟

Irodori-TTS هو برنامج قراءة يدعم اللغة اليابانية فقط.

إذًا، ماذا يحدث إذا حاولنا قراءة نص باللغة الإنجليزية؟

لنجرب إدخال جملة بسيطة.

مثال على قراءة: «Hello, this is a voice recording created using Irodori-TTS.»

بهذا الشكل، أصبحت كلمة Hello تُنطق بلكنة كاتاكانا «هارو»، وأجزاء مثل recording أصبحت غير مفهومة، لذا لم نتمكن من القراءة بشكل صحيح.

إذا كنت ترغب في قراءة نصوص باللغة الإنجليزية، فمن الموصى به استخدام خدمات القراءة الآلية التي تدعم اللغات الأجنبية.

طريقة توليد الكلام الموصى بها عندما يكون «الإعداد صعبًا»

بعد القراءة حتى هنا، ربما شعر البعض أن إعداد Irodori-TTS يبدو صعبًا بعض الشيء.

إذا لم تكن معتادًا على التعامل مع الـ Terminal أو بناء بيئات Python، فقد يستغرق الأمر وقتًا لمجرد اتباع الخطوات.

أيضًا، إذا لم يكن لديك جهاز كمبيوتر مزود بـ GPU، فسيستغرق توليد الصوت الواحد وقتًا طويلاً، مما يجعل استخدامه لأغراض مثل التعليق الصوتي للفيديوهات أمرًا صعبًا.

في مثل هذه الحالات، يوصى باستخدام أصوات الذكاء الاصطناعي التي لا تتطلب تثبيتًا ولا إعدادًا.

『Ondoku』 صوت ذكاء اصطناعي يمكن استخدامه دون تثبيت

الخيار الموصى به لتوليد الصوت بسهولة باستخدام أحدث تقنيات الذكاء الاصطناعي هو خدمة 『Ondoku』.

『Ondoku』 هي خدمة لتوليد الكلام بالذكاء الاصطناعي تتيح لك إنشاء الصوت بمجرد فتح المتصفح ولصق النص.

يمكنك إنشاء أصوات مجانية الآن على الكمبيوتر أو الهاتف الذكي أو الجهاز اللوحي.

بما أن توليد الصوت يتم في السحابة (من جانب الخادم)، فلا توجد مشكلة حتى لو لم يكن جهاز الكمبيوتر الخاص بك مزودًا بـ GPU.

تتوفر مجموعة متنوعة من الأصوات الجاهزة مثل أصوات الرجال والنساء والأطفال، لذا يمكنك القراءة فورًا بمجرد الاختيار دون الحاجة إلى تحضير أصوات مرجعية أو كابشن.

النصوص الطويلة يمكن قراءتها كما هي.

علاوة على ذلك، يدعم Ondoku اللغة الإنجليزية أيضًا!

بما أنه يدعم لغات متعددة مثل الفرنسية والإسبانية والكورية والصينية، يمكنك استخدامه للقراءة بلغات غير اليابانية.

بالإضافة إلى ذلك، يمكنك تجربة قراءة أكثر طبيعية مع الجيل القادم من أصوات الذكاء الاصطناعي (OndokuBeta).

إذا كنت تبحث عن طريقة لقراءة النص كصوت، لماذا لا تجرب 『Ondoku』 الذي يمكن استخدامه بسهولة ومجانًا؟

جرب Ondoku الآن

مقارنة بين الاختلافات بين Ondoku و Irodori-TTS

أخيرًا، سنقارن الاختلافات الرئيسية بين Ondoku و Irodori-TTS.

👆 يمكنك التمرير أفقيًا

البند	Ondoku	Irodori-TTS
طريقة التشغيل	سحابي (عبر المتصفح)	محلي (المعالجة على جهازك)
الإعداد	غير مطلوب	يتطلب بناء بيئة Python و Git وغيرها
اللغات المدعومة	أكثر من 35 لغة	اليابانية فقط
كيفية اختيار الصوت	مجرد الاختيار من بين عدة أصوات	تحديد عبر استنساخ الصوت، الكابشن، أو الرموز التعبيرية
الحد الأقصى للتوليد في المرة الواحدة	يدعم النصوص الطويلة	حتى 30 ثانية تقريبًا
الاستخدام التجاري	ممكن (يتطلب ذكر المصدر عند الاستخدام المجاني)	ممكن (ترخيص MIT)
الأجهزة المدعومة	الكمبيوتر، الهاتف الذكي، الجهاز اللوحي	الكمبيوتر (يوصى بـ GPU)
الرسوم	توجد خطة مجانية (زيادة عدد الحروف في الخطط المدفوعة)	مجاني (لأنه يعمل محليًا)

بالمقارنة، يتفوق Ondoku في السهولة والجاهزية للاستخدام، بينما يمكن استخدام Irodori-TTS إذا كنت تملك جهاز كمبيوتر عالي الأداء وترغب في تصميم الصوت بدقة.

بالنسبة لأولئك الذين يريدون الصوت الآن، أو الذين يحتاجون إلى قراءة لغات متعددة، أو الذين يرغبون في استخدامه على الهاتف الذكي أو الجهاز اللوحي، فإن Ondoku هو الخيار الموصى به.

كما أنه مناسب لمن يرغب في قراءة نصوص طويلة كما هي، أو من لا يريد قضاء وقت في الإعداد، أو من لا يملك GPU في جهازه.

بما أنه يمكنك إنشاء صوت عالي الجودة فورًا بمجرد فتح المتصفح، لماذا لا تبدأ باستخدام Ondoku مجانًا؟

جرب Ondoku الآن

ملخص ميزات وإعداد وكيفية استخدام Irodori-TTS

في هذه المقالة، شرحنا برنامج Irodori-TTS لتوليد الكلام بالذكاء الاصطناعي الذي يعمل محليًا والمتخصص في اللغة اليابانية.

يعد Irodori-TTS أداة جذابة لأولئك الذين يهتمون بالتعبير الصوتي، مثل تصميم جودة الصوت عبر استنساخ الصوت أو الكابشن، والتحكم في العواطف باستخدام الرموز التعبيرية.

ومع ذلك، فإن طريقة الإعداد والاستخدام موجهة للمستخدمين المتقدمين، حيث يتطلب الإعداد بناء بيئة Python و Git.

كما يستغرق توليد الصوت وقتًا طويلاً في أجهزة الكمبيوتر التي لا تحتوي على GPU.

بالنسبة لأولئك الذين يرغبون في «استخدام توليد الكلام بسهولة الآن»، فإن 『Ondoku』 الذي يعمل عبر المتصفح هو الخيار الموصى به.

لماذا لا تبدأ بإنشاء أصوات عالية الجودة مع خدمة توليد الكلام بالذكاء الاصطناعي المجانية والسهلة؟

■ برنامج تركيب الكلام بالذكاء الاصطناعي "Ondoku"

"Ondoku" هي أداة لتحويل النص إلى كلام عبر الإنترنت ويمكن استخدامها دون أي تكلفة أولية.

يدعم ما يقرب من 50 لغة بما في ذلك اليابانية والإنجليزية والصينية والكورية والإسبانية والفرنسية والألمانية.
متاح من كل من الكمبيوتر الشخصي والهاتف الذكي
مناسب للأعمال والتعليم والترفيه وما إلى ذلك.
لا يتطلب التثبيت، ويمكن استخدامه على الفور من المتصفح الخاص بك
كما يدعم القراءة من الصور

لاستخدامه، ما عليك سوى إدخال نص أو تحميل ملف من الموقع. قم بإنشاء ملفات صوتية طبيعية في ثوانٍ. يمكنك استخدام تركيب الكلام لما يصل إلى 5000 حرف مجانًا، لذا يرجى تجربته أولاً.

يمكن لبرنامج تحويل النص إلى كلام "Ondoku" قراءة 5000 حرف شهريًا بصوت AI مجانًا. يمكنك بسهولة تنزيل ملفات MP3 والاستخدام التجاري ممكن أيضًا. إذا قمت بالتسجيل مجانًا، فيمكنك تحويل ما يصل إلى 5000 حرف شهريًا مجانًا من النص إلى كلام. جرب أوندوكو الآن.

HP: ondoku3.com
Email: ondoku3.com@gmail.com

←المقال السابق |