स्पीच सिंथेसिस मार्कअप लैंग्वेज (SSML) क्या है? टेक्स्ट-टू-स्पीच सॉफ़्टवेयर और प्रमुख कोड की सूची में इसका उपयोग कैसे करें।

17 अप्रैल 2024

स्पीच सिंथेसिस मार्कअप लैंग्वेज (SSML) क्या है? टेक्स्ट-टू-स्पीच सॉफ़्टवेयर और प्रमुख कोड की सूची में इसका उपयोग कैसे करें।

नमस्कार, Ondoku वेबसाइट में आपका स्वागत है।

आज, हम SSML की शुरुआत करना चाहते हैं।

कुछ तकनीकी शब्द होने के कारण आपको यह मुश्किल लग सकता है।

हालाँकि, यदि आप इसे जानते हैं, तो यह आपके ओन्डोकू के उपयोग के तरीके में भारी अंतर लाएगा।

कृपया इसे पढ़ें क्योंकि हम इसे समझने में आसान बनाने की कोशिश करते हैं।

SSML क्या है?

सबसे पहले, SSML का मतलब स्पीच सिंथेसिस मार्कअप लैंग्वेज है।

यह HTML के समान है।

यह SSML कोड लिखकर, आप Ondoku के भाषण को नियंत्रित कर सकते हैं।

ओन्डोकू के साथ एसएसएमएल का उपयोग कैसे करें

ओन्डोकू में एसएसएमएल का उपयोग करना बहुत आसान है।

कृपया सीधे SSML कोड को Ondoku टेक्स्ट बॉक्स में दर्ज करें।

SSML को स्वचालित रूप से लागू किया जाएगा।

शामिल करना सुनिश्चित करें

<बोलते> </ बात>

शुरुआत में और कोड के अंत में! कोड <बोल> के बिना, SSML लागू नहीं किया जाएगा।

<बोलते> </ बात>

जैसा कि पहले उल्लेख किया गया है, यह एसएसएमएल को सक्रिय करने के लिए कोड है।

इस कोड को उस पाठ की शुरुआत और अंत में शामिल करना सुनिश्चित करें जिसे आप भाषण में बदलना चाहते हैं।

उदाहरण

<बोलें> वह पाठ दर्ज करें जिसे आप पाठ से भाषण में बदलना चाहते हैं </ Speak>

<ब्रेक का समय = "○○ एमएस" />

जैसा कि नाम से ही स्पष्ट है, ब्रेक टाइम कोड एक ठहराव बनाने के लिए एक कोड है।

उस कोड को दर्ज करें जहां आप एक ब्रेक समय सम्मिलित करना चाहते हैं, और the को अपनी पसंद के नंबर से बदल दें।

ओन्डोकू द्वारा उत्पन्न भाषण में "विराम" नहीं होगा, जब तक कि निर्दिष्ट न हो।

आप कोष्ठक या विराम चिह्नों के साथ कुछ विराम समय बना सकते हैं, लेकिन ये रुके हुए सेट नहीं हो सकते हैं जैसा आप चाहते हैं।

खासकर यदि आपको 2 सेकंड से अधिक के ब्रेक समय की आवश्यकता है, तो इसे नियंत्रित करना अधिक कठिन होगा।

हालांकि, यदि आप प्रवेश करते हैं

<ब्रेक टाइम = "1000ms" />

जिस स्थान पर आप एक विराम लगाना चाहते हैं,

<बोलते>
मैं इस वाक्य को पढ़ते समय कुछ ब्रेक टाइम <ब्रेक टाइम = "1000ms" /> चाहता हूं।
</ बात>

आप वाक्य के बीच में कुछ विराम सुनेंगे।

* 1000 एमएस = 1 सेकंड

आप विराम की लंबाई को नियंत्रित करने के लिए स्वतंत्र रूप से एमएस या एस से पहले संख्या बदल सकते हैं।

200ms = 0.200 सेकंड
500ms = 0.500 सेकंड
1000ms = 1.000 सेकंड
2000ms = 2.000 सेकंड
3 सेकंड = 3 सेकंड
10s = 10 सेकंड आदि।

<कहना-जैसा व्याख्या-जैसा = "बहिर्मुखी"> say </ say-as>

इस कोड के साथ, ○○ में पाठ ब्लिप सेंसर के लिए बीप साउंड के साथ खेला जाएगा।

यह एक तरह का चंचल कोड है। इस कोड में संलग्न पाठ को बीपिंग साउंड के साथ बदल दिया जाएगा।

<बोलते>
यह शब्द है <Say-aspret-as = "expletive"> प्रतिबंधित </ say-as>
</ बात>

<उप उपनाम = "◇◇"> al </ उप>

यह एक कोड है जो आपको उच्चारण इंगित करने की अनुमति देता है।

कभी-कभी जब आप टेक्स्ट-टू-स्पीच रूपांतरण का उपयोग करते हैं, तो आप अप्रत्याशित तरीके से बोला जाने वाला शब्द सुन सकते हैं।

उदाहरण के लिए, आप सॉफ्टवेयर का उच्चारण "" "," एक लाइन "को" इचिग्यो "के रूप में कर सकते हैं, जबकि सिस्टम इसे" इचियुकी "के रूप में उच्चारण करता है।

कोड के लिए, कांजी के लिए ○○ और ◇◇ के लिए उच्चारण दर्ज करें।

<बोलते>
सही ढंग से उच्चारण के रूप में इचियुकी के बजाय <उप उपनाम = "इचिग्यो"> sub </ उप>
</ बात>

<जोर> ○○ </ जोर>

आप भाषण में कोड में संलग्न पाठ पर जोर दे सकते हैं।

<बोलते>
यह कोड <जोर> पाठ पर जोर देगा </ जोर>
</ बात>

<छंदशास्र> ○○ </ छंदशास्र>

Prosody एक भाषाई शब्द है जिसमें प्राकृतिक बोली जाने वाली अंग्रेजी के नियमों का वर्णन है, जिसमें शामिल हैं

  • Intonation (बढ़ती और गिरने वाली पिच)
  • ठहराव की स्थिति
  • ध्वनि और तनाव की लंबाई, आदि।

इन कोडों के साथ, आप निम्नलिखित 3 तत्वों को समायोजित कर सकते हैं:

  • दर (दर, गति)
    कोड: "x-slow" "slow" "medium" "fast" "x-fast" "default"
  • पिच (पिच, ऊंचाई)
    कोड: "x-low" "low" "medium" "high" "x-high" "default"
  • आयतन (आयतन, आकार)
    कोड: "साइलेंट" "x-सॉफ्ट" "सॉफ्ट" "मीडियम" "लाउड" "x-लाउड" "डिफॉल्ट"

<बोलते>
<भोगी दर = "तेज"> तेज बोलो। </ छंदशास्र>
<पेशेवर पिच = "उच्च"> ऊंची पिच आवाज में बोलें। </ छंदशास्र>
<prosody volume = "लाउड"> ज़ोर से बोलें। </ छंदशास्र>
<prosody rate = "slow" पिच = "x-low"> धीरे और कम पिच वाली आवाज में बोलें। </ छंदशास्र>
<प्रायोगिक दर = "तेज़" पिच = "उच्च" वॉल्यूम = "मध्यम"> तेज पिच आवाज में, और सामान्य मात्रा में बोलें। </ छंदशास्र>
</ बात>

■ एआई भाषण संश्लेषण सॉफ्टवेयर "ओन्डोकू"

"ओन्डोकू" एक ऑनलाइन टेक्स्ट-टू-स्पीच टूल है जिसका उपयोग बिना किसी प्रारंभिक लागत के किया जा सकता है।

  • जापानी, अंग्रेजी, चीनी, कोरियाई, स्पेनिश, फ्रेंच और जर्मन सहित लगभग 50 भाषाओं का समर्थन करता है।
  • पीसी और स्मार्टफोन दोनों से उपलब्ध है
  • व्यवसाय, शिक्षा, मनोरंजन आदि के लिए उपयुक्त।
  • किसी इंस्टॉलेशन की आवश्यकता नहीं, आपके ब्राउज़र से तुरंत उपयोग किया जा सकता है
  • छवियों से पढ़ने का भी समर्थन करता है

इसका उपयोग करने के लिए, बस टेक्स्ट दर्ज करें या साइट से एक फ़ाइल अपलोड करें। सेकंडों में प्राकृतिक ध्वनि फ़ाइलें उत्पन्न करें। आप 5,000 वर्णों तक वाक् संश्लेषण का निःशुल्क उपयोग कर सकते हैं, इसलिए कृपया पहले इसे आज़माएँ।

टेक्स्ट-टू-स्पीच सॉफ्टवेयर "ओंडोकू" हर महीने एआई आवाज के साथ मुफ्त में 5000 अक्षरों को पढ़ सकता है। आप आसानी से MP3 डाउनलोड कर सकते हैं और व्यावसायिक उपयोग भी संभव है। यदि आप निःशुल्क साइन अप करते हैं, तो आप प्रति माह 5,000 अक्षरों तक को टेक्स्ट से स्पीच में निःशुल्क रूपांतरित कर सकते हैं। अभी ओन्डोकू आज़माएँ।
HP: ondoku3.com
Email: ondoku3.com@gmail.com
संबंधित लेख

टेक्स्ट रीडिंग सॉफ्टवेयर ओन्डोकू। यह एक टेक्स्ट-टू-स्पीच सेवा है जिसका उपयोग बिना किसी इंस्टॉलेशन के मुफ्त में किया जा सकता है। यदि आप निःशुल्क पंजीकरण करते हैं, तो आप प्रत्येक माह 5000 अक्षर तक निःशुल्क प्राप्त कर सकते हैं। अभी मुफ्त में रजिस्टर करें