音声マークアップ言語(SSML)とは。音声読み上げソフトでの使い方と主なコード一覧。
2024年4月17日
こんにちは、音読さんです。
今回はSSMLについて紹介していきましょう。
少しだけ専門用語が出てきて難しく感じるかもしれません。
でも、これを知っておくと、音読さんの使い方が一味もふた味も変わってきます。
わかりやすく解説をしていくのでぜひ、読んでみてくださいね。
SSMLとは
まず、SSMLとは音声マークアップ言語のことです。
種類としてはHTMLと同じようなものです。
このSSMLコードを書くことで音読さんの発声を更にコントロールすることができます。
現在、すべての言語でサポートしているSSMLコードは
- <speak></speak>
- <break time="○○ms"/>
の2種類のコードのみです。その他のコードは言語や音声の種類によって使用できません。予めご了承ください。
音読さんでSSMLを使う方法
音読さんでSSMLを使うのはとても簡単です。
音読さんのテキストボックスに直接SSMLのコードを入力してください。
すると自動的にSSMLが適応されます。
文章の初めと終わりに
<speak></speak>
のコードを入れ忘れないようにしてくださいね!<speak>のコードが入っていないと、SSMLは適応されません。
<speak></speak>
前途のとおり、SSMLを有効にするために必要なコードです。
読み上げたいテキストの最初と終わりに必ずこのコードを入れてください。
例
<speak>ここに読み上げたいテキストを入れてください</speak>
<break time="○○ms"/>
ブレイクタイムのコードはその名の通り、間合いを作るためのコードです。
間合いを入れたいところにコードを入力し、○○の部分を好みの数字に入れ替えてください。
音読さんで普通に読み上げると”間”はありません。
カギカッコや句読点を入れる方法もありますが、それでは思ったとおりの間隔で間を入れることはできません。
間を2秒以上長くしようとすると、コントロールするのは更に困難です。
ですが、
<break time="1000ms"/>
というコードを間を入れたいところにいれてみましょう。
<speak>
この文章を読み上げる時に少しま<break time="1000ms"/>を開けたい
</speak>
すると、んっと一息ついて話をするのがわかりますね。
※ 1000ms=1秒
ms もしくは s の前にある数字を変えることで、”間”の長さは自由自在になります。
200ms = 0.200秒
500ms = 0.500秒
1000ms = 1.000秒
2000ms = 2.000秒
3s = 3秒
10s = 10秒 など
※文章より前の<break time="○○ms"/>タグの動作は音声により仕様が異なり、動作は保証できません。
例:<speak><break time="5s"/>冒頭に5秒の間合いを作りたい</speak>
↑このような使い方は仕様上、できません。
<say-as interpret-as="expletive">○○</say-as>
○○の部分の文章を「ピー」っと放送禁止音で再生します。
ちょっとした遊び心のあるコードですね。このコードで囲っている部分の文字はピーという音に置き換わります。
<speak>
この言葉は<say-as interpret-as="expletive">放送禁止</say-as>です
</speak>
<say-as interpret-as="characters">○○</say-as>
アルファベットを読み上げる時に文字ごとにスペルアウト(スペルで読み上げ)されます。
<speak>
The spelling of hello is<say-as interpret-as="characters">Hello</say-as>
</speak>
ただし、このSSMLがエラーになってしまう音声もあります。ご了承の上でご利用ください。
日本語:ななみ
英語(USA):en-US-A
<sub alias="◇◇">○○</sub>
よみがなを降ることができるコードです。
音声読み上げでは時々思わぬ読み上げをすることがあります。
例えば”一行”を「いちゆき」と発音するのを「いちぎょう」とよみがなをふることできちんと発音できるようになります。
コードには○○に漢字、◇◇によみがなを入力してください。
<speak>
一行ではなく<sub alias="いちぎょう">一行</sub>と正しく読む
</speak>
<emphasis>○○</emphasis>
コードで囲んだ文字を強調して読み上げをさせることができます。
<speak>
このコードは<emphasis>強調</emphasis>させることができます
</speak>
<prosody>○○</prosody>
プロソディ(prosody・韻律)とは、自然な英語を話す際の
- 音の上げ下げ
- 区切る位置
- 長さや強弱 など、
言語の音の特徴を表す総称です。
このコードで調整することができるのは
- rate(レート、早さ)
調整コード:「x-slow」「slow」「medium」「fast」「x-fast」「default」 - pitch(ピッチ、高さ)
調整コード:「x-low」「low」「medium」「high」「x-high」「default」 - volume(ボリューム、大きさ)
調整コード:「silent」「x-soft」「soft」「medium」「loud」「x-loud」「default」
の3種類を調整することができます。
<speak>
<prosody rate="fast">早口で話します。</prosody>
<prosody pitch="high">高い声で話します。</prosody>
<prosody volume="loud">大声で話します。</prosody>
<prosody rate="slow" pitch="x-low">遅く、低い声で話します。</prosody>
<prosody rate="fast" pitch="high" volume="medium">早く、高い声で、普通の大きさで話します。</prosody>
</speak>
■ AI音声合成ソフト『音読さん』
『音読さん』は初期費用ゼロで利用できるオンラインテキスト読み上げツールです。
- 日本語、英語、中国語、韓国語、スペイン語、フランス語、ドイツ語など約50の言語に対応
- パソコン・スマホどちらからも利用可能
- ビジネス・教育・エンターテインメントなどの用途に対応
- インストール不要でブラウザから即利用可能
- 画像からの読み上げにも対応
利用方法はサイトからテキストを入力するかファイルをアップロードするだけ。 数秒で自然な音声ファイルが生成されます。 5,000文字までの音声合成なら無料で利用できますので、まずは一度お試しください。
Email: ondoku3.com@gmail.com