音声マークアップ言語（SSML）とは。音声読み上げソフトでの使い方と主なコード一覧。

2025年6月21日

こんにちは、音読さんをいつもご利用いただきありがとうございます。

この記事ではSSMLについて紹介します。

少しだけ専門用語が出てきて難しく感じるかもしれませんが、SSMLの使い方を知ることで音読さんをより便利に活用できるようになりますよ。

わかりやすく解説するので、ぜひご覧ください。

SSMLとは

SSMLは音声マークアップ言語のひとつです。

「マークアップ言語」とは、HTMLと同じように、テキストの部分ごとに構造（役割）を定義する言語のこと。

SSMLコードを書くことで、音読さんの発声をより便利にコントロールすることができます。

現在、すべての言語でサポートしているSSMLコードは

<speak></speak>

<break time="○○ms"/>

の2種類のコードのみです。その他のコードは言語や音声の種類によって使用できません。予めご了承ください。

音読さんでSSMLを使う方法

音読さんでSSMLを使うのはとても簡単です。

音読さんのテキストボックスに直接SSMLのコードを入力してください。

すると自動的にSSMLが適応されます。

文章の初めと終わりに

<speak></speak>

を挿入するだけでSSMLを使うことができます。

このコードを入れ忘れないようにしてくださいね！<speak>のコードが入っていないと、SSMLは適応されません。

<speak></speak>

<speak>はSSMLを有効にするために必要なコードです。

読み上げたいテキストの最初と終わりに必ずこのコードを入れてください。

例

<speak>ここに読み上げたいテキストを入れてください</speak>

<break time="○○ms"/>

ブレイクタイムのコードは、その名の通り、間合いを作るためのコードです。

間合いを入れたいところにコードを入力し、○○の部分を好みの数字に入れ替えてください。

音読さんで普通に読み上げたとき、思った通りの感覚で空白が入らないことがあります。

そんなときに役立つのがこのコードです。

たとえば、

<break time="1000ms"/>

というコードを間を入れたいところにいれてみましょう。

<speak>
この文章を読み上げる時に少しま<break time="1000ms"/>を開けたい
</speak>

すると、コードを挿入した位置で一息ついてから続きを読み上げるのがわかりますね。

※ 1000ms=1秒

ms　もしくは　s　の前にある数字を変えることで、”間”の長さは自由自在になります。

200ms = 0.200秒
500ms = 0.500秒
1000ms = 1.000秒
2000ms = 2.000秒
3s = 3秒
10s = 10秒　など

※文章全体の先頭に<break time="○○ms"/>タグを挿入したときの動作は音声により仕様が異なり、動作は保証できません。

例：<speak><break time="5s"/>冒頭に5秒の間合いを作りたい</speak>

↑このような使い方は仕様上、できません。

<say-as interpret-as="expletive">○○</say-as>

○○の部分の文章を「ピー」っと放送禁止音で再生します。

ちょっとした遊び心のあるコードですね。このコードで囲っている部分の文字はピーという音に置き換わります。

<speak>
この言葉は<say-as interpret-as="expletive">放送禁止</say-as>です
</speak>

<say-as interpret-as="characters">○○</say-as>

アルファベットを読み上げる時に文字ごとにスペルアウト（スペルで読み上げ）されます。

<speak>
The spelling of hello is<say-as interpret-as="characters">Hello</say-as>
</speak>

ただし、このSSMLがエラーになってしまう音声もあります。ご了承の上でご利用ください。

日本語：ななみ

英語（USA）：en-US-A

<sub alias="◇◇">○○</sub>

よみがなを振ることができるコードです。

音声読み上げでは、ときどき、思わぬ読み上げをすることがあります。

例えば”一行”を「いちゆき」と発音してしまった場合、「いちぎょう」とよみがなをふることで間違いなく発音できるようになります。

コードには○○に漢字、◇◇によみがなを入力してください。

<speak>
一行ではなく<sub alias="いちぎょう">一行</sub>と正しく読む
</speak>

<emphasis>○○</emphasis>

コードで囲んだ文字を強調して読み上げをさせることができます。

<speak>
このコードは<emphasis>強調</emphasis>させることができます
</speak>

<prosody>○○</prosody>

プロソディ(prosody・韻律)とは、自然な英語を話す際の

音の上げ下げ
区切る位置
長さや強弱　など、

言語の音の特徴を表す総称です。

このコードで調整することができるのは

rate（レート、早さ）
調整コード：「x-slow」「slow」「medium」「fast」「x-fast」「default」
pitch（ピッチ、高さ）
調整コード：「x-low」「low」「medium」「high」「x-high」「default」
volume（ボリューム、大きさ）
調整コード：「silent」「x-soft」「soft」「medium」「loud」「x-loud」「default」

の3種類を調整することができます。

<speak>
<prosody rate="fast">早口で話します。</prosody>
<prosody pitch="high">高い声で話します。</prosody>
<prosody volume="loud">大声で話します。</prosody>
<prosody rate="slow" pitch="x-low">遅く、低い声で話します。</prosody>
<prosody rate="fast" pitch="high" volume="medium">早く、高い声で、普通の大きさで話します。</prosody>
</speak>