SpeechGen.ioでのテキスト読み上げの使い方：完全ガイド

08-09-2025 , 16-09-2025

🚀 クイックスタート — 4ステップで音声を作成

ステップ1：言語を選択

言語のドロップダウンを開き、テキストの言語を選択してください。対応言語：150以上の言語（AI音声ライブラリ）。

ステップ2：音声を選択

言語を選択すると、音声のリストが表示されます。サンプルを聴いて、お気に入りを選んでください。

ステップ3：テキストを貼り付け

テキストボックスにテキストをコピーするか、ファイルをアップロードしてください（DOCX、PDF）。字幕を音声に変換するには、専用のSRTから音声へのページを使用してください。

ステップ4：「音声を生成」（青いボタン）をクリック

ステップ4：音声を生成をクリック

処理を待って、完成した音声ファイルをダウンロードしてください。

これで完了です！最初の音声はわずか数分で完成します。

テキストの準備

推奨：

不要な記号のないプレーンテキストを使用してください
句読点（ピリオド、カンマ、感嘆符）を正しく配置してください
長いテキストは段落に分けてください

避けるべきこと：

絵文字や顔文字（音声生成を妨げる可能性があります）
珍しい記号：✓、★、♦、►、♪、©、™、®、∞、•、◦、▪、▫
特殊なUnicode記号：

💡 ヒント：PDFファイルからコピーする場合、テキストに特に注意してください — 音声を損なう可能性のある目に見えない文字が現れることがあります！

制限事項

対応言語：150以上の言語（全リスト）。
アップロード形式：プレーンテキスト、DOCX、PDF、SRT。

1回の生成あたりの最大文字数：2,000,000文字（約285,000〜330,000語） — これは1回の生成で変換できる印象的な量のテキストであり、書籍全体や広範なドキュメントのような長文コンテンツに最適です。

詳細な手順

ステップ1：テキストのアップロード

テキストを貼り付け：テキストボックスにテキストをコピーしてください
ファイルをアップロード：または、アップロードボタンをクリックしてファイル（DOCX、PDF）を選択してください
テキストを確認：テキストが正しく表示されていることを確認してください

ステップ2：言語を選択

⚠️ 重要：まず、テキストの正しい言語を選択してください

言語のドロップダウンリストを開いてください
必要な言語を見つけてください（150以上の言語があります）
多言語テキストの場合は、多言語音声生成を使用してください

ステップ3：音声を選択

言語を選択すると、利用可能な音声のリストが開きます。各音声の再生ボタンをクリックしてサンプルを聴き、ニーズに最も合った音声を見つけてください。利用可能な音声の種類は異なります：通常音声は標準品質、PRO音声は品質と自然さを向上させ、多言語音声（Ava_US、Ava_ESなどの言語コード付き）は異なる言語間で音声の一貫性を保つことができます。トーン、感情、キャラクターが大きく異なるため、各音声をプレビューする時間を取ってください。

ステップ4：パラメータを設定

音声速度：x0.1（非常に遅い）からx2.2（非常に速い）
声のピッチ：-20から+20（ステップ2）

テキストボックスの下、生成ボタンの上に、ポーズ設定を調整できます。

ポーズ設定

文間のポーズ：150ms〜30秒
段落間のポーズ：150ms〜30秒

ステップ5：音声を生成

テキストボックスの下にある「音声を生成」ボタンをクリックして変換プロセスを開始します。処理時間はテキストの長さに依存します — 短いテキストは数秒で完了しますが、長いドキュメントは数分かかる場合があります。生成が完了すると、ブラウザで直接結果を聴くことができ、期待どおりであることを確認できます。

ステップ6：ダウンロード

生成が完了すると、「ダウンロード」ボタンが表示されます。デフォルトでは、ファイルをMP3としてダウンロードできます。ただし、別の形式（WAVまたはOPUS）が必要な場合や、音声品質（サンプルレート8000〜44000 Hz）を変更したい場合は、まずドロップダウンメニューからこれらのオプションを選択し、選択した設定で音声を再生成してから、希望の仕様でファイルをダウンロードする必要があります。

音声パラメータ設定

音声速度

速度スケール：

x0.1 - x0.9：スローダウン（複雑な素材、語学学習用）
x1.0：通常の速度（デフォルト）
x1.1 - x2.2：スピードアップ（ダイナミックなコンテンツ用）

このスケールについて：1未満の小数値は音声を遅くし、1より大きい値は速くします。これにより、聴衆に合わせて正確なテンポを選択できます。

速度の推奨：

教育：x0.8-x1.0（理解度を高めるため）
プレゼンテーション：x0.9-x1.1（公式なペース）
ポッドキャスト：x1.0-x1.2（活気のあるペース）
YouTube：x1.1-x1.4（注意維持）

声のピッチ

ピッチ範囲：-20から+20まで、ステップ2

ステップ2について：2単位のステップは、気づく程度の変化ですが、急激ではないピッチ変化を提供します。これより小さいステップは気づかれず、大きいステップはドラマチックすぎます。

ピッチの影響：

負の値（-2〜-20）：声を低く、より真剣で権威のあるものにします
正の値（+2〜+20）：声を高く、よりフレンドリーでエネルギッシュにします
0：中立のピッチ（デフォルト）

用途：

ビジネスコンテンツ：-4〜+2
子供向けコンテンツ：+4〜+12
ドラマコンテンツ：-8〜-16
フレンドリーなコンテンツ：+2〜+8

ポーズの操作

自動ポーズ

文間のポーズ：300ms（デフォルト）

段落間のポーズ：400ms（デフォルト）

これらの設定は、ドロップダウンメニューで150msから30秒まで変更できます。

手動ポーズの挿入

インターフェース経由：

テキスト内の目的の位置にカーソルを置きます
メニューの「ポーズ」ボタンをクリックします
テキストに .- という記号が表示されます

タグ経由：

目的の位置に <break time="200ms"/> または <break time="2s"/> タグを挿入します

ポーズのルール：

最大ポーズ：30秒
長い遅延のために複数のポーズを連続して配置できます
ポーズは追加の制限を消費しません

ポーズの使用時期：

重要な発言の前
修辞的な質問の後
異なるトピック間
ドラマチックな効果を作成するため

多言語音声

ダイアログ機能を使用すると、1つのテキストで異なる音声を使用できます。

用途：

オーディオブック：キャラクターごとに異なる音声
教育的な対話：教師と生徒
プレゼンテーション：メインスピーカーとコメンテーター
ポッドキャスト：複数のホスト

多言語ダイアログ機能は、キャラクターの声だけでなく、創造的な可能性を広げます。例えば、外国語教師は、この機能を使用して、語学学習のために同じフレーズを複数の速度でデモンストレーションし、学生が異なる理解レベルで発音を把握するのを助けることができます。詳細なテクニックと教室での応用については、外国語教育におけるテキスト読み上げの使用に関するガイドをご覧ください。

音声の選択

多言語音声

言語コード付きの音声（例：Ava_US、Ava_ES、Ava_DE）は、異なる言語間で一貫した音声認識を維持するように設計されています。これらの多言語音声を使用すると、多言語コンテンツに統一されたスタイルを作成でき、同じ音声キャラクターが複数の言語をシームレスに話すことができます。この機能は、ダイアログモードで特に役立ち、オーディオプロジェクト全体でキャラクターの一貫性を保ちながら言語を切り替えることができます。

音声セグメンテーション

SpeechGenでは、単一の合成プロジェクト内で生成された音声を複数のセグメントに分割できます。これは、異なるシーンや章ごとに個別の音声ファイルが必要なビデオ編集者に最適です。この機能は、YouTube動画、オンラインコース、または正確な音声同期が必要なプロジェクトのナレーション作成に特に役立ちます。

セグメントの作成方法

音声を分割するには、分割したい場所にカーソルを置き、メニューパネルのカットボタンをクリックするだけです。これにより、その位置に <cut/> タグが挿入されます。このタグを手動で入力またはコピー＆ペーストすることもできます。カスタムファイル名の場合は、次の形式を使用してください。

<cut name="your-filename"/>

この機能は、次のような意味のある名前でセグメントを整理するのに役立ちます。

<cut name="intro"/>

<cut name="chapter-1"/>

セグメントのダウンロードと管理

少なくとも1つのセグメントタグを追加すると、生成後に「セグメントをダウンロード」ボタンが表示されます。それをクリックするとすべてのセグメントが一度にダウンロードされます。または、オーディオプレーヤーの「その他」ボタンを使用して個々のセグメントにアクセスできます。各ファイルは、一意のID、シーケンス番号、および説明的なタイトル（例：「7054789_1_first-sentence」）で自動的に名前が付けられ、編集ソフトウェアで音声ファイルを簡単に識別および整理できます。

セグメントの制限

短いセグメント：生成ごとに最大1000セグメント
長いセグメント：生成ごとに最大500セグメント

より大きなプロジェクトの場合は、複数の生成に分割してください。包括的な手順、高度なテクニック、およびビデオチュートリアルについては、完全な音声セグメンテーションドキュメントをご覧ください。

イントネーション設定

一部の音声にはイントネーショングラフがあります。

イントネーショングラフは、音声名の横に設定アイコンが表示される音声で利用可能です — この機能は、通常音声とPROオプションの両方を含む、ライブラリの半数以上の音声で見つけることができます。

グラフ上の点をドラッグしてイントネーションを変更します
特定の単語のピッチを上げるには点を上げます
より真剣なトーンを作成するには点を下げます
自然さのために異なる曲線で実験します

グラフ上の点をドラッグしてイントネーションを変更します

イントネーションを調整したい文を選択し、イントネーションボタンを押します。このインターフェースが表示されます。

キャッシュシステムと制限の節約

スマートキャッシュ

SpeechGen.は、制限を大幅に節約するインテリジェントキャッシュシステムを使用しています。このシステムは、各文（最大100,000文字）を7日間キャッシュに保存することで機能します。音声を再生成すると、変更されていない文は自動的にキャッシュから無料で取得されます — 新しい文または編集された文に対してのみ支払われます。これは、文字数制限を毎回消費することなく、テキストを段階的に編集できることを意味します。プロジェクト履歴は30日間保存され、お気に入りにファイルを追加すると永続的に保持されます。

保存期間：

文キャッシュ：7日間
プロジェクト履歴：30日間
お気に入りファイル：永続的に保存

一般的な問題のトラブルシューティング

音声品質の問題

音声が不自然に聞こえる：

PRO音声をお試しください
速度をx0.9〜x1.1に減らしてください
句読点の正確性を確認してください
中立のピッチ（0）を使用してください

発音が間違っている：

正しい言語が選択されていることを確認してください
複雑な単語は発音通りに書いてください
SSMLタグを使用して正確に制御してください

不自然なポーズ：

句読点を確認してください
文間のポーズを設定してください
手動ポーズ .- または <break time=""/> を使用してください
余分なスペースと改行を削除してください

SSMLエラー：

タグの正確性を確認してください
すべての音声がすべてのSSMLタグをサポートしているわけではありません

追加機能

SSML（Speech Synthesis Markup Language）

専門的な音声制御には、SSMLタグを使用してください：

<break time="2s"/> — ポーズ
<emphasis level="strong"> — 音声強調
<prosody rate="slow" pitch="low"> — 音声特性の変更

⚠️ 注意：音声によってサポートされるSSMLタグのセットが異なります。各音声の機能を確認してください。

履歴とお気に入り

プロジェクト履歴：30日間自動保存
お気に入り：重要なプロジェクトをお気に入りに追加して永続的に保存

統合とAPI

APIは開発者向けに提供されており、SpeechGen.ioを独自のアプリケーションやサービスに統合できます。

SpeechGenにファイルをアップロードできません。どうすればよいですか？

まず、ファイルがサポートされている形式（DOCX、PDF、またはTXT）であることを確認してください。ファイルが破損していないことを確認し、再度アップロードしてみてください。問題が解決しない場合は、テキストを手動でコピーしてテキストボックスに直接貼り付けてください。また、ファイルサイズがプラットフォームの制限を超えていないことを確認してください。

SpeechGenは生成された音声ファイルをどのくらいの期間保持しますか？

プロジェクト履歴は30日間自動的に保存されます。スマートキャッシュ（文単位の保存用）は7日間有効です。ファイルを永久に保持するには、お気に入りに त्यांना追加してください。これにより、重要な音声プロジェクトが失われることなく、プロフィールでアクセス可能になります。

1つの音声ファイルで異なるキャラクターに異なる音声を使用できますか？

はい！SpeechGenは多言語音声生成（ダイアログモード）を提供しています。異なるテキストセクションに異なる音声を割り当てることができ、複数のキャラクターが登場するオーディオブック、教育的な対話、または複数のスピーカーが登場するポッドキャストに最適です。多言語音声を使用して、キャラクターの一貫性を保ちながら言語を切り替えることもできます。

SpeechGenの通常音声とPRO音声の違いは何ですか？

PRO音声は、通常音声と比較して優れた品質と自然さを提供します。通常、感情表現が優れており、発音も正確で、イントネーショングラフなどの高度な機能をサポートするものもあります。オーディオブック、コース、ビジネスプレゼンテーションなどのプロフェッショナルなプロジェクトには、PRO音声をお勧めします。

音声設定を変更すると、文字数制限が消費されますか？

どの設定を変更するかによります。音声速度やピッチの調整は完全な再生成が必要であり、これらの変更は音声合成全体に影響するため、文字数制限が消費されます。ただし、文間および段落間のポーズは、制限を消費することなく自由に調整できます。さらに、SpeechGenはスマートキャッシュを使用しています。大きなテキストを生成した後、1つの文だけを編集して再生成すると、システムは変更されたその1つの文に対してのみ課金し、テキスト全体に対しては課金しません。このキャッシュシステムは、変更されていない文を7日間保存するため、反復的な編集は非常に経済的です。

動画

まだ質問がありますか？

コミュニティからヘルプを得ましょう！Telegramチャットで質問してください：https://t.me/speechgen