pdf-icon

StackFlow AI プラットフォーム

アプリケーション

CVビジョンアプリケーション

VLMマルチモーダル

大規模言語モデル (LLM)

音声アシスタント

テキスト音声変換 (TTS)

API インターフェースを介して、入力されたテキストを音声ファイルに変換して出力します。

準備

サンプルプログラムを実行する前に、デバイスに対応するモデルパッケージをインストールする必要があります。モデルパッケージのインストール手順については、モデルリストのセクションを参照してください。モデルの詳細については、モデル紹介のセクションを参照してください。

ヒント
AI Pyramid には、独自の音声クローン機能を備えたテキスト読み上げ機能があります。CosyVoice のセクションを参照してください。

本サンプルプログラムを実行する前に、LLM デバイス上で以下の準備が完了していることを確認してください:

  1. apt パッケージ管理ツールを使用して llm-model-melotts-en-us モデルパッケージをインストールします。
apt install llm-model-melotts-en-us
  1. ffmpeg ツールをインストールします。
apt install ffmpeg
  1. インストール完了後、OpenAI サービスを再起動して新しいモデルを有効にします。
systemctl restart llm-openai-api

サンプルプログラム

PC 側から OpenAI API を介してテキスト情報を送信し、テキスト読み上げ機能を実現します。プログラムを実行する前に、以下の base_url の IP 部分をデバイスの実際の IP アドレスに変更してください。

from pathlib import Path
from openai import OpenAI

client = OpenAI(
    api_key="sk-",
    base_url="http://192.168.20.186:8000/v1"
)

speech_file_path = Path(__file__).parent / "speech.mp3"
with client.audio.speech.with_streaming_response.create(
  model="melotts-en-us",
  voice="alloy",
  input="The quick brown fox jumped over the lazy dog."
) as response:
  response.stream_to_file(speech_file_path)

リクエストパラメータ

パラメータ名 必須 説明
input string はい "こんにちは、システムへようこそ" 音声を生成するテキスト内容。最大長は 1024 文字です。
model string はい melotts-zh-cn 利用可能な TTS モデル。melotts-ja-jpmelotts-zh-cnmelotts-en-us などが含まれます。
voice - いいえ - MeloTTS モデルは音声スタイルの選択をサポートしていません。
response_format string いいえ mp3 音声出力形式。mp3opusaacflacwavpcm などをサポートしています。
speed number いいえ 1.0 生成される音声の速度。範囲は 0.25 ~ 2.0 で、デフォルト値は 1.0 です。

レスポンス例

  • 音声ファイルデータは、サンプルプログラム内の speech_file_path パスに保存されます。
On This Page