API インターフェースを介して、入力されたテキストを音声ファイルに変換して出力します。
サンプルプログラムを実行する前に、デバイスに対応するモデルパッケージをインストールする必要があります。モデルパッケージのインストール手順については、モデルリストのセクションを参照してください。モデルの詳細については、モデル紹介のセクションを参照してください。
本サンプルプログラムを実行する前に、LLM デバイス上で以下の準備が完了していることを確認してください:
llm-model-melotts-en-us モデルパッケージをインストールします。apt install llm-model-melotts-en-us ffmpeg ツールをインストールします。apt install ffmpeg systemctl restart llm-openai-api PC 側から OpenAI API を介してテキスト情報を送信し、テキスト読み上げ機能を実現します。プログラムを実行する前に、以下の base_url の IP 部分をデバイスの実際の IP アドレスに変更してください。
from pathlib import Path
from openai import OpenAI
client = OpenAI(
api_key="sk-",
base_url="http://192.168.20.186:8000/v1"
)
speech_file_path = Path(__file__).parent / "speech.mp3"
with client.audio.speech.with_streaming_response.create(
model="melotts-en-us",
voice="alloy",
input="The quick brown fox jumped over the lazy dog."
) as response:
response.stream_to_file(speech_file_path) | パラメータ名 | 型 | 必須 | 例 | 説明 |
|---|---|---|---|---|
| input | string | はい | "こんにちは、システムへようこそ" | 音声を生成するテキスト内容。最大長は 1024 文字です。 |
| model | string | はい | melotts-zh-cn | 利用可能な TTS モデル。melotts-ja-jp、melotts-zh-cn、melotts-en-us などが含まれます。 |
| voice | - | いいえ | - | MeloTTS モデルは音声スタイルの選択をサポートしていません。 |
| response_format | string | いいえ | mp3 | 音声出力形式。mp3、opus、aac、flac、wav、pcm などをサポートしています。 |
| speed | number | いいえ | 1.0 | 生成される音声の速度。範囲は 0.25 ~ 2.0 で、デフォルト値は 1.0 です。 |
speech_file_path パスに保存されます。