Product Guide
APIインターフェースを介して入力テキストを音声ファイルに変換します。
サンプルプログラムを実行する前に、デバイスに対応するモデルパッケージをインストールする必要があります。モデルパッケージのインストール手順はモデルリスト章をご参照ください。
本サンプルプログラムを実行する前に、LLMデバイス上で以下の準備を完了していることを確認してください:
llm-model-melotts-en-us
モデルパッケージをインストールします。apt install llm-model-melotts-en-us
ffmpeg
ツールをインストールします。apt install ffmpeg
systemctl restart llm-openai-api
PC側で OpenAI API を使用してテキストを渡し、テキストから音声を生成する機能を実装します。サンプルプログラムを実行する前に、下記 base_url
の IP 部分をデバイスの実際の IP アドレスに変更してください。
from pathlib import Path
from openai import OpenAI
client = OpenAI(
api_key="sk-",
base_url="http://192.168.20.186:8000/v1"
)
speech_file_path = Path(__file__).parent / "speech.mp3"
with client.audio.speech.with_streaming_response.create(
model="melotts-en-us",
voice="alloy",
input="The quick brown fox jumped over the lazy dog."
) as response:
response.stream_to_file(speech_file_path)
パラメータ名 | 型 | 必須 | 例 | 説明 |
---|---|---|---|---|
input | string | yes | "Hello, welcome to the system" | 音声を生成するテキスト内容。最大長は1024文字です。 |
model | string | yes | melotts-zh-cn | 利用可能なTTSモデル。melotts-zh-cn およびmelotts-en-us を含みます。 |
voice | – | no | – | 音声スタイル選択(現在未対応) |
response_format | string | no | mp3 | 音声出力フォーマット。mp3 , opus , aac , flac , wav , pcm などをサポートします。 |
speed | number | no | 1.0 | 音声生成速度。範囲は0.25~2.0、デフォルトは1.0です。 |
speech_file_path
に保存されます。