pdf-icon

Product Guide

Industrial Control

Real-Time AI Voice Assistant

Offline Voice Recognition

Thread

Module Gateway H2

IoT Measuring Instruments

IoT Cloud

Ethernet Camera

LoRa & LoRaWAN

ディップスイッチ使用ガイド

Module ExtPort For Core2

テキストから音声への変換

APIインターフェースを介して入力テキストを音声ファイルに変換します。

準備作業

サンプルプログラムを実行する前に、デバイスに対応するモデルパッケージをインストールする必要があります。モデルパッケージのインストール手順はモデルリスト章をご参照ください。

本サンプルプログラムを実行する前に、LLMデバイス上で以下の準備を完了していることを確認してください:

  1. aptパッケージ管理ツールを使用して llm-model-melotts-en-us モデルパッケージをインストールします。
apt install llm-model-melotts-en-us
  1. ffmpeg ツールをインストールします。
apt install ffmpeg
  1. インストール完了後、新しいモデルを有効にするために OpenAI サービスを再起動します。
systemctl restart llm-openai-api

サンプルプログラム

PC側で OpenAI API を使用してテキストを渡し、テキストから音声を生成する機能を実装します。サンプルプログラムを実行する前に、下記 base_url の IP 部分をデバイスの実際の IP アドレスに変更してください。

from pathlib import Path
from openai import OpenAI

client = OpenAI(
    api_key="sk-",
    base_url="http://192.168.20.186:8000/v1"
)

speech_file_path = Path(__file__).parent / "speech.mp3"
with client.audio.speech.with_streaming_response.create(
  model="melotts-en-us",
  voice="alloy",
  input="The quick brown fox jumped over the lazy dog."
) as response:
  response.stream_to_file(speech_file_path)

リクエストパラメータ

パラメータ名 必須 説明
input string yes "Hello, welcome to the system" 音声を生成するテキスト内容。最大長は1024文字です。
model string yes melotts-zh-cn 利用可能なTTSモデル。melotts-zh-cnおよびmelotts-en-usを含みます。
voice no 音声スタイル選択(現在未対応)
response_format string no mp3 音声出力フォーマット。mp3, opus, aac, flac, wav, pcmなどをサポートします。
speed number no 1.0 音声生成速度。範囲は0.25~2.0、デフォルトは1.0です。

レスポンス例

  • 音声ファイルデータはサンプルプログラム内の speech_file_path に保存されます。
On This Page