テキストから音声への変換

APIインターフェースを介して入力テキストを音声ファイルに変換します。

準備作業

サンプルプログラムを実行する前に、デバイスに対応するモデルパッケージをインストールする必要があります。モデルパッケージのインストール手順はモデルリスト章をご参照ください。

本サンプルプログラムを実行する前に、LLMデバイス上で以下の準備を完了していることを確認してください：

aptパッケージ管理ツールを使用して llm-model-melotts-en-us モデルパッケージをインストールします。

apt install llm-model-melotts-en-us

ffmpeg ツールをインストールします。

apt install ffmpeg

インストール完了後、新しいモデルを有効にするために OpenAI サービスを再起動します。

systemctl restart llm-openai-api

サンプルプログラム

PC側で OpenAI API を使用してテキストを渡し、テキストから音声を生成する機能を実装します。サンプルプログラムを実行する前に、下記 base_url の IP 部分をデバイスの実際の IP アドレスに変更してください。

from pathlib import Path
from openai import OpenAI

client = OpenAI(
    api_key="sk-",
    base_url="http://192.168.20.186:8000/v1"
)

speech_file_path = Path(__file__).parent / "speech.mp3"
with client.audio.speech.with_streaming_response.create(
  model="melotts-en-us",
  voice="alloy",
  input="The quick brown fox jumped over the lazy dog."
) as response:
  response.stream_to_file(speech_file_path) 

リクエストパラメータ

パラメータ名	型	必須	例	説明
input	string	yes	"Hello, welcome to the system"	音声を生成するテキスト内容。最大長は1024文字です。
model	string	yes	melotts-zh-cn	利用可能なTTSモデル。`melotts-zh-cn`および`melotts-en-us`を含みます。
voice	–	no	–	音声スタイル選択（現在未対応）
response_format	string	no	mp3	音声出力フォーマット。`mp3`, `opus`, `aac`, `flac`, `wav`, `pcm`などをサポートします。
speed	number	no	1.0	音声生成速度。範囲は0.25～2.0、デフォルトは1.0です。

レスポンス例

音声ファイルデータはサンプルプログラム内の speech_file_path に保存されます。

Next Overview

Page Tools

PDF

Linux PC

CardputerZero

CM4Stack

CoreMP135

AI アクセラレーターカード

LLM-8850 カード

クイックスタート

ビジョンモデル

大規模言語モデル

マルチモーダルモデル

音声モデル

生成モデル

アプリケーション一覧

高度な使用方法

AI & Agent

Chat Coding

リアルタイム音声アシスタント

OpenAI ボイスアシスタント

XiaoZhi ボイスアシスタント

XiaoLing ボイスアシスタント

AtomS3R-M12 Volcengine Kit

オフライン音声認識

Unit ASR

Module ASR

Industrial Control

StamPLC

IoT Measuring Instruments

Air Quality

PowerHub

Module13.2 PPS

VAMeter

T-Lite

入出力デバイス

HID入力デバイス

オーディオ再生デバイス

ディスプレイデバイス

PaperColor

StopWatch

Ezdata

Ethernet Camera

PoECAM

Wi-Fi Camera

TimerCAM

Unit CamS3/-5MP

AI Camera

UnitV2

M5StickV/UnitV