テキスト音声変換 (TTS)

API インターフェースを介して、入力されたテキストを音声ファイルに変換して出力します。

準備

サンプルプログラムを実行する前に、デバイスに対応するモデルパッケージをインストールする必要があります。モデルパッケージのインストール手順については、モデルリストのセクションを参照してください。モデルの詳細については、モデル紹介のセクションを参照してください。

ヒント

AI Pyramid には、独自の音声クローン機能を備えたテキスト読み上げ機能があります。CosyVoice のセクションを参照してください。

本サンプルプログラムを実行する前に、LLM デバイス上で以下の準備が完了していることを確認してください：

apt パッケージ管理ツールを使用して llm-model-melotts-en-us モデルパッケージをインストールします。

apt install llm-model-melotts-en-us

ffmpeg ツールをインストールします。

apt install ffmpeg

インストール完了後、OpenAI サービスを再起動して新しいモデルを有効にします。

systemctl restart llm-openai-api

サンプルプログラム

PC 側から OpenAI API を介してテキスト情報を送信し、テキスト読み上げ機能を実現します。プログラムを実行する前に、以下の base_url の IP 部分をデバイスの実際の IP アドレスに変更してください。

from pathlib import Path
from openai import OpenAI

client = OpenAI(
    api_key="sk-",
    base_url="http://192.168.20.186:8000/v1"
)

speech_file_path = Path(__file__).parent / "speech.mp3"
with client.audio.speech.with_streaming_response.create(
  model="melotts-en-us",
  voice="alloy",
  input="The quick brown fox jumped over the lazy dog."
) as response:
  response.stream_to_file(speech_file_path) 

リクエストパラメータ

パラメータ名	型	必須	例	説明
input	string	はい	"こんにちは、システムへようこそ"	音声を生成するテキスト内容。最大長は 1024 文字です。
model	string	はい	melotts-zh-cn	利用可能な TTS モデル。`melotts-ja-jp`、`melotts-zh-cn`、`melotts-en-us` などが含まれます。
voice	-	いいえ	-	MeloTTS モデルは音声スタイルの選択をサポートしていません。
response_format	string	いいえ	mp3	音声出力形式。`mp3`、`opus`、`aac`、`flac`、`wav`、`pcm` などをサポートしています。
speed	number	いいえ	1.0	生成される音声の速度。範囲は 0.25 ～ 2.0 で、デフォルト値は 1.0 です。

レスポンス例

音声ファイルデータは、サンプルプログラム内の speech_file_path パスに保存されます。

Next 概要

Page Tools

PDF

デバイスとクイックスタート

AI Pyramid

Module LLM

LLM630 Compute Kit

モデルの紹介

Qwen2.5

Qwen3

DeepSeek-R1

SmolVLM

MeloTTS

Whisper

Llama

AI Pyramid Applications

アプリケーション

Audio

CVビジョンアプリケーション

VLMマルチモーダル

大規模言語モデル (LLM)

音声アシスタント

OpenAI API

テキスト音声変換 (TTS)

準備

サンプルプログラム

リクエストパラメータ

レスポンス例

On This Page