音声テキスト変換 (STT)

API インターフェースを介して、入力された音声をテキストに変換して出力します。

準備

サンプルプログラムを実行する前に、デバイスに対応するモデルパッケージをインストールする必要があります。モデルパッケージのインストール手順については、モデルリストのセクションを参照してください。モデルの詳細については、モデル紹介のセクションを参照してください。

本サンプルプログラムを実行する前に、LLM デバイス上で以下の準備が完了していることを確認してください：

apt パッケージ管理ツールを使用して SenseVoice モデルパッケージをインストールします。

apt install llm-model-sense-voice-small-10s-ax650

ffmpeg ツールをインストールします。

apt install ffmpeg

インストール完了後、OpenAI サービスを再起動して新しいモデルを有効にします。

systemctl restart llm-openai-api

サンプルプログラム

PC 側から OpenAI API を介してオーディオファイルを送信し、文字起こし機能を実現します。プログラムを実行する前に、以下の base_url の IP 部分をデバイスの実際の IP アドレスに変更してください。

from openai import OpenAI
client = OpenAI(
    api_key="sk-",
    base_url="http://192.168.20.186:8000/v1"
)

audio_file = open("speech.mp3", "rb")
transcript = client.audio.transcriptions.create(
  model="sense-voice-small-10s-ax650",
  file=audio_file
)

print(transcript) 

リクエストパラメータ

パラメータ名	型	必須	例	説明
file	file	はい	-	文字起こしする音声ファイルオブジェクト（ファイル名ではありません）。サポートされている形式：flac, mp3, mp4, mpeg, mpga, m4a, ogg, wav, webm
model	string	はい	sense-voice-small-10s-ax650	SenseVoice モデルは、中国語、英語、日本語、広東語、韓国語などの多言語自動認識をサポートしています。
language	string	いいえ	-	モデル内部で言語を自動認識します。
response_format	string	いいえ	json	レスポンス形式。現在は `json` のみをサポートしており、デフォルト値は `json` です。

レスポンス例

Transcription(text=' Thank you. Thank you everybody. All right everybody go ahead and have a seat. How\'s everybody doing today? .....',
logprobs=None, task='transcribe', language='en', duration=334.234, segments=12, sample_rate=16000, channels=1, bit_depth=16) 

Next 概要

デバイスとクイックスタート

AI Pyramid

Module LLM

LLM630 Compute Kit

モデルの紹介

Qwen2.5

Qwen3

DeepSeek-R1

SmolVLM

MeloTTS

Whisper

Llama

AI Pyramid Applications

アプリケーション

Audio

CVビジョンアプリケーション

VLMマルチモーダル

大規模言語モデル (LLM)

音声アシスタント

OpenAI API

音声テキスト変換 (STT)

準備

サンプルプログラム

リクエストパラメータ

レスポンス例

On This Page