pdf-icon

StackFlow AI プラットフォーム

アプリケーション

CVビジョンアプリケーション

VLMマルチモーダル

大規模言語モデル (LLM)

音声アシスタント

音声テキスト変換 (STT)

API インターフェースを介して、入力された音声をテキストに変換して出力します。

準備

サンプルプログラムを実行する前に、デバイスに対応するモデルパッケージをインストールする必要があります。モデルパッケージのインストール手順については、モデルリストのセクションを参照してください。モデルの詳細については、モデル紹介のセクションを参照してください。

本サンプルプログラムを実行する前に、LLM デバイス上で以下の準備が完了していることを確認してください:

  1. apt パッケージ管理ツールを使用して SenseVoice モデルパッケージをインストールします。
apt install llm-model-sense-voice-small-10s-ax650
  1. ffmpeg ツールをインストールします。
apt install ffmpeg
  1. インストール完了後、OpenAI サービスを再起動して新しいモデルを有効にします。
systemctl restart llm-openai-api

サンプルプログラム

PC 側から OpenAI API を介してオーディオファイルを送信し、文字起こし機能を実現します。プログラムを実行する前に、以下の base_url の IP 部分をデバイスの実際の IP アドレスに変更してください。

from openai import OpenAI
client = OpenAI(
    api_key="sk-",
    base_url="http://192.168.20.186:8000/v1"
)

audio_file = open("speech.mp3", "rb")
transcript = client.audio.transcriptions.create(
  model="sense-voice-small-10s-ax650",
  file=audio_file
)

print(transcript)

リクエストパラメータ

パラメータ名 必須 説明
file file はい - 文字起こしする音声ファイルオブジェクト(ファイル名ではありません)。サポートされている形式:flac, mp3, mp4, mpeg, mpga, m4a, ogg, wav, webm
model string はい sense-voice-small-10s-ax650 SenseVoice モデルは、中国語、英語、日本語、広東語、韓国語などの多言語自動認識をサポートしています。
language string いいえ - モデル内部で言語を自動認識します。
response_format string いいえ json レスポンス形式。現在は json のみをサポートしており、デフォルト値は json です。

レスポンス例

Transcription(text=' Thank you. Thank you everybody. All right everybody go ahead and have a seat. How\'s everybody doing today? .....',
logprobs=None, task='transcribe', language='en', duration=334.234, segments=12, sample_rate=16000, channels=1, bit_depth=16)
On This Page