API インターフェースを介して、入力された音声をテキストに変換して出力します。
サンプルプログラムを実行する前に、デバイスに対応するモデルパッケージをインストールする必要があります。モデルパッケージのインストール手順については、モデルリストのセクションを参照してください。モデルの詳細については、モデル紹介のセクションを参照してください。
本サンプルプログラムを実行する前に、LLM デバイス上で以下の準備が完了していることを確認してください:
apt install llm-model-sense-voice-small-10s-ax650 ffmpeg ツールをインストールします。apt install ffmpeg systemctl restart llm-openai-api PC 側から OpenAI API を介してオーディオファイルを送信し、文字起こし機能を実現します。プログラムを実行する前に、以下の base_url の IP 部分をデバイスの実際の IP アドレスに変更してください。
from openai import OpenAI
client = OpenAI(
api_key="sk-",
base_url="http://192.168.20.186:8000/v1"
)
audio_file = open("speech.mp3", "rb")
transcript = client.audio.transcriptions.create(
model="sense-voice-small-10s-ax650",
file=audio_file
)
print(transcript) | パラメータ名 | 型 | 必須 | 例 | 説明 |
|---|---|---|---|---|
| file | file | はい | - | 文字起こしする音声ファイルオブジェクト(ファイル名ではありません)。サポートされている形式:flac, mp3, mp4, mpeg, mpga, m4a, ogg, wav, webm |
| model | string | はい | sense-voice-small-10s-ax650 | SenseVoice モデルは、中国語、英語、日本語、広東語、韓国語などの多言語自動認識をサポートしています。 |
| language | string | いいえ | - | モデル内部で言語を自動認識します。 |
| response_format | string | いいえ | json | レスポンス形式。現在は json のみをサポートしており、デフォルト値は json です。 |
Transcription(text=' Thank you. Thank you everybody. All right everybody go ahead and have a seat. How\'s everybody doing today? .....',
logprobs=None, task='transcribe', language='en', duration=334.234, segments=12, sample_rate=16000, channels=1, bit_depth=16)