紹介
Qwen2.5-0.5B-Instruct は、Qwen2.5 シリーズに属する指示調整済み言語モデルで、パラメータ数は約 5 億です。本モデルの主な特徴は以下のとおりです。
- モデルタイプ:因果言語モデル(Causal Language Model)
- 学習フェーズ:事前学習および事後学習
- アーキテクチャ:Transformer(RoPE、SwiGLU、RMSNorm、Attention QKV バイアスおよび語彙埋め込みの共有を採用)
- パラメータ数:4.9 億(非埋め込みパラメータ 3.6 億)
- レイヤー数:24 層
- アテンションヘッド数(GQA):クエリヘッド 14、キー・バリューヘッド 2
- コンテキスト長:最大 32,768 token、生成上限 8,192 token
本モデルは、指示理解、長文生成、構造化データ理解において大幅な向上を実現しており、英語・中国語・フランス語など 29 言語に対応する多言語性能を備えています。
利用可能な NPU モデル
基本モデル
qwen2.5-0.5B-prefill-20e
- 128 長のコンテキストウィンドウをサポート
- 最大出力 1024 token
- 対応プラットフォーム:LLM630 コンピューティングキット、Module LLM、Module LLM キット
- ttft(初回トークン生成時間):359.8ms
- 平均生成速度:10.32 token/s
インストール
apt install llm-model-qwen2.5-0.5b-prefill-20e
長コンテキストモデル
qwen2.5-0.5B-p256-ax630c
- 基本モデルと比較して、より長いコンテキストウィンドウをサポート
- 256 長のコンテキストウィンドウ
- 最大出力 1024 token
- 対応プラットフォーム:LLM630 コンピューティングキット、Module LLM、Module LLM キット
- ttft:1126.19ms
- 平均生成速度:10.30 token/s
インストール
apt install llm-model-qwen2.5-0.5b-p256-ax630c
INT4 量子化モデル
qwen2.5-0.5B-Int4-ax630c
- 基本モデルと比較して推論速度が高速
- 128 長のコンテキストウィンドウをサポート
- 最大出力 1024 token
- 対応プラットフォーム:LLM630 コンピューティングキット、Module LLM、Module LLM キット
- ttft:442.95ms
- 平均生成速度:12.52 token/s
インストール
apt install llm-model-qwen2.5-0.5b-int4-ax630c
qwen2.5-0.5b-int4-ax650
- 基本モデルと比較して推論速度が高速
- 128 長のコンテキストウィンドウをサポート
- 最大出力 1024 token
- 対応プラットフォーム:AI Pyramid
- ttft:140.17ms
- 平均生成速度:37.11 token/s
インストール
apt install llm-model-qwen2.5-0.5b-int4-ax650