紹介
Qwen2.5-3B-Instruct は、Qwen2.5 シリーズに属する指示チューニング済み言語モデルで、パラメータ数は約 30.9 億です。本モデルの主な特徴は以下のとおりです。
- モデルタイプ:因果言語モデル(Causal Language Model)
- 学習フェーズ:事前学習および事後学習
- アーキテクチャ:Transformer(RoPE、SwiGLU、RMSNorm、Attention QKV バイアスおよび重み共有埋め込みを採用)
- パラメータ数:30.9 億(埋め込み以外のパラメータ 27.7 億)
- レイヤー数:36 層
- アテンションヘッド数(GQA):クエリヘッド 16、キー・バリューヘッド 2
- コンテキスト長:最大 32,768 トークンを完全サポート、生成上限 8,192 トークン
本モデルは、指示理解、長文生成、構造化データ理解の面で大きな向上を実現しており、英語、中国語、フランス語など 29 言語の多言語対応をサポートしています。
利用可能な NPU モデル
INT4 量子化モデル
qwen2.5-3B-Int4-ax650
- ベースモデルと比較して推論速度が向上
- 128 長のコンテキストウィンドウをサポート
- 最大出力 1024 トークン
- 対応プラットフォーム:AI Pyramid Pro のみ対応
- ttft:550.30ms
- 平均生成速度:9.46 token/s
インストール
apt install llm-model-qwen2.5-3b-int4-ax650