紹介
Qwen2.5-1.5B-Instruct は、Qwen2.5 シリーズに属する命令調整済み言語モデルで、パラメータ数は約 15.4 億です。本モデルの主な特徴は以下のとおりです。
- モデルタイプ:因果言語モデル(Causal Language Model)
- 学習段階:事前学習および事後学習
- アーキテクチャ:Transformer(RoPE、SwiGLU、RMSNorm、Attention QKV バイアスおよび結合語彙埋め込みを採用)
- パラメータ数:15.4 億(非埋め込みパラメータ 13.1 億)
- レイヤー数:28 層
- アテンションヘッド数(GQA):クエリヘッド 12、キー・バリューヘッド 2
- コンテキスト長:最大 32,768 token をフルサポート、生成上限 8,192 token
本モデルは、指示理解、長文生成、構造化データ理解の分野で大きく向上しており、英語、中国語、フランス語などを含む 29 言語の多言語能力をサポートします。
利用可能な NPU モデル
基本モデル
qwen2.5-1.5B-ax630c
- 128 長コンテキストウィンドウをサポート
- 最大出力 1024 token
- 対応プラットフォーム:LLM630 コンピューティングキット、Module LLM、Module LLM キット
- ttft(初回トークン生成時間):1029.41ms
- 平均生成速度:3.59 token/s
インストール
apt install llm-model-qwen2.5-1.5b-ax630c
長コンテキストモデル
qwen2.5-1.5B-p256-ax630c
- 基本モデルと比較して、より長いコンテキストウィンドウをサポート
- 256 長コンテキストウィンドウ
- 最大出力 1024 token
- 対応プラットフォーム:LLM630 コンピューティングキット、Module LLM、Module LLM キット
- ttft:3056.54ms
- 平均生成速度:3.57 token/s
インストール
apt install llm-model-qwen2.5-1.5b-p256-ax630c
INT4 量子化モデル
qwen2.5-1.5B-Int4-ax630c
- 基本モデルと比較して推論速度が高速
- 128 長コンテキストウィンドウをサポート
- 最大出力 1024 token
- 対応プラットフォーム:LLM630 コンピューティングキット、Module LLM、Module LLM キット
- ttft:1219.54ms
- 平均生成速度:4.63 token/s
インストール
apt install llm-model-qwen2.5-1.5b-int4-ax630c
qwen2.5-1.5B-Int4-ax650
- 基本モデルと比較して推論速度が高速
- 128 長コンテキストウィンドウをサポート
- 最大出力 1024 token
- 対応プラットフォーム:AI Pyramid
- ttft:289.06ms
- 平均生成速度:16.77 token/s
インストール
apt install llm-model-qwen2.5-1.5b-int4-ax650