pdf-icon

StackFlow AI プラットフォーム

アプリケーション

CVビジョンアプリケーション

VLMマルチモーダル

大規模言語モデル (LLM)

音声アシスタント

Qwen2.5-0.5B-Instruct

紹介

Qwen2.5-0.5B-Instruct は、Qwen2.5 シリーズに属する指示調整済み言語モデルで、パラメータ数は約 5 億です。本モデルの主な特徴は以下のとおりです。

  • モデルタイプ:因果言語モデル(Causal Language Model)
  • 学習フェーズ:事前学習および事後学習
  • アーキテクチャ:Transformer(RoPE、SwiGLU、RMSNorm、Attention QKV バイアスおよび語彙埋め込みの共有を採用)
  • パラメータ数:4.9 億(非埋め込みパラメータ 3.6 億)
  • レイヤー数:24 層
  • アテンションヘッド数(GQA):クエリヘッド 14、キー・バリューヘッド 2
  • コンテキスト長:最大 32,768 token、生成上限 8,192 token

本モデルは、指示理解、長文生成、構造化データ理解において大幅な向上を実現しており、英語・中国語・フランス語など 29 言語に対応する多言語性能を備えています。

利用可能な NPU モデル

基本モデル

qwen2.5-0.5B-prefill-20e

  • 128 長のコンテキストウィンドウをサポート
  • 最大出力 1024 token
  • 対応プラットフォーム:LLM630 コンピューティングキット、Module LLM、Module LLM キット
  • ttft(初回トークン生成時間):359.8ms
  • 平均生成速度:10.32 token/s

インストール

apt install llm-model-qwen2.5-0.5b-prefill-20e

長コンテキストモデル

qwen2.5-0.5B-p256-ax630c

  • 基本モデルと比較して、より長いコンテキストウィンドウをサポート
  • 256 長のコンテキストウィンドウ
  • 最大出力 1024 token
  • 対応プラットフォーム:LLM630 コンピューティングキット、Module LLM、Module LLM キット
  • ttft:1126.19ms
  • 平均生成速度:10.30 token/s

インストール

apt install llm-model-qwen2.5-0.5b-p256-ax630c

INT4 量子化モデル

qwen2.5-0.5B-Int4-ax630c

  • 基本モデルと比較して推論速度が高速
  • 128 長のコンテキストウィンドウをサポート
  • 最大出力 1024 token
  • 対応プラットフォーム:LLM630 コンピューティングキット、Module LLM、Module LLM キット
  • ttft:442.95ms
  • 平均生成速度:12.52 token/s

インストール

apt install llm-model-qwen2.5-0.5b-int4-ax630c

qwen2.5-0.5b-int4-ax650

  • 基本モデルと比較して推論速度が高速
  • 128 長のコンテキストウィンドウをサポート
  • 最大出力 1024 token
  • 対応プラットフォーム:AI Pyramid
  • ttft:140.17ms
  • 平均生成速度:37.11 token/s

インストール

apt install llm-model-qwen2.5-0.5b-int4-ax650
On This Page