Qwen2.5-0.5B-Instruct

紹介

Qwen2.5-0.5B-Instruct は、Qwen2.5 シリーズに属する指示調整済み言語モデルで、パラメータ数は約 5 億です。本モデルの主な特徴は以下のとおりです。

モデルタイプ：因果言語モデル（Causal Language Model）
学習フェーズ：事前学習および事後学習
アーキテクチャ：Transformer（RoPE、SwiGLU、RMSNorm、Attention QKV バイアスおよび語彙埋め込みの共有を採用）
パラメータ数：4.9 億（非埋め込みパラメータ 3.6 億）
レイヤー数：24 層
アテンションヘッド数（GQA）：クエリヘッド 14、キー・バリューヘッド 2
コンテキスト長：最大 32,768 token、生成上限 8,192 token

本モデルは、指示理解、長文生成、構造化データ理解において大幅な向上を実現しており、英語・中国語・フランス語など 29 言語に対応する多言語性能を備えています。

利用可能な NPU モデル

基本モデル

qwen2.5-0.5B-prefill-20e

128 長のコンテキストウィンドウをサポート
最大出力 1024 token
対応プラットフォーム：LLM630 コンピューティングキット、Module LLM、Module LLM キット
ttft（初回トークン生成時間）：359.8ms
平均生成速度：10.32 token/s

インストール

apt install llm-model-qwen2.5-0.5b-prefill-20e

llm-model-qwen2.5-0.5B-prefill-20e をダウンロード

長コンテキストモデル

qwen2.5-0.5B-p256-ax630c

基本モデルと比較して、より長いコンテキストウィンドウをサポート
256 長のコンテキストウィンドウ
最大出力 1024 token
対応プラットフォーム：LLM630 コンピューティングキット、Module LLM、Module LLM キット
ttft：1126.19ms
平均生成速度：10.30 token/s

インストール

apt install llm-model-qwen2.5-0.5b-p256-ax630c

llm-model-qwen2.5-0.5b-p256-ax630c をダウンロード

INT4 量子化モデル

qwen2.5-0.5B-Int4-ax630c

基本モデルと比較して推論速度が高速
128 長のコンテキストウィンドウをサポート
最大出力 1024 token
対応プラットフォーム：LLM630 コンピューティングキット、Module LLM、Module LLM キット
ttft：442.95ms
平均生成速度：12.52 token/s

インストール

apt install llm-model-qwen2.5-0.5b-int4-ax630c

llm-model-qwen2.5-0.5b-int4-ax630c をダウンロード

qwen2.5-0.5b-int4-ax650

基本モデルと比較して推論速度が高速
128 長のコンテキストウィンドウをサポート
最大出力 1024 token
対応プラットフォーム：AI Pyramid
ttft：140.17ms
平均生成速度：37.11 token/s

インストール

apt install llm-model-qwen2.5-0.5b-int4-ax650

llm-model-qwen2.5-0.5b-int4-ax650 をダウンロード

Next 概要

デバイスとクイックスタート

AI Pyramid

Module LLM

LLM630 Compute Kit

モデルの紹介

Qwen2.5

Qwen3

DeepSeek-R1

SmolVLM

MeloTTS

Whisper

Llama

AI Pyramid Applications

アプリケーション

Audio

CVビジョンアプリケーション

VLMマルチモーダル

大規模言語モデル (LLM)

音声アシスタント

OpenAI API

紹介

利用可能な NPU モデル

基本モデル

qwen2.5-0.5B-prefill-20e

インストール

長コンテキストモデル

qwen2.5-0.5B-p256-ax630c

インストール

INT4 量子化モデル

qwen2.5-0.5B-Int4-ax630c

インストール

qwen2.5-0.5b-int4-ax650

インストール

On This Page