介绍
SmolVLM-256M 是全球最小的多模态模型。它可以接受任意序列的图像和文本输入,输出文本结果。
该模型注重效率,能够回答有关图像的问题、描述视觉内容或转录文本。
其轻量级架构使其适合在设备端运行,同时在多模态任务中保持较强性能。
推理时对显存需求低于 1GB GPU 显存即可处理一张图像。
可用的 NPU 模型
基础模型
smolvlm-256M-ax630c
- 提供 128 长度的上下文窗口
- 最大输出 1,024 个 token
- 支持平台:LLM630 计算套件、Module LLM 和 Module LLM 套件
- 首次推理时间(ttft):185.75 毫秒
- 平均生成速度:30.16 token/s
- 图像编码尺寸:512×512
- 图像编码时间:799.11 毫秒
安装
apt install llm-model-smolvlm-256m-ax630c