SmolVLM-256M-Instruct

介绍

SmolVLM-256M 是全球最小的多模态模型。它可以接受任意序列的图像和文本输入，输出文本结果。
该模型注重效率，能够回答有关图像的问题、描述视觉内容或转录文本。
其轻量级架构使其适合在设备端运行，同时在多模态任务中保持较强性能。
推理时对显存需求低于 1GB GPU 显存即可处理一张图像。

apt install llm-model-smolvlm-256m-ax630c