当前位置:首页 > SmolVLA – Hugging Face开源的轻量级机器人模型
SmolVLA – Hugging Face开源的轻量级机器人模型
作者:AI下载 发布时间:2025-07-18

SmolVLA是什么

SmolVLA 是 Hugging Face 开源的轻量级视觉-语言-行动(VLA)模型,专为经济高效的机器人设计。拥有4.5亿参数,模型小巧,可在CPU上运行,单个消费级GPU即可训练,能在MacBook上部署。SmolVLA 完全基于开源数据集训练,数据集标签为“lerobot”。

SmolVLA的主要功能

多模态输入处理:SmolVLA 能处理多种输入,包括多幅图像、语言指令以及机器人的状态信息。通过视觉编码器提取图像特征,将语言指令标记化后输入解码器,将传感运动状态通过线性层投影到一个标记上,与语言模型的标记维度对齐。