SmolVLA – Hugging Face开源的轻量级机器人模型-AI下载

SmolVLA – Hugging Face开源的轻量级机器人模型

作者：AI下载发布时间：2025-07-18

SmolVLA 是 Hugging Face 开源的轻量级视觉-语言-行动（VLA）模型，专为经济高效的机器人设计。拥有4.5亿参数，模型小巧，可在CPU上运行，单个消费级GPU即可训练，能在MacBook上部署。SmolVLA 完全基于开源数据集训练，数据集标签为“lerobot”。

多模态输入处理：SmolVLA 能处理多种输入，包括多幅图像、语言指令以及机器人的状态信息。通过视觉编码器提取图像特征，将语言指令标记化后输入解码器，将传感运动状态通过线性层投影到一个标记上，与语言模型的标记维度对齐。

ContentV – 字节跳动开源的文生视频模型框架

PartCrafter – AI 3D生成模型，支持多部件联合生成

MaskSearch – 阿里通义推出的检索增强预训练框架

InftyThink – 浙大联合北大推出的无限深度推理范式

Magistral – Mistral AI推出的推理模型系列

Vui – Fluxions-AI开源的轻量级语音对话模型

Krea 1 – Krea AI推出的AI图像生成模型

Seedance 1.0 – 字节跳动推出的视频生成模型