10人明星团队炼出首个微调Llama 3.1 405B，角色扮演一秒入戏，代码全开源-AI下载

10人明星团队炼出首个微调Llama 3.1 405B，角色扮演一秒入戏，代码全开源

作者：AI下载发布时间：2025-06-28

Llama 3.1的405B模型终于等来了首个微调版本！

这个模型名为Hermes 3，来自初创公司Nous Research，是一个相当小型且低调的团队。

虽然公司低调，但技术实力相当强悍。Hermes系列已经微调了Mistral、Yi、Llama等多个开源模型，下载量超过3300万次。

跟着模型一起发布的，还有完整的技术报告和博客，Lambda Chat也同时在聊天界面中集成了模型。

从技术报告和博客来看，Nous Research的这次微调颇有成效，在使用了FP8量化后还能保持相当水准的模型性能。

这种优化有效地将模型的VRAM和磁盘需求降低了约50%，使其能够在单个节点上运行，方便更多开发者部署使用。

除此之外，SFT和DPO的微调过程经过了专门设计，让模型的对话能力和指令遵循能力大大增强，擅长复杂的角色扮演和创意写作。

除了创造力，Hermes 3还扩展出了函数调用、分步推理等智能体相关的功能，对于需要高级推理和决策能力的专业人士来说也是一个宝贵的工具。

Nous Research联创、技术报告的作者之一Teknium这样评价Hermes 3：

自从开始人工智能之旅以来，我就想实现一个开源前沿模型。

今天，凭借 Hermes 3 405B，我们实现了这一目标。这是一款具有前沿水平的模型型号，真正适合用户，而非某个公司或更高的权威。

凭借在数据合成和后训练研究方面的辛勤工作，我们才能用将近1年的时间构建一个几乎完全来自合成的数据集，并用于训练Hermes 3。未来我们还将有更多发布。

论文地址：https://nousresearch.com/wp-content/uploads/2024/08/Hermes-3-Technical-Report.pdf

技术报告首先指出，LLM的训练语料经常是广泛且多样化的。例如，基座模型可能同时被训练来撰写新闻文章、1990年代风格的DHTML以及关于虚构角色浪漫关系的论坛讨论帖。

虽然这种广泛的建模能力令人赞叹，但往往让普通用户难以控制。

ChatGPT等产品的发布普及了人类与LLM交互的「聊天」范式，从而赋予其可引导性。

除了用「聊天」的方式进行调优，更通用的方法是指令调优。举例来说，可以针对性地训练模型响应祈使句的能力，让用户可以直接向模型发出指令，比如「概述哥德巴赫猜想的证明」。

还有很多其他方法可以进一步增强指令调优模型的能力，以扩展其可操纵性，比如系统提示词、添加用于计算或数据提取的额外工具等。

Hermes 3正是遵循了这种指令调优和工具使用的范式，既有强大的对话能力，比如长期上下文记忆、多轮对话、角色扮演、内部独白等，也增强了智能体的函数调用功能。

开源的Llama 3.1 8B/70B/405B模型的卓越性能，加上后训练数据，释放了更深层次的推理和创造力，并激励模型以自适应的方式准确地遵循提示，让Hermes 3不同于会拒绝用户指令的闭源商业模型。

在多个公共基准测试上，Hermes 3成为了开放权重模型的SOTA。目前，不同参数和精度的模型版本已经发布在HuggingFace上。

模型地址：https://huggingface.co/collections/NousResearch/hermes-3-66bd6c01399b14b08fe335ea

事实上，Nous Research的Hermes系列已经发布了很多开源模型的微调版本，比如Mistral、Mixtral、Yi、Llama 2等。

提到Hermes，大多数人会想到著名的奢侈品牌爱马仕，但追根溯源，这是古希腊神话中奥林匹斯山上的一位神祗的名字——赫尔墨斯。

为什么给模型起了这么一个名字？Nous Research官方账号在线回复——这可是古希腊掌管语言的神。

不得不说，Nous Research是会起名的。他们有一个模型系列叫作Obsidian，即黑曜石。

这种石头是火山岩浆快速冷却形成的，结出的晶体可以长成下面这个样子

LLM推理性能受输出格式影响，JSON最严重

大模型应用，独立APP和内嵌AI，谁会胜出？

「高定诈骗」，忽悠瘸了多少聪明人？

奥运冠军竟是硅谷VC，还是哈佛学的计算机