当前位置:首页 > 10人明星团队炼出首个微调Llama 3.1 405B,角色扮演一秒入戏,代码全开源
10人明星团队炼出首个微调Llama 3.1 405B,角色扮演一秒入戏,代码全开源
作者:AI下载 发布时间:2025-06-28

Llama 3.1的405B模型终于等来了首个微调版本!

这个模型名为Hermes 3,来自初创公司Nous Research,是一个相当小型且低调的团队。

虽然公司低调,但技术实力相当强悍。Hermes系列已经微调了Mistral、Yi、Llama等多个开源模型,下载量超过3300万次。

跟着模型一起发布的,还有完整的技术报告和博客,Lambda Chat也同时在聊天界面中集成了模型。

从技术报告和博客来看,Nous Research的这次微调颇有成效,在使用了FP8量化后还能保持相当水准的模型性能。

这种优化有效地将模型的VRAM和磁盘需求降低了约50%,使其能够在单个节点上运行,方便更多开发者部署使用。

除此之外,SFT和DPO的微调过程经过了专门设计,让模型的对话能力和指令遵循能力大大增强,擅长复杂的角色扮演和创意写作。

除了创造力,Hermes 3还扩展出了函数调用、分步推理等智能体相关的功能,对于需要高级推理和决策能力的专业人士来说也是一个宝贵的工具。

Nous Research联创、技术报告的作者之一Teknium这样评价Hermes 3:

自从开始人工智能之旅以来,我就想实现一个开源前沿模型。

今天,凭借 Hermes 3 405B,我们实现了这一目标。这是一款具有前沿水平的模型型号,真正适合用户,而非某个公司或更高的权威。

凭借在数据合成和后训练研究方面的辛勤工作,我们才能用将近1年的时间构建一个几乎完全来自合成的数据集,并用于训练Hermes 3。未来我们还将有更多发布。

论文地址:https://nousresearch.com/wp-content/uploads/2024/08/Hermes-3-Technical-Report.pdf

技术报告首先指出,LLM的训练语料经常是广泛且多样化的。例如,基座模型可能同时被训练来撰写新闻文章、1990年代风格的DHTML以及关于虚构角色浪漫关系的论坛讨论帖。

虽然这种广泛的建模能力令人赞叹,但往往让普通用户难以控制。

ChatGPT等产品的发布普及了人类与LLM交互的「聊天」范式,从而赋予其可引导性。

除了用「聊天」的方式进行调优,更通用的方法是指令调优。举例来说,可以针对性地训练模型响应祈使句的能力,让用户可以直接向模型发出指令,比如「概述哥德巴赫猜想的证明」。

还有很多其他方法可以进一步增强指令调优模型的能力,以扩展其可操纵性,比如系统提示词、添加用于计算或数据提取的额外工具等。

Hermes 3正是遵循了这种指令调优和工具使用的范式,既有强大的对话能力,比如长期上下文记忆、多轮对话、角色扮演、内部独白等,也增强了智能体的函数调用功能。

开源的Llama 3.1 8B/70B/405B模型的卓越性能,加上后训练数据,释放了更深层次的推理和创造力,并激励模型以自适应的方式准确地遵循提示,让Hermes 3不同于会拒绝用户指令的闭源商业模型。

在多个公共基准测试上,Hermes 3成为了开放权重模型的SOTA。目前,不同参数和精度的模型版本已经发布在HuggingFace上。

模型地址:https://huggingface.co/collections/NousResearch/hermes-3-66bd6c01399b14b08fe335ea

事实上,Nous Research的Hermes系列已经发布了很多开源模型的微调版本,比如Mistral、Mixtral、Yi、Llama 2等。

提到Hermes,大多数人会想到著名的奢侈品牌爱马仕,但追根溯源,这是古希腊神话中奥林匹斯山上的一位神祗的名字——赫尔墨斯。

为什么给模型起了这么一个名字?Nous Research官方账号在线回复——这可是古希腊掌管语言的神。

不得不说,Nous Research是会起名的。他们有一个模型系列叫作Obsidian,即黑曜石。

这种石头是火山岩浆快速冷却形成的,结出的晶体可以长成下面这个样子