最新AI教程资讯
Runway Gen-4 – Runway 推出最新的AI视频生成模型
Runway Gen-4 是 AI 初创公司 Runway推出的高保真AI视频生成模型。支持在多个场景中保持人物、物体和环境的一致性,无需额外精调或训练。用户提供一张参考图和文字指令,Runway Gen-4 能生成具有逼真物理效果、连贯叙事和高质量视觉风格的视频内容。
2025-04-21 16:44:28
Neo-1 – VantAI 推出的首个原子生成式AI模型
Neo-1 是 VantAI 推出的全球首个将从头分子生成与原子级结构预测统一的AI模型。能预测生物分子结构,生成全新的分子,在设计分子胶等新型治疗药物方面表现出色。Neo-1 的多模态输入功能能接受部分序列、部分结构和实验数据等多种信息,显著提高药物设计的效率和准确性。
2025-04-21 16:24:28
Amazon Nova Act – 亚马逊推出的通用 AI 智能体,自主执行网页任务
Amazon Nova Act是亚马逊 AGI Labs推出的通用AI代理,用于在网页浏览器中执行任务。Amazon Nova Act支持开发者基于配套的 SDK 构建智能体应用原型,完成如提交请假申请、预订日历或发送自动回复邮件等操作。
2025-04-21 16:04:28
Amodal3R – 南洋理工联合牛津等推出的条件式 3D 生成模型
Amodal3R 是条件式 3D 生成模型,能从部分可见的 2D 物体图像中推测并重建完整的 3D 形态和外观。模型基于“基础”3D 生成模型 TRELLIS 构建,通过引入掩码加权多头交叉注意力机制和遮挡感知注意力层,利用遮挡先验知识指导重建过程。
2025-04-21 15:44:28
AutoAgent – 港大推出的 AI 智能体框架,零代码创建智能助手
AutoAgent 是香港大学推出的零代码、自动化 LLM 智能体框架。基于自然语言交互,让用户无需编程即可创建智能助手,适用于智能搜索、数据分析、报告生成等场景。AutoAgent核心功能包括三种使用模式,用户模式、智能体编辑器、工作流编辑器,适应不同用户需求。
2025-04-21 15:24:28
Text to Bark – ElevenLabs 推出的 AI“狗语”文本转语音模型
Text to Bark 是 ElevenLabs 推出的全球首个AI“狗语”文本转语音模型。用户输入文字选择犬种,模型能生成高度逼真的狗吠声,95%的狗无法分辨其与真实吠声。模型基于开源犬类语言学研究开发,支持个性化选择品种和调整语气,能部署到智能家居设备等“云吠基础设施”。
2025-04-21 15:04:28
Cua – 专为 MacOS 推出的开源 AI Agent项目
Cua 是 trycua 团队推出的开源AI Agent项目,为 macOS 用户提供高性能的虚拟化和 AI 代理功能。Cua基于苹果的 Virtualization Framework,支持在 Apple Silicon 上创建运行 macOS 和 Linux 虚拟机,性能接近原生水平(约90%)。
2025-04-21 14:44:28
SWEET-RL – Meta 推出的多轮强化学习框架
SWEET-RL是Meta推出的多轮强化学习框架,专门用在训练大型语言模型(LLM)代理进行协作推理任务。SWEET-R基于训练时的额外信息(如参考解决方案)优化“批评者”模型,模型为每个步骤提供奖励,帮助“行动者”模型更好地分配信用、优化策略。
2025-04-21 14:24:28
OThink-MR1 – OPPO联合港科大推出的多模态语言模型优化框架
OThink-MR1是OPPO研究院和香港科技大学(广州)联合推出的多模态语言模型优化框架。基于动态调整Kullback-Leibler(KL)散度策略(GRPO-D)和奖励模型,提升多模态模型在复杂任务中的泛化推理能力。
2025-04-21 14:04:28
DeepSite – 基于 DeepSeek 开源的 AI 前端开发工具
DeepSite 是基于 DeepSeek-V3 模型的在线开发工具,用户无需配置环境或安装软件,在网页上直接输入需求,快速生成游戏、应用或网页的代码,支持实时预览效果。
2025-04-21 13:44:28
EasyControl Ghibli – 免费生成吉卜力风格图像的 AI 模型
EasyControl Ghibli 是基于 EasyControl 框架开发的 AI 模型,已上线 Hugging Face 平台,专注于将普通图像转换为吉卜力风格的图像。仅用100张亚洲人脸照片及对应的吉卜力风格图像训练而成,能精准捕捉吉卜力作品中柔和的光影、细腻的情感与温暖的色调,同时保留人物面部特征。
2025-04-21 13:24:28
Dolphin – 清华联合海天瑞声推出的语音识别大模型
Dolphin是清华大学电子工程系语音与音频技术实验室联合海天瑞声共同推出的面向东方语言的语音大模型。支持40个东方语种的语音识别,中文语种涵盖22种方言(含普通话),能精准识别不同地区的语言特点。
2025-04-21 13:04:28
WorldScore – 斯坦福大学推出的世界生成模型统一评估基准
WorldScore 是斯坦福大学提出的用于世界生成模型的统一评估基准。将世界生成分解为一系列的下一个场景生成任务,通过明确的基于相机轨迹的布局规范来实现不同方法的统一评估。
2025-04-21 12:44:28
PaperBench – OpenAI 开源的 AI 智能体评测基准
PaperBench是OpenAI开源的AI智能体评测基准,支持评估智能体复现顶级学术论文的能力。PaperBench要求智能体从理解论文内容到编写代码、执行实验,全面展现从理论到实践的自动化能力。PaperBench包含8316个评分节点,基于层次化评分标准,用自动评分系统提高效率。
2025-04-21 12:24:28
DreamActor-M1 – 字节跳动推出的 AI 图像动画框架
DreamActor-M1是字节跳动推出的先进AI图像动画框架,能将静态人物照片转化为生动的动画视频。采用混合引导机制,结合隐式面部表示、3D头部球体和3D身体骨架等控制信号,实现对人物面部表情和身体动作的精准控制。
2025-04-21 12:04:28
Mini DALL·E 3 – 北京理工联合上海 AI Lab等高校推出的交互式文生图框架
Mini DALL·E 3 是北京理工大学、上海AI Lab、清华大学和香港中文大学联合推出的交互式文本到图像(iT2I)框架。基于自然语言与用户进行多轮对话,实现高质量图像的生成、编辑和优化。
2025-04-21 11:44:28
MoCha – Meta 联合滑铁卢大学推出的端到端对话角色视频生成模型
MoCha AI 是 Meta 和滑铁卢大学联合开发的端到端对话角色视频生成模型。能根据文本或语音输入生成带有同步语音和自然动作的完整角色动画。MoCha 采用语音-视频窗口注意力机制,解决了视频压缩时音频分辨率不匹配以及唇部动作错位的问题。
2025-04-21 11:24:28
DeepSeek-GRM – DeepSeek 联合清华推出的通用奖励模型
DeepSeek-GRM是DeepSeek和清华大学研究者共同提出的通用奖励模型(Generalist Reward Modeling)。通过点式生成式奖励建模(Pointwise Generative Reward Modeling, GRM)和自我原则点评调优(Self-Principled Critique Tuning, SPCT)等技术,显著提升了奖励模型的质量和推理时的可扩展性。
2025-04-21 11:04:28
OlympicArena – 上海交大联合 AI Lab 等推出的多学科认知推理基准测试框架
OlympicArena是上海交通大学、上海AI Lab、苏州大学和上海交通大学生成式人工智能实验室(GAIR Lab)联合推出的多学科认知推理基准测试框架。OlympicArena包含11,163道来自国际奥林匹克竞赛的双语题目,涵盖数学、物理、化学、生物、地理、天文学和计算机科学等7大领域。
2025-04-21 10:44:28
AbletonMCP – AI音乐制作工具,基于MCP支持音轨创建与修改
AbletonMCP 是开源项目,基于模型上下文协议(MCP) 将 Ableton Live 与 Claude AI 连接,实现 AI 辅助音乐制作。AbletonMCP 基于双向通信,支持用户基于 Claude AI 创建、修改 MIDI 和音频轨道,选择乐器与效果,编辑 MIDI 片段,及控制播放和会话。
2025-04-21 10:24:28
AI开源模型推荐
更多
Coze
2024-12-30
商量SenseChat
2025-01-02
讯飞智作
2025-02-05