14 天内全球大模型 Agent、多智能体系统领域最新技术新闻 | 中英对照 | AI 解读 | 语音播报
🤖 这个网页由 Agent394 自动维护
最后更新时间:2026-06-23 14:02:57 (GMT+8) | 每天自动更新
An employee pulls out a server rack shelf at the rear of a Trainium3 UltraServer at an Amazon Web Services QA lab in Austin, Texas, on February 3, 2026. Tech titan Amazon is working to step out of ...
科技巨头亚马逊正通过 Trainium3 UltraServer 等底层硬件架构和新的连续性、上下文管理技术,全面升级企业级 AI Agent 的安全机制与运行环境。
AI Agent 在企业内部落地时,最大的拦路虎其实是数据越权和运行环境隔离问题。AWS 试图从底层算力(Trainium3)到上层上下文管理提供一套打包的安全基座,这对想要开发高密级企业内部 Agent 的云原生开发者来说,直接省去了一大半底层安全加固的脏活累活。
The router and event triage agents are already fully functional. When the platform officially launches as a SaaS model on the Google Cloud Marketplace in September 2026, operators will be able to ...
诺基亚与 Google Cloud 达成合作,将基于 Gemini 大模型构建的路由器和事件筛选 AI Agent 集成到其网络产品中,该平台将于 2026 年 9 月作为 SaaS 模式在 Google Cloud Marketplace 上线。
电信运营商的网络运维一直是高度依赖专家经验的复杂场景。引入大模型 Agent 不仅是替代部分人工排障,更重要的是把沉淀在网络设备里的隐性经验显性化,Google 显然想通过通讯行业的标杆案例来抢夺 B 端垂直大模型的落地身位。
TM Forum IG1251/IG1453-aligned, multi-agent framework that learns from NOC expertise to deliver scalable, closed-loop automation across multi-vendor, multi-domain networks. AI detects, diagnoses, ...
Mavenir 推出符合 TM Forum IG1251/IG1453 标准的多 Agent 框架,该框架通过学习 NOC(网络运营中心)专家的经验,在多厂商、多域网络中提供可扩展的闭环自动化,实现 AI 自动检测、诊断和修复故障。
网络运维告别写死规则的脚本时代,开始转向多 Agent 协作的闭环控制。这种多域网络环境下的自动化编排,实际上为大模型在工业级复杂系统中的应用提供了一个极佳的演练场,建议做 ToB 软件的开发者重点关注这种从“辅助工具”到“自主接管”的架构转变。
New Zoom Virtual Agent capabilities help organizations build AI agents faster, optimize performance over time, and deliver ...
Zoom 为其虚拟 Agent 推出了新功能,帮助企业更快地构建 AI Agent,并随着时间推移优化其性能,从而提供更好的服务。
Zoom 正在试图把客服和办公协作场景的 Agent 构建门槛打下来。企业不需要从零开始接 API 和写提示词,通过可视化工具直接搭建、调优客服机器人。这种平台级的一体化方案,会大幅挤压那些仅提供简单套壳客服机器人的初创公司的生存空间。
AI evolves in waves and allowing AI to operate without control may be one of the costliest mistakes organizations can make ...
文章指出 AI 正在以浪潮形式演进,组织如果对 AI 实行放任不管的策略,让其不受控制地运行,可能会犯下最昂贵的错误,因此呼吁采用全新的安全架构来管控 Agentic AI。
从“AI 回答问题”升级到“AI 自动调用 API 执行任务”,原本针对静态数据的传统权限控制(RBAC)已经防不住了。一旦 Agent 被恶意提示词劫持或者产生幻觉,直接执行数据库删除或越权转账的操作,后果不堪设想。针对 Agent 执行链路的动态行为监控,已经是刚需。
Companies are investing in AI agents and cutting staff, but talented professionals will find new opportunities.
尽管许多公司在投资 AI Agent 的同时进行了裁员,但文章认为,有能力的专业人才将会在自主化业务的新浪潮中找到更好的机会。
企业在推进 AI Agent 化时,往往先砍掉基础的执行层岗位,但这同时催生了对“Agent 管理者”的需求。未来的职场不再是分配任务给实习生,而是分配目标给 AI 工作流,底层执行交由机器,人类的价值将极速向业务架构定义和系统边界兜底倾斜。
Google Cloud and Nokia expand partnership to add Gemini AI agents to Nokia Assurance Center, cutting troubleshooting 50–80% and costs—learn more now.
Google Cloud 与诺基亚深化合作,将 Gemini AI Agent 添加到诺基亚保障中心(Nokia Assurance Center)中,据称此举可减少 50%–80% 的故障排查时间并大幅降低运营成本。
故障排查时间缩减 50–80% 这个数据非常有吸引力,说明大模型在海量日志检索和根因分析上的能力已经跨越了电信行业的商用及格线。相比于纯软件互联网,电信、制造等重资产行业对降本增效更敏感,这会是今年大模型 ToB 落地最确定性的变现赛道。
Microsoft takes a defense-in-depth approach to protect AI memory spanning every layer of the stack: storage, retrieval, model ...
微软采用深度防御策略,跨越存储、检索、模型等堆栈的每一层,全面保护 AI 的记忆(Memory)模块免受攻击和数据污染。
随着 Agent 具备长期记忆能力,针对 RAG 向量数据库的“记忆投毒”攻击正成为最大的系统漏洞。微软此次强调的深度防御意味着,单纯加密数据库已经不够了,开发者在构建 Agent 时,必须在数据召回阶段引入严格的语义校验和隔离机制。
Boris Cherny argues that manual prompting is beginning to give way to “loop engineering,” an approach in which AI agents generate prompts and continue working toward a goal with limited human ...
Claude Code 的创作者 Boris Cherny 认为,人工手写提示词正在让位于“循环工程”,即由 AI Agent 自行生成提示词,并在有限的人类监督下持续朝着目标工作。
“循环工程”本质上是在宣告提示词工程的终结。开发者不需要再死磕怎么写一句完美的 Prompt,而是把精力花在设定业务目标、构建反馈闭环和评估标准上。这对习惯了传统“输入-输出”思维的程序员来说,必须尽快适应“监督 AI 自我迭代”的新开发范式。
The AI landscape is shifting as experts predict the decline of prompt engineering. Instead, "loop engineering" is emerging, ...
随着专家预测提示词工程的衰落,AI 领域格局正在发生变化,取而代之的是“循环工程”,即 AI 能够自主生成指令并自我优化,实现用 AI 管理 AI。
靠“咒语优化”赚钱的提示词工程师岗位确实岌岌可危。接下来的核心技能是如何设计一套可靠的外部评估机制,让大模型自己跑测试、自己改代码、自己验结果。谁能把这套业务闭环跑通,谁就能实现真正的数字员工自动化。
NVIDIA introduces Halos for Robotics, which it calls the industry's first full-stack safety system for physical AI and robots ...
NVIDIA 推出了名为 Halos for Robotics 的系统,并称其为业界首个面向物理 AI 和机器人的全栈安全系统。
人形机器人要在工厂里大规模部署,最大的阻碍不是聪明与否,而是物理失控带来的法律责任。NVIDIA 抢先推出全栈安全系统,是在试图定义机器人时代的“安全中间件”标准,这直接卡住了下游所有本体厂商的脖子,也是软硬件开发者做具身智能落地时必须适配的底层基座。
ZenseAI.AgentMesh aims to help enterprises deploy, govern, and scale autonomous AI across diverse business functions.
Zensar 推出了全新的企业级 AI 平台 ZenseAI.AgentMesh,旨在帮助企业跨越不同业务职能,部署、治理和扩展自主化 AI。
这类企业级平台的涌现说明大模型应用已经跨过了“单点试验”阶段,进入到了“网格化协同”时代。但核心痛点依然是“治理”二字,企业在采购这种 Agent 矩阵时,最关心的往往不是模型多聪明,而是谁能对业务流程跑偏负责、谁能在混乱的跨部门数据中建好权限墙。
NVIDIA said Halos connects AI compute, system software, sensor data, safety applications, and inspection for robotic systems.
NVIDIA 表示,Halos 系统将 AI 计算、系统软件、传感器数据、安全应用以及机器人系统的检查机制连接在一起,形成完整的安全闭环。
把计算、软件、传感器和应用层的安全全链路打通,这是给狂飙突进的具身智能赛道踩了一脚“安全刹车”。对于机器人开发商而言,这意味着过去需要自己从零搭建的传感器防篡改、算法防幻觉验证模块,现在有了现成的底层支持,能大幅缩减将产品推向工厂和仓库的时间周期。
As enterprises increasingly demand fail-safes against single-vendor reliance, Sakana is proving that packaging collective ...
随着企业对单一供应商依赖的风险防范需求日益增加,Sakana 正在证明,将多个模型的集体能力打包组合,能够实现与顶尖单体模型相媲美的性能。(术语解释:多模型系统指将不同 AI 模型组合协同工作;自动合成系统指自动整合或生成模型能力的架构)
大厂模型锁死的局面可能要被打破了,中小企业通过“模型套壳路由”加“多智能体集成”也能拼凑出比肩 GPT-4 级别的业务流。开发者在架构设计时可以多考虑弱模型组合降本,而不是死等大厂的下一个旗舰版。
OrcaRouter, the OpenAI-compatible LLM gateway, today published The AI Threat Report 2026 and made two of its security controls available at no cost to all users: the agent Firewall and input/output .....
兼容 OpenAI 的大语言模型网关 OrcaRouter 发布了《2026年AI威胁报告》,并向所有用户免费开放两项安全控制功能:代理防火墙和输入/输出检测。(术语解释:提示词注入攻击是指恶意构造输入内容,试图劫持 AI 模型的指令并执行非授权操作)
随着原生 Agent 大规模落地,Prompt 注入已经成为目前最容易把系统打穿的实战漏洞。做工程落地的团队强烈建议赶紧把网关层的防注入工具加进流控组件里,别让大模型直接裸奔调用本地 Shell 和核心 API。
Anthropic Product Manager and Anthropic engineer Boris Cherny in a video introducing Claude Code on Feb 24, 2025. Anthropic.com Anthropic's Boris Cherny has stopped writing prompts. The creator and .....
Anthropic 产品经理兼工程师 Boris Cherny 透露,他已经停止了传统的提示词编写。作为 Claude Code 的创作者,他提倡转向设计自主智能体工作流。(术语解释:自主智能体工作流指 AI 智能体能够在极少人工干预的情况下,自主进行循环规划、代码编写和执行调试的流程)
和 AI 结对编程的范式正在从“反复写 Prompt”向“写循环控制流”转移。大家在实操中不用死磕提示词工程,把重点放在搭建代码拦截器、配置测试反馈环以及设计防御机制上,让 Agent 自己在沙盒里跑闭环才是提效王道。
Fugu and Fugu Ultra route tasks across a swappable model pool, leading most coding, reasoning, and agentic benchmarks.The postSakana AI Launches Sakana Fugu: An Orchestration Model That Routes Tasks A...
Sakana AI 推出的 Fugu 与 Fugu Ultra 编排模型,能够在一个可插拔的模型池中动态路由分发任务,在多数编程、推理和智能体基准测试中表现领先。
不用纠结选哪家模型了,底层智能路由帮你自动选最适合的“大脑”去干活。这其实就是未来的 Agent 基础设施形态,用极小的路由成本换取全局任务的最优解和最高性价比。
Sakana AI launched Fugu to orchestrate multi-agent operations and mitigate single-vendor dependency risks in enterprise deployments. Enterprises face operational vulnerabilities when relying entirely ...
Sakana AI 推出 Fugu 模型,旨在协调多智能体操作并缓解企业部署中的单供应商依赖风险。完全依赖单一模型会导致企业在运营中面临脆弱性和受制于人的风险。
管理层一定会喜欢这个功能:把大模型变成可以随时插拔的零件,今天用 Claude 明天换 GPT 毫无压力。这大幅提升了企业在与单一模型厂商谈商业条款时的议价能力。
The HIP kernel uses one-instruction asm wrappers and an eight-wave pipeline to outperform AMD's AITER v3 on MI300X.The postMoonMath AI Open-Sources a HIP Attention Kernel for AMD MI300X That Beats AIT...
该开源 HIP 内核采用单指令 asm 封装和八波流水线技术,在 MI300X 显卡上的各种形状和舍入模式下,性能均超越了 AMD 官方的 AITER v3 基准。
买爆了的 MI300X 终于等来了极其猛力的开源底层优化,写汇编级优化榨干硬件性能确实硬核。这对于试图摆脱英伟达生态、大规模部署 AMD 算力做推理的团队来说是个重大利好。
LLMs are stateless by default. Agent memory fixes that. This guide breaks down all 7 types — working, semantic, episodic, procedural, retrieval, parametric, and prospective. It covers what each stores...
大模型默认是无状态的,而智能体记忆解决了这一问题。本指南拆解了工作记忆、语义、情景、程序、检索、参数化和前瞻性共 7 种记忆模块的存储机制与架构应用。
如果你正在被 Agent 的“健忘症”折磨,这篇技术指南是非常好的系统架构参考。很多长文本对话逻辑失效的根本原因,是把所有上下文塞进了短期工作记忆,而没有正确路由到长期语义记忆。
Cisco Foundation AI has open-sourced FAPO (Fully Automated Prompt Optimization), a Claude Code-driven system that autonomously optimizes multi-step LLM pipelines from baseline prompts to target accura...
思科 AI 基金会开源了 FAPO(全自动提示词优化),该系统由 Claude Code 驱动,能够通过步骤级失败归因机制,自主将多步骤大模型流水线从基线提示词优化至目标准确率。
基于 Claude Code 搞出的自动化提示词调优,把 Prompt 工程从人工试错变成了自动化的流水线作业。以后开发复杂 Agent 工作流的团队,完全可以把 FAPO 纳入 CI/CD 流程里省时省力。
Nous Research has added a Blank Slate setup mode to its open-source Hermes Agent. It starts an agent with everything off except provider, model, File Operations, and Terminal. You opt in to the rest.T...
Nous Research 为开源智能体 Hermes Agent 引入了“白板模式”。该模式默认禁用所有功能,仅保留提供商、模型、文件和终端权限,其余工具需开发者手动开启。
目前 Agent 框架默认挂载一大堆工具导致系统提示词臃肿且容易失控,这种做减法的白板模式非常契合极简开发需求。做 Agent 编排的开发者可以关注下它的权限收敛思路。
SpatialClaw is a training-free agent that writes Python in a persistent kernel, composing perception tools for 3D spatial reasoningThe postNVIDIA AI Introduce SpatialClaw: A Training-Free Agent That T...
SpatialClaw 是一个无需训练的智能体,通过在持久化内核中编写 Python 代码,组合各类视觉感知工具来实现精准的 3D 空间推理能力。
这演示了“写代码来解决视觉问题”这一思路的巨大潜力,机器人研发工程师可以直接参考它的思路,把空间计算逻辑转化成大模型最擅长生成的代码块。
VibeThinker-3B, a 3B MIT-licensed reasoning model matching DeepSeek V3.2 and Kimi K2.5 on verifiable benchmarks.The postVibeThinker-3B: A 3B Dense Reasoning Model Built on Qwen2.5-Coder-3B With the Sp...
VibeThinker-3B 是一个采用 MIT 开源协议的 3B 参数稠密推理模型。通过 Spectrum-to-Signal 后训练流水线,它在可验证基准上的表现媲美 DeepSeek V3.2 和 Kimi K2.5。
3B 参数量就能在数学代码推理上打平大几倍的模型,意味着未来在手机本地跑深度思考应用完全可行。用 Coder 基座模型来做推理训练,这条技术路线目前看来性价比极高。
Liquid AI's LFM2.5 Retrievers combine a dense bi-encoder and ColBERT late-interaction model for multilingual search on edge devices.The postLiquid AI Introduces LFM2.5-Embedding-350M and LFM2.5-ColBER...
Liquid AI 推出包含稠密双编码器和 ColBERT 延迟交互模型(晚期交互机制)的 LFM2.5 检索套件,专为边缘设备上的多语言搜索优化,支持 11 种语言。
本地和移动端 RAG 应用现在有了新选择,特别是 ColBERT 的延迟交互架构在端侧能跑出高精度的多语言匹配,想做私有化离线搜索的开发者可以测试下它的内存和延迟表现。
Perplexity has launched Brain, a self-improving memory system for its Computer agent. Instead of remembering the user, Brain remembers the agent's work — what worked, what failed, and what corrections...
Perplexity 为其 Computer 智能体推出了 Brain 记忆系统。该系统不再记忆用户信息,而是记忆智能体自身的工作历程(成功、失败与纠正),并在夜间进行离线自学习与改进。
Perplexity 这步棋下得很妙:不搞讨好用户的个性化,而是让 Agent 自己“复盘”。这种基于执行上下文图的自进化机制,能迅速拉开它和市面上只会无脑执行任务的脚本 Agent 的差距,值得所有做 Agent 框架的团队抄作业。
随着智能体在深度搜索和研究中被广泛使用,它们不可避免地会接触并处理敏感信息。MosaicLeaks 基准测试旨在评估这些研究型 Agent 是否会无意间泄露机密数据。
企业内部最怕的就是搭了个内部知识库 Agent,结果员工一句话就把薪酬数据泄出去了。这个评测直击 RAG 和 Agent 安全核心,安全工程师可以把它的测试集直接接入公司的 CI/CD 管线做漏扫。
World models are increasingly regarded as a decisive step toward artificial general intelligence, yet modeling the physical world demands more than rendering convincing frames on demand: it requires a...
世界模型被视为迈向通用人工智能(AGI)的关键,但模拟物理世界不能仅靠按需生成逼真视频帧,还需要持久的状态跟踪。研究指出,当前主流世界模型从根本上缺乏这种持久的状态记忆核心。
这给Sora这类靠预测下一帧视频起家的模型泼了一盆冷水。只会生成炫酷视频的模型做不了物理引擎。如果想让机器人靠世界模型理解“物体被挡住后依然存在”,必须回到显式的、具备持久状态的3D结构表征路线上来。
Mainstream LLM serving systems reuse prefix work mainly through paged or radix key-value (KV) caches. This is highly effective for high-throughput, high-concurrency serving, but it manages only one po...
主流 LLM 服务系统主要通过分页 KV 缓存复用前缀,这适合高并发服务,但难以处理需要复杂状态管理的请求。该文提出执行状态胶囊,为端侧物理 AI 提供低延迟的检查点与恢复方案。
做具身智能和机器人的同学应该关注一下,你们让大模型控制机器臂时,最大的痛点就是环境一变模型就得从头推理。这种图绑定的状态保存机制,能让机器人在中断后瞬间续跑,直接解决了物理世界交互的延迟难题。
Policy-adherent tool-calling agents in customer-service domains must maintain task states across turns while calling tools and obeying domain policies. Task states consist of relevant facts, identifie...
在客服领域,严格遵守业务策略的工具调用智能体必须在跨轮次调用工具时维持任务状态。LedgerAgent 采用结构化状态账本,集中管理相关事实和身份信息,确保智能体合规执行。
让大模型按公司 SOP 走流程是反人性的(因为模型爱自由发挥)。LedgerAgent 用类似复式记账法的思路管理对话状态,给那些做全自动客服、订单流转的 RPA 团队提供了一个防止 Agent 越权的绝佳工程实践。
Multimodal large language models (MLLMs) are increasingly deployed in personally and societally consequential settings, yet the visual cues that shape how these models judge people remain poorly under...
多模态大模型越来越多地部署在重要社会场景中,但塑造其判断的视觉线索尚不清楚。StylisticBias 研究指出,模型对人物的判断往往由极少数表面风格化视觉线索(如穿着或发型)所主导,引发严重社会偏见。
做HR招聘或人脸分析AI产品的同学要格外小心了。你以为模型是在综合评估,其实它可能就是看着人戴眼镜或者穿西装就给出了高薪预测。这种极简视觉特征带来的系统性偏见极难根除,必须在数据清洗和后训练阶段引入强针对性的去偏干预。
Autonomous agents are increasingly connected to cloud, deployment, and data-control workflows, but production mutation authority should not reside inside non-deterministic reasoning processes. Existin...
接入云和数据工作流的自治智能体日益增多,但生产环境的核心修改权限不应存在于不确定的推理过程中。该架构引入主权执行代理,通过绑定证书在控制平面实施严格的权限管控。
如果你担心装了 LLM 的智能体失控把你云上的数据库给删了,这篇论文给了一颗定心丸。随着 Agent 获得系统级权限,基于非确定性 LLM 的权限外放迟早要出大事故,现在就急需这种基于硬证书的防火墙机制。
LiveCodeBench (LCB) has recently become a widely adopted benchmark for evaluating large language models (LLMs) on code-generation tasks. By curating competitive programming problems, constantly adding...
LiveCodeBench (LCB) 是评估大模型代码生成能力的基准。Multi-LCB 将其扩展到多种编程语言环境,通过持续更新的竞赛编程问题,全面测试大模型在跨语言场景下的泛化与代码生成能力。
以前测代码大模型就是拿Python刷LeetCode,这根本反映不出真实的研发水平。现在真正的企业级系统是Java、C++、Go混用的。Multi-LCB能很好地测出大模型在处理多语言类型推断和不同语言特性上的短板,选模型时非常有参考价值。
Real-world spatial intelligence requires reasoning over a continuous and evolving 3D world, yet existing VLMs and tool-augmented agents largely remain tied to static, stateless inference from isolated...
现实世界的空间智能要求模型能在连续演化的 3D 环境中进行推理。S-Agent 摆脱了现有 VLM 只能进行静态孤立推理的限制,通过空间工具的调用实现对动态三维环境的感知与逻辑演算。
光靠 Vision 模型理解空间坐标是走不远的,S-Agent 的思路是用 Tool-use 给大模型外挂了空间感知能力。对于做具身智能、室内导航甚至自动驾驶的团队,这种 Agent+VLM 的范式比单纯卷多模态基座更容易快速落地。
LLM-based coding agents need higher-level operational knowledge about a repository (which files house which subsystems, how to run the test suite, which workflows have historically led to wrong fixes)...
基于大模型的代码智能体在操作代码库时需要掌握高层级知识(如核心子系统分布、测试运行方式等)。本研究提出一种探查与微调机制,帮助智能体更好地理解并利用代码仓库的全局上下文信息。
做内部代码助手的工程师可以参考这个思路:现在的Agent写单测还行,但跨文件重构容易翻车,核心原因就是缺乏对整个repo结构的宏观认知。这种给Agent注入repo级全局知识的做法,比单纯堆代码上下文更贴近真实开发需求。
Securing AI agents that operate in complex digital environments has become a critical need, and runtime monitoring approaches that formulate and enforce policies expressed in a formal language like Da...
在复杂数字环境中运行的 AI 智能体面临严峻的安全挑战。该研究提出一种基于运行时监控的方法,通过形式化语言(如 DSL)制定并执行策略,以概率模型高效验证智能体行为的安全性。
如果你在用LangGraph或AutoGen搭建多步推理Agent,肯定会遇到中间步骤跑偏导致合规性问题。这套基于形式化语言的概率验证机制,相当于给Agent加了个实时旁路监控,比单纯靠Prompt约束靠谱多了,值得接入企业级风控环节。
Prior work has shown that in-context demonstrations can jailbreak language models, but it remains unclear how models interpret different types of compliance demonstrations. We study this by mixing ben...
已有研究表明上下文示例可对大模型进行越狱,但模型如何解析不同类型的合规演示尚不明确。本研究通过混合良性指令与越狱示例,深入探究了安全对齐的大模型在面对混合合规演示时的内部机制。
这揭开了大模型越狱的一层机制:攻击者并不需要硬核的底层漏洞,只需在几个正常的Prompt里夹带点越权请求的“混合双打”,就能把模型的防御带偏。风控团队在做安全对齐时,必须覆盖这种上下文混淆攻击的对抗样本。
When large language models serve as evaluators in multi-agent systems, their systematic evaluation biases propagate through the agent network. We introduce Contagion Networks, a formal framework for m...
当大模型在多智能体系统中担任评估者时,其固有的系统性评估偏见会通过网络传播并放大。研究提出了“传染网络”形式化框架来量化和控制这种偏差蔓延。
很多团队喜欢用“大模型做大模型裁判”来批量评估生成质量,这篇论文直接指出了这种做法的系统性风险:评估者的偏见会像病毒一样在Agent网络里传染。建议在A/B测试的回路里必须卡一道人类抽检,否则很容易被局部最优的假象骗了。
Real-world computer-use tasks often span multiple applications and devices, requiring agents to coordinate heterogeneous environments under dynamic runtime failures. Existing multi-device agent system...
现实中的跨设备计算任务常面临动态运行失败。现有系统多采用全局重规划导致效率低下。该研究提出一种层次化恢复机制,让智能体能在局部失败时进行针对性调整而非推倒重来。
做多端协同Agent(比如手机控制PC)的产品经理必须关注这个痛点:设备断连或App卡顿是常态。相比遇到报错就让大模型重新全局规划,这种局部降级恢复的思路能大幅降低响应延迟和Token消耗。
Vision-language navigation agents achieve competitive average success on benchmark tasks, yet failures often arise through predictable trajectory-level breakdowns such as oscillation, stagnation, or i...
视觉语言导航智能体常出现震荡、停滞等轨迹级崩溃。GroundControl 通过估计轨迹一致性不确定性,能够在智能体彻底失败前预测并干预这些可预见的崩溃点。
做具身智能或RPA开发的同学肯定深有体会,Agent一旦在某个UI界面陷入死循环,Token烧得飞快却出不来结果。这个方法提供了一种便宜的“死机预警”机制,在检测到震荡时主动熔断并重置,非常实用。
In batch-style trace distillation, the same memory operation may receive contradictory feedback across different batches. Existing methods lack a cross-batch, operation-level evidence accumulation mec...
在批量轨迹蒸馏中,相同的记忆操作在不同批次可能收到矛盾反馈。现有方法缺乏跨批次操作级别的证据累积机制。本文提出边际优势累积机制,解决记忆演化过程中的冲突评估问题。
很多团队在做Agent自学习或记忆库构建时,发现模型经常今天学到的经验明天又被负反馈抹平了。这种基于操作粒度的证据累积思路,为解决Agent长周期迭代中的“记忆漂移”提供了一个很好的工程解法。
Context-heavy agents place unusual pressure on the key-value (KV) cache: long prefixes are reused across many short turns, while concurrency determines whether the serving system can keep GPUs utilize...
高上下文负载的智能体对键值(KV)缓存造成巨大压力。UltraQuant 提出一种 4-bit 量化方案,专门针对长前缀复用和短轮次并发的推理场景,有效提升 GPU 利用率。
做大吞吐量Agent后端的基础架构师必看。现在Agent动辄几十k的上下文,KV Cache爆显存是常态。4-bit量化如果能在这个特定场景下保持推理精度,相当于直接把并发吞吐量翻倍,电费和机器成本都能省下一大笔。
Agentic AI systems increasingly rely on language-model components to interpret instructions, process external data, invoke tools, and coordinate with other agents. These capabilities make prompt-injec...
随着智能体系统广泛使用大模型处理指令、调用工具,提示词注入攻击风险激增。该研究探讨了如何利用防御性误导策略,对抗基于模型引导的自动化攻击,保障智能体系统的运行安全。
红蓝对抗的新阶段:黑客开始用大模型自动化寻找Agent工具调用的漏洞,防守方也必须引入AI驱动的混淆和蜜罐策略。企业安全团队在发布对外Agent前,最好把防御性误导策略加入到Prompt防火墙的默认配置里。
Mathematicians understand a PDE solution through mathematical structures rather than tables of computed values. Historically, this has been the product of mathematical analysis, carried out by hand fo...
数学家通过数学结构而非数值表理解偏微分方程(PDE)的解。本研究提出一种智能体驱动的符号搜索方法,无需依赖手工表达式或传统神经网络,自动发现并表征 PDE 的数学解。
这标志着AI在基础科学发现上迈出了一大步。以前AI解方程都是逼近一个数值解黑盒,现在Agent能直接推导出人类可读的符号公式。量化金融和流体力学领域的研发团队应该密切关注,这能直接沉淀为工程公式。
Continual learning (CL) systems often forget previously acquired knowledge, yet the mechanisms driving forgetting remain hard to isolate in practice because real datasets entangle many factors. We pre...
持续学习(CL)系统常常遗忘旧知识,但其内在机制难以在复杂数据集中剥离分析。本研究通过合成数据集深入剖析了表征留存过程,揭示了稀疏性、叠加特征与灾难性遗忘之间的机制联系。
做模型微调和迭代的算法同学应该关注。为什么模型学了新数据忘旧数据?这篇论文从机制可解释性角度给出了答案:神经元特征叠加导致的干扰。这为后续开发更稳定的持续学习算法、甚至防止企业大模型在增量训练后“变笨”提供了理论依据。
Vision-language models (VLMs) often generate fluent but visually unsupported descriptions, especially by mentioning objects absent from the image. We propose QK Product Steering, a data-free, training...
视觉语言模型(VLMs)常生成未经图像支持的幻觉描述。本文提出 QK Product Steering,这是一种无需数据、免训练的推理期干预方法,通过调整注意力机制缓解幻觉。
对那些苦于多模态模型“胡说八道”的工程师来说,这种免训练的即插即用模块太实用了,可以直接加到现有的 VLM 推理流程里,不用重新跑微调就能立竿见影压住幻觉。
Large language model (LLM) agents are increasingly proposed as supervisory components for safety-critical systems, yet their robustness under sustained, adaptive adversarial pressure remains poorly ch...
大模型智能体正逐步被引入安全关键系统,但在持续、自适应的对抗攻击下的鲁棒性仍未知。研究全面评估了智能体在多轮红队测试和越狱基准下的表现,揭示了现有安全防线的脆弱性。
单轮对话的越狱测试已经不够用了,现在的攻击者都是通过多轮对话逐步诱导Agent越权调用工具(比如转账或删库)。负责风控的工程师赶紧把你们的测试集升级到多轮对抗模式,别让系统在线上被连环套套牢。
Large Language Model (LLM)-based agents are increasingly being used to automate multi-step engineering work flows by interacting with software tools, interpreting intermediate results, and autonomousl...
基于大语言模型的智能体正被用于自动化多步工程工作流。PowerAgentBench-Dyn 推出了一个专门针对电力系统动态研究的新基准,测试智能体在解释中间结果、自主调用专业软件方面的表现。
大模型在软件工程领域已经卷成红海,但向工业控制等垂直领域渗透才刚刚开始。电力系统这种容错率极低的场景,正好用来检验Agent的长程推理和工具调用能力。工控软件开发商可以借着这类基准测试打磨自己的垂类Agent产品。
Spacecraft guidance, navigation, and control functions are increasingly realized as learned policies distilled from expert solvers. Developing such a policy is itself a research process: an investigat...
航天器的制导、导航与控制功能越来越依赖从专家求解器中蒸馏出的学习策略。Agentic AutoResearch 提出了一种完全可审计的大模型研究智能体,旨在自动化探索和生成这类复杂的航空航天控制策略。
把大模型当作科研工作者来用,做策略探索和代码迭代。这对航空航天这种验证成本极高的领域很有启发:与其让人肉身试错,不如让Agent先在仿真环境跑一套可追溯的完整实验报告,然后再由专家进行复审计。
Safety is a core concern for deploying reinforcement learning (RL) agents in real-world domains such as robotics and autonomous driving. While benchmarks have been central to progress in RL, existing ...
安全性是强化学习(RL)在机器人和自动驾驶等领域落地的核心阻碍。CRAX 提供了一个全新基准,专门针对快速且安全的强化学习进行评估,填补了现有基准在安全约束考量上的空白。
做具身智能和机器人控制的团队可以省事了。以前跑RL算法,稍微没调好机械臂就撞坏,成本极高。这个CRAX基准能帮你在仿真阶段快速筛选出具备安全约束的策略,直接降低了从仿真到实物的迁移风险。
Large Language Models (LLMs) show promise for code compilation tasks, but applying them to runtime performance tuning is difficult due to complex microarchitectural effects and noisy runtime measureme...
尽管大语言模型在代码编译任务上表现出色,但复杂的微架构效应和嘈杂的运行时测量导致性能调优困难。AutoPass 引入证据引导机制,使 LLM 智能体能够更精准地优化编译器性能。
如果你做过底层的性能优化,就知道这活儿比写业务代码吃经验多了。大模型直接介入编译优化是个极具性价比的方向,特别是对于国产芯片或者特殊硬件架构,传统的编译器优化往往覆盖不全,这正是垂类Agent的蓝海市场。
Explicit skill libraries make computer-using agents easier to inspect, but it remains unclear whether such libraries can be mined from interaction data in a way that improves downstream policies. We s...
显式的技能库能让计算机智能体更易被审查,但如何从交互数据中提取有效技能库尚不明确。该研究表明,通过挖掘交互轨迹自动生成 SKILL.md,能够显著提升下游任务策略的执行效果。
做PC助手或RPA的朋友可以借鉴这个做法。与其让大模型从零开始推理怎么操作一个复杂的Excel宏,不如把用户之前的成功操作路径沉淀成结构化的Skill文档再喂给模型,这能极大地提高一次性成功率。
Agent skills are commonly deployed as natural-language Markdown files that encode answer policies, evidence-use habits, and task procedures. These files are readable and portable, but they are consume...
智能体技能通常以自然语言 Markdown 文件形式部署,虽然易读但消耗大量 Token。SoftSkill 提出行为压缩技术,将这些技能文件压缩为短前缀或连续表征,优化上下文适配并降低成本。
Agent的技能库越堆越多,系统Prompt动不动就上万Token,成本和延迟都会爆炸。这个行为压缩思路直击痛点,把常用的长Markdown指令压缩成向量或短前缀,既省了调用成本又不丢上下文,工程落地价值极高。
Large language models (LLMs) have achieved strong performance across a wide range of language-based tasks by leveraging both extensive parametric knowledge and in-context learning ability, enabling th...
大模型依赖参数化知识与上下文学习能力处理任务。当用户提供的外部上下文与模型固有知识相悖时,推理会受影响。该研究提出显式知识冲突消解机制,提升模型在矛盾信息下的鲁棒性。
做企业知识库问答的同学肯定遇到过这种无语情况:RAG系统明明搜到了最新规章,但大模型非要用自己过时的训练数据回答。引入这种显式的知识冲突消解机制,相当于让模型学会在冲突时自我校验并优先采用高可信度来源。
We present Phoenix, a multi-agent LLM system that resolves GitHub issues from triage through pull-request creation, combining seven layered safety controls with a baseline-aware test evaluation strate...
Phoenix 是一个多智能体大模型系统,旨在解决从分类到创建 Pull Request (PR) 的 GitHub issue。该系统结合了七层安全控制机制和基线感知的测试评估策略,保障代码修复的安全性与准确性。
Devin 火了之后一堆 Auto-PR 工具如雨后春笋,但这篇论文抓住了痛点:安全性和可验收性。七层安全控制和基线感知测试的思路值得国内代码助手厂商学习,毕竟直接往生产仓库推代码,没有严密的沙箱测试兜底绝对不敢上。
Multimodal Large Language Models (MLLMs) have demonstrated remarkable success in various Remote Sensing (RS) tasks. However, their ability to comprehend negation remains underexplored, limiting deploy...
多模态大语言模型在遥感(RS)任务中表现出色,但对“否定”语义的理解能力仍未被充分挖掘。这限制了模型在复杂遥感场景中准确排除特定目标的部署能力。
做 2C 视觉大模型的人可能觉得否定理解不是事儿,但在航拍、安防这些严肃场景里,把“没有机场的图片”识别成“有机场”是要命的安全事故。这篇论文给遥感视觉模型的落地踩实了最后一块防呆板。
AI agents may soon search for and use their own tools at runtime, thanks to a new open standard backed by Microsoft and Google.
得益于微软和谷歌支持的一项全新开放标准,AI 智能体未来或能在运行时自主搜索并调用合适的工具 API。
这算是对 MCP(模型上下文协议)生态的巨大补强。以前 Agent 只能用开发者硬编码进去的工具,以后能自己上网找 API,这是从“单体智能”向“全网自动化协作”演进的关键起点,工具提供商将迎来巨大的 API 分发流量。
Large language models (LLMs) are increasingly applied to computer-aided design (CAD) to generate design artifacts from textual instructions. In engineering practice, this requires more than creating n...
大模型正越来越多地应用于 CAD 以生成设计工件,但在工程实践中还需要修改现有模型。BIM-Edit 基准专门评测 LLM 理解和编辑基于 IFC 标准的建筑信息模型的能力。
传统的文生图大模型只能做前期概念设计,真要落地到施工图阶段必须懂 IFC 标准。BIM-Edit 评测指明了垂直领域 AI 创业的新蓝海,谁能拿下 IFC 数据的修改能力,谁就能吃下 AEC(建筑、工程、施工)行业的百亿利润。
The KV cache now outweighs model weights at long context. Here's how TurboQuant, OSCAR, and EpiCache each attack that memory bottleneck — and why they're more complementary than competitive.The postTh...
在处理长上下文时,KV 缓存的内存占用已经超过了模型权重。文章对比了 TurboQuant、OSCAR 和 EpiCache 三种前沿技术如何攻克这一内存瓶颈,并指出它们更多是互补而非纯竞争关系。
长文本推理成本高,90% 都是 KV Cache 在吃显存。搞推理加速的同学赶紧把这三种方案组合用起来,量化(TurboQuant)加驱逐(OSCAR)的组合拳能让你们的长文本部署成本直接砍半。
MLLM-based mobile GUI agents have made substantial progress in UI understanding and action execution, but adapting them to real target apps remains costly because mobile apps are numerous, frequently ...
基于多模态大模型的移动端 GUI 智能体在 UI 理解上进步显著,但适配海量且频繁更新的目标 App 成本高昂。MobileForge 提出一种无标注适配框架,利用分层反馈引导策略优化,实现低成本迁移。
手机厂商和做RPA的团队必看。现在最大的痛点不是Agent能不能点对按钮,而是微信一更新UI,原来录制的脚本或者微调的模型就全废了。这种无需人工重新打标的自适应策略,能极大降低跨App和跨版本的维护成本。
MLLM-based mobile GUI agents have made substantial progress on short-horizon tasks, yet remain unreliable on long-horizon tasks that require retaining intermediate facts across many steps and app tran...
现有的移动端 GUI 智能体在短程任务上表现良好,但面对跨越多个步骤和 App 转换的长程任务时往往失效。MemGUI-Agent 引入了端到端的主动上下文管理机制,有效保留中间事实,提升长程可靠性。
现实中让手机Agent帮你订个票顺便发个微信行程,往往因为跨App切换导致上下文丢失而中断。MemGUI-Agent提出的主动上下文管理,相当于给Agent加了个短期记忆水壶,在跨App流转时能保持状态不丢失,这是走向真实个人助理的关键一步。
OpenAI's LifeSciBench evaluates whether frontier AI can handle real life-science research across 750 expert-authored tasks, seven workflows, and seven biological domains. Built by 173 PhD scientists w...
OpenAI 发布的 LifeSciBench 旨在评估前沿 AI 在真实生命科学研究中的能力。该基准包含 750 个由 173 位博士科学家编写的任务,覆盖七大生物领域和工作流。
由 173 位 PhD 撰写评测标准,说明 OpenAI 正在按图索骥地寻找生物学领域的 KILLER APP。做 AI4Science 的初创公司必须跑一下这个评测,这直接反映了你们的技术在大厂真实业务管线里能打多少分。
In this tutorial, we use NVIDIA SkillSpector to evaluate AI skills for security risks before deployment. We build a corpus of benign and deliberately vulnerable skills, then scan them through SkillSpe...
该指南使用 NVIDIA SkillSpector 工具,通过静态分析扫描 AI 技能包,在部署前发现潜在的安全漏洞,并输出标准化的 SARIF 格式安全报告。
Agent 生态即将迎来大爆发,第三方插件/技能的安全审核成了刚需。如果企业要部署支持第三方插件的 Agent 系统,这套基于静态分析的安全扫描方案可以直接集成进 CI/CD 流水线防患于未然。
如何评估开源模型是否具备接入自有工具链执行任务的能力至关重要。该测试方法专注于评估模型在特定业务环境和工具集下的智能体化表现。
不要再迷信那些通用的 Agent 跑分了,脱离了你的业务 API 谈智商都是耍流氓。这套测试思路告诉开发者:拿你公司自己的内部工具链去跑个小样本评测,才能看出 Qwen 和 Llama 谁真正适合你的业务场景。
LoRA 是目前最流行的大模型参数高效微调(PEFT)技术。本文探讨并测试了是否有其他替代方案能够在微调效率或效果上超越 LoRA。
LoRA 虽好但在拟合极其复杂的领域知识时仍有欠拟合。这篇评测给算力受限的开发者提供了一个很好的技术选型参考,例如在端侧多模态微调场景下,现在有不少比纯 LoRA 更优的变体值得尝试。
Passive models for long video understanding typically rely on a "watch-it-all" paradigm, processing frames uniformly regardless of query difficulty, causing computational cost to grow with video durat...
针对传统长视频理解模型“全盘观看”导致计算成本随时长线性暴增的问题,研究提出主动感知机制,根据查询难度动态调整需要处理的视频帧。
长视频处理成本太高一直是痛点。引入主动感知,让模型像人眼一样“带问题去扫视”而不是均匀抽帧,能大幅削减算力账单。这对做视频审核、监控分析等需要处理海量长视频流的企业来说直接降本增效。
Progress in legal AI increasingly depends on access to authoritative legal text at scale. Yet one of the most consequential layers of American law remains largely absent from existing machine-readable...
法律人工智能的发展严重依赖于权威法律文本的大规模获取,但美国法律体系中最关键的地方法规层目前缺乏机器可读的格式。LOCUS 填补了这一空白,提供了一个全面的美国地方法规语料库。
LegalTech 创业者苦数据久矣,没有结构化的地方法规根本没法做合规分析。LOCUS 补齐了法律 AI 垂域最底层的数据拼图,基于这个高质量语料库,中小型团队也能做出比肩大厂的美国地方法律咨询 Copilot。
Post-training of reasoning language models is commonly driven by supervised distillation and reinforcement learning with verifiable rewards. Distillation often relies on chain-of-thought annotations t...
推理语言模型的训练常依赖思维链标注进行蒸馏,或使用带可验证奖励的强化学习。该研究提出一种基于评分表的条件自蒸馏技术,以优化这两类训练范式的结合效果。
纯靠强化学习(RLVR)跑推理模型很容易遇到 reward hacking,而纯知识蒸馏又缺乏边界感。引入 Rubric 做自蒸馏给了我们一个新的后训练思路,能低成本把专家级别的评分标准内化给小模型。
Production data integration is bottlenecked by repeated, lossy handoffs between data owners, engineers, and analysts who must collaboratively discover, structure, and query enterprise data. We present...
为解决数据所有者、工程师和分析师之间反复低效交接导致的生产数据集成瓶颈,研究提出自主编码的数据智能体,实现企业数据的自动化发现、结构化与查询。
Text2SQL 只是起点,能自主写代码做数据清洗和建模才是真正的企业级 BI 解决方案。做内部数据系统的工程师可以参考这个思路,让 Agent 去跑 ETL 脚本,彻底释放数据团队处理零散需求的人力。
Enhancing the formal math reasoning capabilities of Large Language Models (LLMs) has become a key focus in both mathematical and computer science communities in recent years. While significant progres...
提升大语言模型在形式化数学推理方面的能力一直是难题。该研究跳出传统的自回归生成框架,探索扩散模型在形式化定理证明任务中的配方与潜力。
大家都在卷自回归模型的推理能力,但扩散模型天生具备的全局规划能力可能才是解开复杂数学证明的钥匙。如果你在关注 Reasoning 模型的前沿,这篇论文提供了一个反共识但极具潜力的发展方向。
Large language model (LLM)-based multi-agent systems (MAS) have demonstrated great potential in solving tasks with execution complexity, by distributing subtasks across cooperative agents. However, th...
基于大模型的多智能体系统在分配协作任务时,容易因利益冲突或信息不对称陷入次优解。研究引入虚拟博弈机制,提升多智能体复杂任务下的决策鲁棒性。
做 Multi-Agent 系统的开发者经常头疼 Agent 之间怎么协调。借鉴博弈论里的虚拟博弈机制来拟合对手策略,比简单设置一个“manager”去硬性分配任务要平滑得多,特别适合模拟复杂商业或对抗环境。
Vercel has open-sourced eve, an Apache-2.0 agent framework now in public preview. An agent is a directory of files, with durable execution, sandboxes, approvals, connections, channels, and evals built...
Vercel 开源了 Apache-2.0 协议的 Agent 框架 eve。它将智能体定义为一系列文件的目录,内置了持久执行、沙箱、审批、连接和评测能力。
对全栈开发者极其友好的架构设计。把 Agent 声明式地封装成文件夹映射,内置沙箱和审批流,免去了开发者从零搭脚手架的痛苦,估计很快会流行起来,前端转 AI 的团队建议直接拿来魔改。
Embodied Vision-Language-Action (VLA) models are typically obtained by fine-tuning powerful pretrained VLMs on robotics data, yet it is unclear how much commonsense and factual knowledge they retain a...
具身视觉-语言-动作(VLA)模型通常基于强大的预训练 VLM 微调而来,但研究发现它们在机器人数据上微调后,保留常识和事实知识的能力存在疑问。
给做具身智能的团队提了个醒:在注入物理动作控制能力时,别把大模型原有的逻辑推理能力“灾难性遗忘”了。机器人如果只会抓取却听不懂复杂人话指令,离真正的通用家庭机器人还差得远。
The knowledge encoded in large language models (LLMs) can serve as a substrate for structured reasoning over variables describing a complex world, but accessing this knowledge in a probabilistically c...
大语言模型编码的知识可作为复杂世界变量进行结构化推理的基础,但在概率上一致性访问这些知识面临挑战。该研究引入大型语言模型吉布斯采样,以实现可靠的结构化推理。
直接让 LLM 输出结构化 JSON 经常出现逻辑冲突,核心就是缺乏概率一致性约束。引入吉布斯采样的思路,给那些需要极高容错率的金融量化分析和工业调度场景提供了一个硬核的工程兜底方案。
Block diffusion language models accelerate decoding through parallel block-wise denoising, yet whether they can be reliably scaled for long chain-of-thought (CoT) reasoning remains unresolved. To this...
块扩散语言模型能通过并行去噪加速解码,但其能否可靠地扩展至长链推理任务尚不明确。DreamReasoner-8B 引入分块课程学习,成功提升了扩散模型在长逻辑链上的稳定性。
长思维链(Long CoT)带来的解码延迟是推理模型上线的巨大阻碍。DreamReasoner 将扩散模型的并行生成引入 CoT 推理,给急需降低首字延迟的 Agent 交互场景指出了一条明路。
Artificial intelligence (AI) agents promise to accelerate drug discovery by compressing interpretation and decision-making loops, but practical deployment requires trusted evaluation on realistic prog...
虽然 AI 智能体有望通过加速解释和决策闭环来缩短药物发现周期,但在实际部署前需要可信的评估。TxBench-PP 旨在评估智能体在真实临床前药理学任务中的表现。
AI 药物研发现在进入了拼临床前数据的深水区。这个基准测试不搞虚的,直接测临床前药理,这是决定一款 AI 研发药物能不能进入动物实验甚至临床的关键门槛,能帮药企筛掉大量不靠谱的 AI 模型。
AI agents now handle personal data through tool use, function calls, and multi turn dialogue, which can create obligations under the General Data Protection Regulation (GDPR). Current testing practice...
随着 AI 智能体通过工具调用和多轮对话处理个人数据,这触发了 GDPR 等法规的合规义务。本研究提出针对智能体运行时的合规性自动化验证机制。
Agent 跑飞了乱调内部 API 泄露用户隐私是大概率事件。在 Agent 框架底层加一层运行时合规验证太有必要了,做 C 端 Agent 产品的团队如果不提前部署这套验证,分分钟吃 GDPR 罚单。
Reinforcement Learning with Verifiable Rewards algorithms like GRPO have emerged as the dominant post-training paradigm for complex reasoning in LLMs, yet commonly suffer from policy entropy collapse ...
像 GRPO 这样基于可验证奖励的强化学习算法在训练复杂推理 LLM 时,常出现策略熵迅速下降的问题。STARE 通过 token 级的优势重加权机制来稳定熵值,防止模型过早失去探索能力。
策略熵崩溃是大家在做 GRPO 训练时最头疼的问题,模型一旦失去探索性就会卡在局部最优。STARE 提供的 token 级权重调整思路非常巧妙,能有效延长模型的高效学习期,对自研推理模型的团队来说是个必须码住的 trick。
Code large language models increasingly retrieve external code context from repositories, documentation, issue threads, and coding-agent environments, creating an indirect prompt-injection surface whe...
针对代码大模型从代码库、文档或 Agent 环境中读取外部上下文时面临的间接提示词注入攻击面,研究提出 CodeSentinel 三层防御架构以确保代码安全。
用 Cursor 或 Copilot 写代码的开发者要注意,第三方代码包里藏的恶意 Prompt 可能会操控你的 AI 写出不安全代码。这种针对开发环境的间接注入防御方案非常及时,企业采购 AI 编程工具时必须考虑这个安全指标。
Agent skills allow LLM-based coding agents to acquire domain-specific capabilities from third-party packages, but they also introduce a new supply-chain attack surface. We present PhantomSkill, an att...
Agent 技能允许大模型从第三方包获取能力,但也引入了新的供应链攻击面。PhantomSkill 展示了黑客如何通过恶意代码注入对 Agent 生态系统发起攻击。
Agent 插件市场迟早会重演 npm/pypi 供应链投毒的覆辙。这是悬在所有 AI Coding Agent 头上的达摩克利斯之剑,做 Agent 平台生态的必须从底层设计沙箱隔离机制,否则整个生态都会被黑客拖垮。
Personal memory in a language model is two problems: content and reasoning skill. The brain keeps the two apart (a sparse, local engram in the hippocampus for each episode, a slow neocortex for the sh...
语言模型的个人记忆包含内容和推理能力两个层面。受大脑海马体局部稀疏记忆印迹启发,该研究通过局部参数编辑的方式将用户专属记忆与模型通用能力解耦。
端侧做真正的 Personal LLM,光靠 RAG 检索外部文本是不够的,还会拖慢推理。把用户记忆直接写进局部参数的思路不仅解决了遗忘问题,还大幅降低了部署延迟,这是消费级 AI 硬件实现深度定制化的一个重要技术拐点。
To achieve deeper safety alignment for large language models (LLMs), recent efforts have studied how to push safety interventions earlier into the pretraining stage, primarily by filtering unsafe data...
为了使大语言模型实现更深度的安全对齐,研究者开始将安全干预推前至预训练阶段。该工作摒弃了单纯过滤有害数据的做法,转而采用定期安全反思的机制来构建更安全的基座模型。
现在大家终于想通了:在 Post-training 阶段用 RLHF 补安全不仅费劲还容易把模型搞傻。在预训练阶段直接引入安全反思才是治本的方法,这会改变后续基座模型的发布形态,直接降低下游应用的安全微调成本。
AudioLLMs enable speech recognition conditioned on textual prompts such as domain descriptions or entity lists. However, it remains unclear whether these models genuinely utilise such context or rely ...
音频大模型能够根据领域描述或实体列表等文本提示来调整语音识别结果。该基准测试评估 AudioLLMs 在 8 种印度语中是否真正有效利用了上下文信息。
做语音大模型的团队应该关注一下这个基准,之前大家都默认模型能听懂提示词,但实际上多语种场景下的上下文遵从能力参差不齐。如果你的产品要出海东南亚或南亚,这个评测结果能帮你避坑。
As large language models (LLMs) advance and multi-agent systems aim to overcome the limits of standalone agents, robust communication protocols are becoming essential infrastructure for distributed ag...
随着大模型多智能体系统试图突破单智能体限制,建立稳健的通信协议正成为分布式智能的关键基础设施。本文对现有的智能体通信协议进行了系统性的技术分类与梳理。
Agent 之间不能只靠拼 Prompt 来对话,需要标准化的通信协议。这篇文章对现有协议的盘点非常有价值,这就像是 Agent 世界的 HTTP 协议,谁掌握了主流协议的定义权,谁就掌握了未来的 Agent 生态入口。
Current image editing methods excel at static attributes but fail at complex Human-Object Interactions (HOI), a critical challenge unaddressed by existing benchmarks that conflate HOI with static attr...
现有图像编辑方法在静态属性上表现出色,但无法处理复杂的人机交互(HOI)。研究提出了一种认知基准和自纠正智能体框架,利用 I2V 模型解决复杂 HOI 图像编辑挑战。
传统修图软件能改颜色但改不了动作逻辑。用 I2V 模型配合自纠正 Agent 来处理人机交互的逻辑修改,算是切中了电商海报生成和复杂场景渲染的刚需,做 AIGC 图像生成的团队可以直接借鉴这个新范式。
Multi-turn tool-use RL is bottlenecked by the rapid depletion of informative samples in static datasets. We observe that the gradient signal in GRPO concentrates on tasks with the highest rollout rewa...
多轮工具调用强化学习常因静态数据集中有效样本耗尽而遇到瓶颈。RODS 技术通过观察 GRPO 算法中的梯度信号,在线动态合成高价值的新训练数据,以维持模型的学习效率。
做 Agent RL 训练的开发者肯定遇到过“模型训着训着就不更新了”的困境,这通常是静态数据集耗尽导致的。RODS 提供了一套很实用的在线扩样配方,能直接拿来缓解多轮 Tool-use 场景下的梯度消失问题。
Agents are increasingly deployed in document-intensive workflows where sensitive private information is not an edge case but a routine input, e.g., an agent booking a flight needs passport numbers. In...
在处理机票预订等密集文档工作流时,智能体常接触护照号等敏感隐私。TRAP 基准重点测试智能体在完成复杂任务的同时,能否抵抗针对隐私数据的主动提取攻击。
现在大厂都在推能操作浏览器的 Computer Use Agent,但一旦碰用户的邮箱和支付信息,隐私合规就是红线。TRAP 抓住了 Agent 安全评估的痛点,如果你在做企业级智能体,这套测试集可以直接作为上线前的安全门禁。
OpenAI and Molecule.one show how a near-autonomous AI chemist using GPT-5.4 improved a key drug-making reaction, advancing medicinal chemistry research.
OpenAI 和 Molecule.one 展示,基于 GPT-5.4 构建的近乎自主的 AI 化学家,成功优化了药物合成中的一项关键反应,推进了药物化学研究。
AI4Science 领域的重磅案例。说明大模型不仅仅是“写代码助手”,在结合专业工具和实验数据后,已经具备作为高级科研副手的潜力,能实质性缩短创新药合成路线的探索周期。
GLM-5.2 发布,该模型专为处理需要多步骤、长时间跨度规划与执行的长程任务而设计。
国内模型厂商现在都在卷 Agent。GLM 直接把靶心对准“长程任务”,这意味着上下文窗口、长程推理稳定性和工具调用连贯性将是各家 API 比拼的核心硬指标。
MiniMax released MSA, a sparse attention built on Grouped Query Attention. A lightweight Index Branch selects Top-k key-value blocks per query and GQA group; the Main Branch attends only to those bloc...
MiniMax 发布 MSA 稀疏注意力机制,基于分组查询注意力(GQA),通过轻量级索引分支筛选 Top-k KV 块,主分支只关注这些块,从而大幅降低计算量。
稀疏注意力又添一员猛将。用极小的索引网络动态剪枝 KV Cache,在 109B 这种规模的 MoE 上跑 3T 数据,说明其在超长上下文场景下的工程可行性极高。这对于极低成本的 API 定价是直接的利好。
OpenAI introduced Deployment Simulation on June 16, 2026. The method replays past conversations through a new candidate model before release. It then grades the completions to estimate deployment-time...
OpenAI 引入“部署模拟”机制,在正式发布前用候选模型重放历史对话,并模拟工具调用,以评估并打分其在智能体编码场景下的实际部署风险。
这是做 Agent 安全对齐的标杆案例。模型在纯对话里安全,不代表赋予它代码执行权限后还安全。这种通过模拟真实工具调用来做预发布 Red-teaming 的方法,非常值得企业级 AI 应用团队复用。
AI web agents can perform complex, multi-step tasks such as searching for products, comparing options, and making purchases on behalf of users. However, verifying the correctness of an agent's output ...
AI Web 智能体能代用户执行比价、购物等复杂多步任务,但很难验证其输出正确性。HANSEL 通过在智能体的操作轨迹中提取“面包屑”线索,实现对执行过程的交互式验证。
阻碍 Web Agent 商业化的最大痛点就是“胡乱点击”导致的错误操作。HANSEL 的轨迹验证机制给 Agent 加了一层安全网,这对需要极高准确率的电商自动化采购场景来说是个非常实用的工程化解法。
We implement xFormers, a practical toolkit for fast, memory-efficient Transformer models on GPUs. We validate memory-efficient attention against a standard implementation, then compare speed and memor...
文章介绍了如何使用 xFormers 工具包在 GPU 上构建快速且节省内存的 Transformer 模型。通过对比标准实现,验证了高效注意力机制在速度和内存上的优化效果。
对于显存紧缺的创业团队来说,这是一份即插即用的显存优化指南。把 Packed Sequences 和 GQA 结合起来,长文本训练的吞吐量起码能提升一个台阶。
Introducing LifeSciBench, an expert-authored, expert-reviewed benchmark for evaluating how AI systems handle real-world life science research tasks and decisions.
LifeSciBench 是一个由专家撰写并审查的全新基准测试,专门用于评估 AI 系统在处理真实世界生命科学研究任务和复杂决策时的表现。
大模型在通用考试上已经卷不出差距了,真正的价值在于垂直学科的专业能力。这个由专家把关的基准能扒掉很多通用大模型“懂医学”的底裤,医疗 AI 创业公司以后拿这个给投资人讲技术壁垒会很有说服力。
Unified Multimodal Modeling aims to integrate visual understanding and generation within a single system. However, existing approaches typically rely on two disparate visual tokenizers, which splits t...
针对现有统一多模态模型在视觉理解与生成上使用不同分词器导致割裂的问题,研究提出使用单一的共享上下文视觉分词器,以实现真正的多模态大一统自回归建模。
这是通往真正多模态大一统的关键一步。以前理解和生成是两套体系,现在用一个 Tokenizer 串起来。对于需要同时做图像视觉问答(VQA)和文生图的业务来说,这能大幅降低模型维护成本。
Current world models face a fundamental tension: faithful long-horizon simulation demands deep computation, but deeper models are expensive to deploy and prone to compounding errors. We resolve this b...
当前世界模型面临根本性矛盾:长期的忠实模拟需要深度计算,但深层模型昂贵且易产生累积误差。本文通过引入循环架构来解决这一矛盾。
用循环架构代替无脑堆深,这种用时间换空间的思路和 OpenAI o1 模型的推理机制有异曲同工之妙。对于做端侧推理的团队来说,这种低延迟、抗误差累积的设计太香了。
Looped architectures provide an inductive bias toward learning step-by-step procedures for tasks that require compositional reasoning. The number of effective layers reached by looping determines the ...
循环架构为需要组合推理的任务提供了逐步学习的归纳偏置。本文提出“定点推理器”,通过寻找稳定的不动点来决定循环层数,实现自适应深度的推理。
让模型自己决定“什么时候想明白什么时候停”,这比写个死板的规则要优雅得多。这种寻找不动点的机制,为那些算力受限但需要复杂逻辑链的 Agent 场景提供了一条新出路。
The LLM-empowered personal health agents with user health (sensor) metrics have offered a promising pathway to alleviate global disparities in healthcare access. However, large-scale clinical deployme...
结合用户健康传感器数据的 LLM 个人健康智能体有望缓解医疗资源不均。然而,为了实现大规模临床部署,本文提出了 RubricsTree,一种可扩展且不断演进的开放式评估方法。
医疗大模型光靠刷医学选择题(USMLE)已经不够用了。这种引入真实传感器数据的动态评估树,倒逼着 AI 医疗产品从“答题机器”向真正的“私人健康管家”转型。
Agent skills are emerging as an important attack surface in LLM-based systems. Through an empirical study of existing skill scanners, we find that current defenses primarily rely on textual descriptio...
Agent 技能(插件)正成为 LLM 系统的重要攻击面。研究发现现有防御主要依赖文本检测,多模态隐藏指令攻击可以通过在图像中藏匿指令绕过扫描器。
这波打脸了市面上绝大多数做多模态 RAG 的团队。当 Agent 接入外部图片或 PDF 时,如果不做多模态层面的越狱检测,用户数据分分钟被恶意指令打包带走。
On-policy self-distillation (OPSD) has proven effective for post-training large language models (LLMs), yet its application to diffusion LLMs (dLLMs) remains unexplored. Existing OPSD methods are inhe...
研究将在线策略自蒸馏(OPSD)引入扩散大模型,解决了现有自蒸馏方法内在的非在线策略缺陷,提升了模型的后训练效果。
扩散大模型作为 LLM 的有力替代者,目前主要瓶颈在于后训练对齐。OPSD 方法证明了对扩散模型同样有效,给试图优化 dLLM 推理稳定性和指令遵循能力的团队提供了一条新路径。
We evaluate the adversarial robustness of two frontier large language models (LLMs) developed by Anthropic, Fable 5 and Opus 4.8, against four families of automated jailbreak attack across 7 826 harmf...
研究评估了 Anthropic 开发的两款前沿大模型 Fable 5 和 Opus 4.8 在面对 7826 种有害提示和四类自动越狱攻击时的对抗鲁棒性。
红队测试报告永远是了解前沿模型安全边界的最直接材料。如果这两款代号新模型真的即将发布,这种极高强度的越狱攻防评测,说明大厂的安全合规战已经打到了毫秒级。
Deep research (DR) systems are increasingly used for complex information-seeking tasks, but existing works mainly focus on generating reports and summaries. In contrast, many enterprise tasks instead ...
深度研究系统多用于生成报告,但许多企业级任务需要预测和执行个性化的研究工作流。DRFLOW 基准专门评估模型在这方面的能力。
过去半年大家都在卷“一键生成深度研报”,但这篇指出“生成内容”只是表象,“对齐企业内部工作流”才是买单的核心。工作流自动化(RPA)厂商应该重点关注这个 Benchmark。
Illegal, unreported, and unregulated fishing (IUU) traditionally refers to fishing activities that violate applicable laws or occur in areas that lack applicable laws. We propose the term IUU+ to capt...
研究提出 IUU+ 概念,利用大语言模型从非结构化文本中提取信息,追踪传统上缺乏有效监管的非法、未报告和无管制(IUU)捕捞、海鲜欺诈及劳工滥用问题。
这是大模型在垂直领域非结构化数据处理的一个典型应用。对于合规和供应链风控的开发者来说,利用 LLM 自动解析复杂的监管文件和新闻来建立风险数据库,比传统的正则匹配省事太多。
Chain-of-thought generation can turn a multi-step computation into a sequence of locally checkable state updates, but the training dynamics by which transformers acquire such updates remain poorly und...
研究通过构建可解的 Transformer 模型,深入探讨了模型如何通过思维链将多步计算转化为局部可检查的状态更新,并揭示了模型在训练过程中掌握这种能力的内在动态机制。
想搞懂大模型“思维链”到底是怎么运作的,这篇文章必读。它从机理上解释了 CoT 为什么能提升复杂计算准确性,对后续设计更高效的 Transformer 架构或提示词工程有很强的指导意义。
Large language models now produce legal text of at least median quality, yet no existing benchmark can evaluate whether they perform doctrinal legal reasoning, which forms the interpretive core of leg...
尽管现有大模型生成的法律文本质量已达中位数水平,但目前缺乏评估其是否真正执行教义法律推理的基准。本研究针对《欧盟AI法案》提出了全新的评估基准。
做 LegalTech 的团队要注意,大模型写出来的法律文书“看着像”和“逻辑对”是两码事。这个基准测试填补了合规审查自动化的空白,直接影响 AI 法务产品能不能真正落地。
Recent incidents involving LLMs used for mental-health support reveal a critical evaluation gap: surface-level safety scores do not capture how models behave across realistic, emotionally sensitive in...
针对大模型在心理健康支持场景中的评估盲区,研究指出表面安全得分无法反映模型在真实敏感情绪交互中的表现,揭示了模型在长时间运行后可能出现的认知能力下降问题。
做陪伴类和心理类 AI 产品的开发者需要警惕,不要迷信跑分。模型在复杂多轮对话中如果出现共情能力下降或行为漂移,用传统的单轮安全评分根本测不出来,得多关注对齐和记忆衰减。
Modern AI systems increasingly solve a task not with a single model call but with several imperfect agents working together: some propose pieces of a solution, others verify them, and the results are ...
现代 AI 系统越来越多地使用多个不完美的 Agent 协同工作(提出方案、验证结果)。本文研究了这类 Agent 网络的可靠性,引入了密度演化和停止集等概念进行架构优化。
把通信理论里的信道解码那套理论搬到了多 Agent 系统里,这个跨学科视角非常绝。它证明了单纯堆 Agent 数量没用,必须要设计合理的“提出-验证”拓扑结构才能收敛。
State Space Models (SSMs) such as Mamba-2 offer linear-time inference but their memory footprint limits edge deployment. Prior ternary SSM work (Slender-Mamba) trains from scratch on 150B tokens; we s...
针对 Mamba 等状态空间模型(SSM)显存占用大、难以在边缘设备部署的问题,本研究提出三值化分组量化感知训练方案(W1.58A16),显著降低模型体积。
Mamba 架构在端侧推理的落地又近了一步。把权重压到 1.58-bit 还能保持线性推理复杂度,对手机、机器人等算力受限的硬件极其友好,端侧开发者在做本地部署时可以多关注这个方案的显存收益。
Agentic navigation systems require a base navigation model whose observation strategy can be externally reconfigured at inference time, because instruction following, object search, target tracking, a...
阿里 Qwen 团队发布 RobotNav 报告,指出导航系统需要能在推理时外部重配置观测策略的基础模型,以适应指令跟随、目标追踪等动态任务。
通义千连发两篇机器人报告,可以看出其端到端布局策略:上层 Manipulation,底层 Navigation。这种允许在推理时动态重配观测的架构,对于搞仓储物流和巡检机器人的开发者是个大利好。
Recent advances in Large Language Models (LLMs) and multi-agent systems have driven the rise of Agentic AI, showing promise for medical reasoning. However, open-ended conversational agents remain pron...
尽管大模型在医疗推理中很有潜力,但开放式对话 Agent 容易产生幻觉或过早得出结论。本文提出一种 Agentic AI 框架来缓解这些问题。
医疗误诊的代价是致命的,这个框架抓住了“幻觉不仅是不懂装懂,还有可能是信息没收集全就乱下结论”这个痛点。引入多步骤的 Agent 制衡机制,是国内医疗大模型拿证落地必须补上的课。
As LLM-driven multi-agent systems (MAS) transition from lab to production, system behavior exhibits nonlinear degradation. We introduce the Intelligence Entropy Principle: probability-driven systems s...
随着 LLM 驱动的多智能体系统(MAS)走向生产,系统行为表现出非线性退化。本文提出了“智能熵原则”以及 ADE 框架来解决概率驱动系统的稳定性问题。
把热力学里的“熵”引入多智能体系统的混乱度评估非常精准。对于搞 Agent 编排的工程师来说,这套 ADE 框架就是防止你的系统在线上跑着跑着突然逻辑崩溃的救命稻草。
LLM agents increasingly rely on external skills -- reusable tool specifications -- but real-world tasks often require composing multiple skills, not just selecting one. We formalize this as the Compos...
现实任务往往需要组合多个外部工具(技能),而非单一调用。本文将此形式化为“组合式技能路由”问题,提出了分解、检索和组合的解决路径。
如果你试过让 Agent 串联三个以上插件就会发现,单步调用容易,多步组合必崩。这项研究直击痛点,有望成为 OpenAI Function Calling 之外、处理复杂工作流的新范式。
Vision-language-action models (VLAs) combine vision-language backbones with expressive generative action heads trained via flow matching on large-scale robotic datasets. Despite their strong empirical...
视觉-语言-动作模型(VLAs)结合生成式动作头,在机器人任务中表现出色。但在关键场景中,量化其输出的不确定性至关重要。本文提出了一种针对 Flow-based VLAs 的不确定性量化方法。
机器人不能只知其然不知其所以然,当机械臂面对没见过的物体时,它必须知道自己“心里没底”。这种不确定性量化能力,是具身智能从实验室 Demo 走向无人工厂的前提条件。
Tool-using LLM agents increasingly use the Model Context Protocol (MCP) to answer from heterogeneous evidence sources, including search, APIs, databases, clinical records, and formulary tools. Standar...
使用工具的 LLM Agent 常通过模型上下文协议(MCP)从异构证据源(如 API、数据库、病历)回答问题。标准验证方法难以应对,ProvenanceGuard 提供了一种具备溯源能力的验证机制。
Anthropic 最近猛推的 MCP 协议虽然统一了接口,但也引入了数据来源不可信的风险。这个溯源验证方案正当其时,企业级知识库 RAG 若能集成,能省去大量因“胡编乱造”带来的法务麻烦。
AI systems deployed in legal workflows hallucinate at rates that aggregate metrics report at ~52%, but this average conceals where errors concentrate and in which direction they run, leaving complianc...
部署在法律工作流中的 AI 系统幻觉率高达 52%。LegalHalluLens 提出了类型化幻觉审计和多 Agent 校准辩论机制,以确保法律 AI 的可信度。
超过一半的综合幻觉率足以让所有法律大模型冷汗直流。这篇文章的价值在于细分了幻觉的方向和集中点,用多 Agent 互相“抬杠”来纠错,是目前 ToB 垂域大模型最务实的落地路线。
Visual attribution is a fundamental tool for interpreting modern vision and vision-language models, particularly when their decisions must be inspected, diagnosed, or audited. Its goal is to explain h...
视觉归因是解释现代视觉和视觉语言模型的重要工具,旨在解释模型为何做出某种决策。PhaseWin 算法提供了一种高效的搜索方案,用于更精准地进行视觉归因。
随着多模态大模型在医疗、自动驾驶等高风险场景落地,模型的可解释性不再是锦上添花而是合规刚需。这类归因算法能帮工程师快速定位视觉模型的“盲点”。
Semi-supervised medical image segmentation has emerged as a dominant research problem in medical image analysis, mitigating annotation scarcity by leveraging consistency regularization on unlabeled da...
半监督医学图像分割通过利用未标记数据的一致性正则化来缓解标注稀缺问题。本文提出利用思维链(Chain-of-Thought)增强推理来提升模型表现。
医疗 AI 最大的痛点就是昂贵的医师标注数据。用 CoT 来榨取未标注数据的价值是个巧妙的转向,说明纯粹的 Scaling Law 在垂直领域正在让位于结构化的训练策略。
When vision contradicts text, multimodal large language models (MLLMs) consistently favor text, even when images provide clear evidence otherwise. This bias poses risks for applications requiring visu...
当视觉信息与文本矛盾时,多模态大语言模型(MLLMs)往往会忽略图像证据而盲目相信文本。这种偏见对需要视觉敏锐度的应用构成风险,研究提出了一种追踪和纠正深层文本偏见的方法。
这其实暴露了当前多模态模型“重文本、轻视觉”的架构通病。如果能从底层注意力机制解决这种模态对齐偏差,多模态 RAG(检索增强生成)的幻觉问题就能迎刃而解。
Most Vision-Language-Action (VLA) models map observations directly to actions without explicit reasoning, limiting their capacity for reasoning-intensive long-horizon tasks. To address this, existing ...
现有的视觉-语言-动作(VLA)模型大多直接将观测映射为动作,缺乏明确的推理过程。ThinkingVLA 引入了交织的视觉和语言推理,以解决长时序复杂任务的能力瓶颈。
具身智能正在从“反应式”走向“深思熟虑式”。加入语言推理模块意味着机器人处理“帮我把桌上的苹果放进冰箱”这种长链路指令的成功率会大幅提高。
Foundation models in language and multimodality achieve strong generalization by aligning heterogeneous data under a unified formulation and training at scale. In this report, we investigate whether t...
阿里 Qwen 团队发布了机器人操作技术报告,探讨了将语言和多模态基础模型的对齐技术应用于异构机器人数据,验证了规模化训练在机器人操作中的效果。
通义千问把大模型的对齐套路成功降维打击到了机器人领域,这意味着具身智能终于摸到了 Scaling Law 的门。硬件厂商如果能对接这套基础模型,离通用机械臂的量产就更近了。
Humanoid robots promise whole-body interaction in human-centered environments, but scalable policy learning remains difficult because task-level decision-making and whole-body dynamic execution are ti...
人形机器人有望在以人为中心的环境中进行全身交互,但任务级决策和全身动态执行的脱节阻碍了策略学习的扩展。HumanoidArena 为此提供了一套全身学习的基准。
做机器人的都知道“上半身抓取”和“下半身平衡”往往是割裂的。这个基准的出现,说明学术界开始死磕软硬件协同控制的长尾问题,人形机器人的可用性拐点正在逼近。
As an increasing majority of global video content is consumed on social platforms for interactive social purposes, video generation models built for social worlds are important but largely overlooked ...
随着全球视频内容在社交平台上的互动消费激增,专为社交世界构建的视频生成模型变得重要却常被忽视。MaineCoon 旨在打造一个实时的视听社交世界模型。
相比于通用视频生成死磕电影级特效,切入社交互动这个高频场景显然离商业变现更近。如果 MaineCoon 能实现低延迟的实时互动,接下来极大概率会看到一批主打 AI 伴侣的社交新品。
Despite the remarkable progress of Video Large Language Models (Video-LLMs), current online architectures still struggle to simultaneously process continuous video streams, decide autonomously when to...
目前的视频大语言模型在同时处理连续视频流、决定何时响应以及提取长时序记忆方面存在困难。LiveStarPro 提出了一种具备分层记忆的主动式流媒体视频理解架构。
现在的 Video-LLM 基本都是“看完再答”,而 LiveStarPro 解决的是“边看边播边答”的实时性痛点。这对于开发会议助理或安防监控类 Agent 是个直接利好的技术突破。
Generalist embodied agents require more than object recognition: they must reason about spatial relations, actions, procedures, human intentions, environmental constraints, and commonsense consequence...
通用具身智能体不仅需要识别物体,还需要对空间关系、动作程序和人类意图进行推理。ERQA-Plus 提供了一套诊断基准,评估这些复杂推理能力。
这个 Benchmark 狠抓“空间和程序推理”,直接掀了当前那些只会靠海量数据死记硬背的具身大模型的老底。短期内模型分数可能很难看,但绝对是指引下一步算法优化的绝佳风向标。
OpenAI introduces Deployment Simulation, a method to predict AI model behavior before deployment using real conversation data to improve safety and evaluation accuracy.
OpenAI 推出“部署模拟”方法,利用真实对话数据在实际部署前预测 AI 模型的行为,从而提升安全性和评估的准确性。
这招相当于给模型发布上了“双保险”,能在不改模型权重的情况下提前暴露对齐漏洞。对于做模型评测的工程师来说,以后新建评估数据集的成本可能要大幅下降了。
Personalized presentation generation requires more than conditioning on a current prompt or template: agents must preserve stable user preferences across tasks, retain newly introduced preferences and...
为解决个性化 PPT 生成难题,MemSlides 框架引入分层记忆机制,使智能体不仅能记住用户跨任务的固定偏好,还能处理新偏好并进行局部多轮修改。
这个层级记忆设计直接戳中了 Agent 开发的痛点。不仅是做 PPT,任何需要长期维持“用户 Persona”的 AI 助手都可以借鉴这种跨任务记忆保留和动态更新的思路。