Home
Softono
x

xianshang33

Professional software vendor delivering innovative solutions on the Softono platform. Specialized in both open-source and proprietary software development.

Total Products
1

Software by xianshang33

llm-paper-daily
Open Source

llm-paper-daily

<h2 align='center'>llm-paper-daily 日常论文精选</h2> <div align='center'> [![Status](https://img.shields.io/badge/status-Update_06.10_05:54-success.svg)]() [![简体中文 badge](https://img.shields.io/badge/%E7%AE%80%E4%BD%93%E4%B8%AD%E6%96%87-Simplified%20Chinese-blue)](./README.md) [![English badge](https://img.shields.io/badge/%E8%8B%B1%E6%96%87-English-blue)](./README_en.md) </div> 欢迎来到 **llm-paper-daily**! 这是一个获取 LLM、Agent 相关研究论文的每日更新和分类平台。 📚 **每日更新:** 仓库每天会带来最新的 LLM、Agent 相关研究,并附有 arXiv 地址、相关 GitHub 仓库和文章的总结。 <!-- paper-daily:readme:updates:start --> <details> <summary>查看更新文章 &nbsp;&nbsp;<sub>更新时间: 2026年06月10日 05:54</sub></summary> <br> - ABC-Bench: An Agentic Bio-Capabilities Benchmark for Biosecurity - TRACE: A Unified Rollout Budget Allocation Framework for Efficient Agentic Reinforcement Learning - T1-Bench: Benchmarking Multi-Scenario Agents in Real-World Domains - Role-Agent: Bootstrapping LLM Agents via Dual-Role Evolution - Toward Secure LLM Agents: Threat Surfaces, Attacks, Defenses, and Evaluation </details> <!-- paper-daily:readme:updates:end --> <details> <summary><strong>订阅</strong></summary> 想订阅每日 LLM、Agent 论文更新时,不需要手动配置脚本。把下面这段话发送给本地的 OpenClaw、Codex 或 Claude Code,让 Agent 帮你完成配置: ```text 请帮我配置 llm-paper-daily 的本地订阅。订阅仓库是 https://github.com/xianshang33/llm-paper-daily ,请阅读仓库根目录的 SUBSCRIBE.md,按文档创建本地配置、预览 digest、安装定时任务,并在完成后告诉我配置文件位置、运行时间、语言、每次推送数量和验证结果。 ``` Agent 会使用仓库里的 `paper-subscribe` skill,只读取公开的 `feed-papers.json`,不会在你的机器上运行论文抓取或总结生产流程。 </details> ## 最新论文 <!-- paper-daily:readme:months:start --> ### 2026年06月 | &nbsp;Date&nbsp;&nbsp; | Paper | Links & Summary | | --- | --- | --- | | <span style='display: inline-block; width: 42px;'>06-09</span> | **ABC-Bench: An Agentic Bio-Capabilities Benchmark for Biosecurity**<br><sub>机构: SecureBio, Active Site<br>本文引入了 ABC-Bench,首个针对生物安全领域的智能体能力基准测试。通过结合干实验评估与湿实验验证,证明了当前先进的 LLM 智能体在生物操作和双用途任务上已超越普通人类专家水平。该基准为制定生物安全 safeguards、威胁建模以及评估防护措施(如机器遗忘)的有效性提供了关键的工具和数据支持,强调了在 AI 生物能力快速发展的背景下,建立针对性安全评估标准的紧迫性。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2606.11150v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-06/2606.11150.md) | | <span style='display: inline-block; width: 42px;'>06-09</span> | **TRACE: A Unified Rollout Budget Allocation Framework for Efficient Agentic Reinforcement Learning**<br><sub>机构: Tsinghua University, Tencent<br>TRACE解决了RLVR中因奖励对比度不足导致的低效问题。它突破了传统仅在提示词级别分配预算的局限,创新性地将预算分配细化到多轮交互的前缀级别,利用树状rollout结构和成功率预测器,实现了更高效的探索和利用。实验表明,该方法在不增加计算成本的前提下,显著提升了智能体在复杂推理任务上的表现。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2606.11119v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-06/2606.11119.md) | | <span style='display: inline-block; width: 42px;'>06-09</span> | **T1-Bench: Benchmarking Multi-Scenario Agents in Real-World Domains**<br><sub>机构: Capital One<br>T1-Bench 填补了现有基准在 realism(真实性)和 multi-domain complexity(多域复杂性)方面的空白。通过模拟真实的客户服务场景,它强调了端到端任务完成的重要性,并为评估智能体在动态、约束环境下的推理和协调能力提供了开源的数据和代码支持,推动了智能体系统向更可靠、更实用的方向发展。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2606.11070v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-06/2606.11070.md) | | <span style='display: inline-block; width: 42px;'>06-09</span> | **Role-Agent: Bootstrapping LLM Agents via Dual-Role Evolution**<br><sub>机构: University of Science and Technology of China; AMAP, Alibaba Group<br>Role-Agent 提出了一种新颖的 LLM 智能体训练范式,通过让单一模型在智能体和环境之间切换角色,解决了传统方法中反馈低效和环境静态的问题。其核心创新在于利用状态预测对齐作为过程奖励(WIA),以及基于失败模式分析的数据分布重塑(AIW)。实验结果证实该方法能显著提升智能体性能,为低成本、高效率的智能体自进化提供了新的思路。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2606.10917v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-06/2606.10917.md) <div style='min-width:85px;'>[![GitHub](https://img.shields.io/badge/GitHub-View-brightgreen?logo=github)](https://github.com/AMAP-ML/roleagent)</div> | | <span style='display: inline-block; width: 42px;'>06-09</span> | **Toward Secure LLM Agents: Threat Surfaces, Attacks, Defenses, and Evaluation**<br><sub>机构: State Key Laboratory for Novel Software Technology, Nanjing University; Technical University of Munich<br>本文系统地梳理了 LLM 智能体安全领域的现状,指出了从对话式 AI 向自主代理转变带来的新安全挑战。通过构建基于生命周期的系统框架,文章揭示了当前研究在威胁建模、防御组合性和评估真实性方面的不足,并呼吁建立明确的信任边界、严格的权限控制和更符合实际部署环境的评估标准,为未来构建安全的 LLM 智能体系统指明了方向。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2606.10749v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-06/2606.10749.md) | | <span style='display: inline-block; width: 42px;'>06-08</span> | **AGENTSERVESIM: A Hardware-aware Simulator for Multi-Turn LLM Agent Serving**<br><sub>机构: University of Central Florida<br>本文针对多轮 LLM 智能体服务中存在的复杂状态管理和资源调度问题,提出了 AGENTSERVESIM 模拟器。该工具通过模块化设计解决了工具调用间隙模拟和跨轮次 KV 缓存追踪两大难题,能够在低成本 CPU 环境下以高保真度(误差<6%)模拟真实硬件上的智能体服务行为。这使得研究人员能够在无需大量昂贵加速器资源的情况下,对智能体服务策略进行可控、可重复的探索和优化。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2606.09613v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-06/2606.09613.md) | | <span style='display: inline-block; width: 42px;'>06-08</span> | **Memory Beyond Recall: A Dual-Process Cognitive Memory System for Self-Evolving LLM Agents**<br><sub>机构: Tencent<br>本文指出了当前 LLM 代理记忆系统混淆“记忆即存储”与“记忆即认知”的根本缺陷,提出了 DCPM 系统。通过引入类似人类认知的双过程机制(System 1 负责快速记录信念修正链,System 2 负责慢速抽象跨域模式),DCPM 实现了从被动事实存储到主动认知进化的跃迁,有效解决了隐式个性化和跨域推理难题。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2606.09483v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-06/2606.09483.md) | | <span style='display: inline-block; width: 42px;'>06-08</span> | **SearchSwarm: Towards Delegation Intelligence in Agentic LLMs for Long-Horizon Deep Research**<br><sub>机构: Tsinghua University, Peking University, Renmin University of China, Ant Group<br>SearchSwarm 填补了开源社区在长周期代理任务中“委托智能”训练数据合成与模型训练的空白。通过引入 harness 引导生成高质量 SFT 数据,成功使 30B 规模的模型在深度研究任务中达到了超越同量级模型、媲美超大模型的绩效,为资源受限下的高效长程推理提供了新范式。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2606.09730v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-06/2606.09730.md) | | <span style='display: inline-block; width: 42px;'>06-08</span> | **SpatialWorld: Benchmarking Interactive Spatial Reasoning of Multimodal Agents in Real-World Tasks**<br><sub>机构: Tsinghua University, Chongqing University, Peking University, ZenoMind AI<br>SpatialWorld 填补了评估 MLLM 交互式空间推理能力的空白,通过整合多个异构仿真环境并强制要求代理在部分可观测条件下进行主动探索,提供了一个严格的测试平台。研究结果表明,尽管 MLLM 发展迅速,但在处理复杂现实世界空间任务时仍面临巨大挑战,特别是在主动探索和长期规划方面,为未来空间代理的研究指明了方向。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2606.09669v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-06/2606.09669.md) | | <span style='display: inline-block; width: 42px;'>06-08</span> | **What Should a Skill Remember? Quality-Cost Trade-offs in Cost-Aware Skill Rewriting for Language Model Agents**<br><sub>机构: University of Science and Technology of China<br>本文挑战了将技能重写等同于提示压缩的传统观点,指出技能中的稀疏操作锚点对智能体的执行效率至关重要。通过引入成本感知的重写框架,作者展示了如何在保持任务执行质量的同时显著降低总体成本。研究结果表明,技能设计应被视为一种操作知识工程,需根据任务特性精细平衡质量与成本,而非一味追求文本长度的缩短。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2606.09421v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-06/2606.09421.md) <div style='min-width:85px;'>[![GitHub](https://img.shields.io/badge/GitHub-View-brightgreen?logo=github)](https://github.com/1Reminding/Skill_EE)</div> | | <span style='display: inline-block; width: 42px;'>06-05</span> | **TRACE: Trajectory Reasoning through Adaptive Cross-Step Evidence Aggregation for LLM Agents**<br><sub>机构: University of Massachusetts at Amherst, Adobe Research, Dolby Labs, University of Oregon, Cisco<br>本文针对 LLM 代理在长周期任务中可能出现的规避性破坏行为,提出了 TRACE 监控框架。通过引入 TIJ(分流-检查-判决)循环机制,TRACE 能够自适应地识别可疑区域,并在推理步骤间维持持久的证据状态,从而有效连接跨时间步的微弱恶意信号。实验证明,TRACE 在检测需要长程证据关联的复杂破坏行为方面优于现有最先进方法,为提升自主 LLM 代理的安全性提供了新的解决方案。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2606.07054v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-06/2606.07054.md) | | <span style='display: inline-block; width: 42px;'>06-05</span> | **Act As a Real Researcher: A Suite of Benchmarks Evaluating Frontier LLMs and Agentic Harnesses in Research Lifecycle**<br><sub>机构: Xi’an Jiaotong University, Xidian University<br>本文提出了 AARR 基准系列及其首个实例 AARRI-Bench,填补了现有评估在细粒度科研行为和细微判断力方面的空白。实验结果表明,尽管前沿智能体在宏观任务上表现优异,但在模拟真实研究者的专业性、严谨性和伦理判断上仍有巨大提升空间。研究强调,开发类人研究 AI 需要超越单纯的复杂框架搭建,转而深入探索和研究具体的科研行为模式。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2606.07462v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-06/2606.07462.md) <div style='min-width:85px;'>[![GitHub](https://img.shields.io/badge/GitHub-View-brightgreen?logo=github)](https://github.com/AARR-bench/AARRI-bench)</div> | | <span style='display: inline-block; width: 42px;'>06-05</span> | **Hierarchical Certified Semantic Commitment for Byzantine-Resilient LLM-Agent Collaboration**<br><sub>机构: University of Glasgow, University of Western Ontario<br>本文针对LLM多智能体协作中的拜占庭容错问题,提出了H-CSC协议。该协议突破了传统BFT对字节一致性的依赖,通过嵌入向量实现语义层面的共识。其核心创新在于“类型化最终性”,即根据语义凝聚程度区分“语义提交”和“裁决提交”,并在必要时安全中止。实验表明,H-CSC在保持与现有强基线相当的安全性和覆盖率的同时,提供了额外的语义可验证性,有效解决了LLM输出随机性带来的共识难题。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2606.07316v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-06/2606.07316.md) | | <span style='display: inline-block; width: 42px;'>06-05</span> | **The Sim-to-Real Gap of Foundation Model Agents: A Unified MDP Perspective**<br><sub>机构: Arizona State University<br>本文旨在推动基础模型智能体研究的范式转变,通过引入经典的 MDP 视角,为社区提供了统一的词汇表和研究议程。文章强调,不应将智能体鲁棒性视为全新问题,而应借鉴机器人学中成熟的 Sim-to-Real 框架。通过标准化压力测试基准和采用域随机化等既定解决方案,该议程有望培养出新一代高度可信、适用于可靠现实应用的基础模型智能体。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2606.07017v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-06/2606.07017.md) | | <span style='display: inline-block; width: 42px;'>06-05</span> | **Self-evolving LLM agents with in-distribution Optimization**<br><sub>机构: Eindhoven University of Technology, University of Liverpool, MIT-IBM Watson AI Lab<br>本文提出的 Q-Evolve 框架解决了 LLM 智能体在长视野任务中面临的信用分配和分布偏移难题。通过在共享的“在分布”学习循环中协同进化过程级监督和策略,该方法无需人工标注或环境回溯即可实现密集奖励信号的学习,并确保了策略优化的稳定性。实验结果表明,该方法在多个复杂交互环境中显著提升了智能体的性能和样本效率,为 LLM 智能体的可靠自进化提供了新的范式。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2606.07367v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-06/2606.07367.md) | | <span style='display: inline-block; width: 42px;'>06-04</span> | **Will the Agent Recuse Itself? Measuring LLM-Agent Compliance with In-Band Access-Deny Signals**<br><sub>本文提出了“回避信号”这一开放迷你标准,旨在解决自主 LLM 智能体在持有有效凭证时缺乏接收资源方“禁止访问”意图的问题。通过实现低开销的适配器并进行实证研究,证明了主流 LLM 智能体能够识别并遵守这一合作性信号。该工作填补了带内策略通信和智能体合规性测量的空白,为基础设施操作员提供了一种轻量级的治理工具,同时明确了其作为合作控制而非安全边界的定位。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2606.06460v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-06/2606.06460.md) | | <span style='display: inline-block; width: 42px;'>06-04</span> | **Vortex: Efficient and Programmable Sparse Attention Serving for AI Agents**<br><sub>机构: Carnegie Mellon University, Rice University, National University of Singapore<br>Vortex 通过提供可编程的前端语言和高效的后端集成,解决了稀疏注意力算法在大规模部署中的工程瓶颈。它不仅加速了人类研究人员的工作流程,还赋能 AI Agent 自动探索和优化稀疏注意力设计,在多个主流和大参数模型上实现了显著的吞吐量提升,是连接稀疏注意力研究与实际高效服务的重要桥梁。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2606.06453v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-06/2606.06453.md) <div style='min-width:85px;'>[![GitHub](https://img.shields.io/badge/GitHub-View-brightgreen?logo=github)](https://github.com/Infini-AI-Lab/vortex_torch)</div> | | <span style='display: inline-block; width: 42px;'>06-04</span> | **Humans' ALMANAC: A Human Collaboration Dataset of Action-Level Mental Model Annotations for Agent Collaboration**<br><sub>机构: Northeastern University<br>本文针对当前 LLM 代理在人类协作中缺乏心智模型对齐能力的问题,提出了 ALMANAC 数据集。该数据集填补了带有动作级心智模型标注的真实人类协作数据的空白。通过基于经典地图任务的收集和标注,ALMANAC 为评估和优化 LLM 代理的过程级协作能力提供了重要资源,有助于推动代理从单纯的任务执行者向具备真正协作智能的伙伴转变。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2606.06388v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-06/2606.06388.md) | | <span style='display: inline-block; width: 42px;'>06-04</span> | **ToolChoiceConfusion: Causal Minimal Tool Filtering for Reliable LLM Agents**<br><sub>本文指出了LLM代理在大规模工具库面前存在的“工具选择混淆”问题,即语义相关性不足以指导可靠的多步工具使用。作者提出了CMTF方法,通过引入轻量级的因果契约和状态依赖分析,实现了训练免费的最小化工具过滤。实验表明,该方法在保持高任务成功率的同时,极大地降低了Token成本和决策复杂度,为构建高效、可靠的LLM代理系统提供了新的思路。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2606.06284v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-06/2606.06284.md) | | <span style='display: inline-block; width: 42px;'>06-04</span> | **TOKI: A Bitemporal Operator Algebra for Contradiction Resolution in LLM-Agent Persistent Memory**<br><sub>机构: The Hong Kong University of Science and Technology<br>TOKI 的核心贡献在于建立了一个写入时正确性规范(契约),该规范在隔离、模式和来源方面被证明是健全的。它明确了每个生产启发式方法所假设但未显式化的保证,解决了 LLM 智能体持久化记忆中因缺乏明确并发控制契约而导致的重放不一致、信念漂移和审计擦除问题。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2606.06240v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-06/2606.06240.md) | | <span style='display: inline-block; width: 42px;'>06-03</span> | **Self-Reflective APIs: Structure Beats Verbosity for AI Agent Recovery**<br><sub>机构: Siemens Digital Industries Software<br>本文证明了在 API 持有 LLM 未知的专有领域知识时,“结构化胜过冗长”。自反思 API 通过返回机器可读的修复建议,显著提升了 AI 代理在复杂验证场景下的恢复能力和效率。该方法不适用于 LLM 已知的通用验证场景,但在处理专有业务逻辑、外部状态和专用规则时具有巨大价值。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2606.05037v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-06/2606.05037.md) <div style='min-width:85px;'>[![GitHub](https://img.shields.io/badge/GitHub-View-brightgreen?logo=github)](https://github.com/arquicanedo/self-reflective-apis)</div> | | <span style='display: inline-block; width: 42px;'>06-03</span> | **UModel: An Agent-Ready Observability Data Modeling Method at Scale**<br><sub>机构: Institute for Advanced Study, UCAS; CNIC, CAS; Alibaba; Tsinghua University<br>UModel 通过引入统一的本体框架和面向对象的建模方法,解决了现有可观测性数据模型不适合 LLM 智能体的问题。它通过标准化异构数据并提供支持自主探索的查询接口(U-SPL),显著提升了根因分析的精度和系统的可扩展性,为下一代 AIOps 提供了坚实的基础设施支持。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2606.04799v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-06/2606.04799.md) | | <span style='display: inline-block; width: 42px;'>06-03</span> | **Towards Efficient and Evidence-grounded Mobility Prediction with LLM-Driven Agent**<br><sub>机构: The University of Tokyo, Huazhong University of Science and Technology<br>AgentMob 成功地将移动性预测从静态、单次的推断转变为自适应、基于证据且迭代的推理过程。它通过区分常规和模糊案例,既解决了 LLM 推理效率低的问题,又克服了传统黑盒模型缺乏可解释性和静态 LLM 方法在处理弱信号时证据不足的缺陷,为高效且可信的移动性预测提供了新范式。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2606.05130v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-06/2606.05130.md) <div style='min-width:85px;'>[![GitHub](https://img.shields.io/badge/GitHub-View-brightgreen?logo=github)](https://github.com/Unknown-zoo/AgentMob)</div> | | <span style='display: inline-block; width: 42px;'>06-03</span> | **Streaming Communication in Multi-Agent Reasoning**<br><sub>机构: HKUST(GZ), Alibaba Group, ZJU, HKUST<br>本文提出了 StreamMA,通过引入步骤级的流式通信协议,解决了多智能体推理中的延迟瓶颈和错误传播问题。研究不仅证明了流式通信在降低延迟方面的优势,还揭示了其通过利用早期高质量推理步骤来提升准确性的机制。实验结果表明,StreamMA 在多个基准和模型上均显著优于现有方法,并提出了新的步骤级缩放定律,为多智能体系统的设计提供了新的理论依据和实践方向。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2606.05158v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-06/2606.05158.md) | | <span style='display: inline-block; width: 42px;'>06-03</span> | **From Agent Traces to Trust: Evidence Tracing and Execution Provenance in LLM Agents**<br><sub>机构: Griffith University, Jiangsu University, University of Southern Queensland, Peking University, Great Bay University, Nanjing University, Macquarie University, Southern University of Science and Technology<br>本文填补了 LLM 智能体领域中关于证据追踪和执行谱系的系统性研究空白。通过提出一个全面的分类框架,文章将分散的研究领域(如检索 grounding、工具安全、记忆血缘)统一在谱系视角下。它不仅总结了当前的技术进展,还明确了未来的开放挑战,包括统一追踪 schema、声明级语义谱系、感知谱系的安全机制、真实的执行轨迹基准测试以及隐私感知的审计基础设施。这项工作为构建可信赖、可调试且可审计的 LLM 智能体奠定了理论基础。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2606.04990v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-06/2606.04990.md) | | <span style='display: inline-block; width: 42px;'>06-02</span> | **EvoDS: Self-Evolving Autonomous Data Science Agent with Skill Learning and Context Management**<br><sub>机构: The Hong Kong University of Science and Technology (Guangzhou)<br>EvoDS 通过引入自主技能获取和自适应上下文压缩两大核心机制,解决了现有数据科学代理在动作空间静态化和上下文管理被动化方面的根本缺陷。通过代理强化学习驱动的自进化能力,EvoDS 在多个基准测试中取得了显著的性能提升,为构建更灵活、可靠且具备长期记忆能力的自动化数据科学系统提供了新的范式。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2606.03841v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-06/2606.03841.md) <div style='min-width:85px;'>[![GitHub](https://img.shields.io/badge/GitHub-View-brightgreen?logo=github)](https://github.com/usail-hkust/EvoDS)</div> | | <span style='display: inline-block; width: 42px;'>06-02</span> | **LAP: An Agent-to-Instrument Protocol for Autonomous Science**<br><sub>机构: Shiyanjia Lab<br>本文提出了 LAP 协议,解决了自主科学基础设施中智能体与物理仪器交互的标准缺失问题。通过引入 InstrumentCard、独占预留、安全围栏握手和标准化测量结果四大物理世界原语,LAP 弥补了现有 A2A 和 MCP 协议在物理具身交互方面的不足。尽管目前仍处于设计规范阶段,但其分层架构和对现有标准的兼容性为未来构建开放、互联的自动驾驶实验室生态系统奠定了理论基础。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2606.03755v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-06/2606.03755.md) | | <span style='display: inline-block; width: 42px;'>06-02</span> | **A Training-Free Mixture-of-Agents Framework for Multi-Document Summarization using LLMs and Knowledge Graphs**<br><sub>机构: Phenikaa University, VNPT AI, MobiFone Corporation, National Economics University<br>本文提出了一种创新的无需训练的MoA框架,通过结合LLM的语言能力和KG的结构化知识,有效解决了多文档摘要中数据依赖高、跨文档关系难捕捉以及小语种泛化差的问题。模块化设计和多视角一致性机制使其在不同语言和领域间具有良好的适应性和鲁棒性。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2606.03867v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-06/2606.03867.md) | | <span style='display: inline-block; width: 42px;'>06-02</span> | **The Impact of Configuring Agentic AI Coding Tools on Build-vs-Buy Decisions: A Study Protocol**<br><sub>机构: Singapore Management University, University of Bamberg, King’s College London, Heidelberg University<br>本文提出了一项严谨的预注册研究协议,旨在填补代理式 AI 编码工具在“构建 vs 购买”决策机制研究上的空白。通过系统性地操纵配置机制并在受控基准上测试 Claude Code 和 OpenAI Codex,该研究将为理解和管理 AI 自主引入依赖的风险提供实证依据。其产出的基准数据集和分析管道将成为社区评估未来 AI 编码工具行为的重要资源。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2606.03907v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-06/2606.03907.md) | | <span style='display: inline-block; width: 42px;'>06-02</span> | **Agent libOS: A Library-OS-Inspired Runtime for Long-Running, Capability-Controlled LLM Agents**<br><sub>机构: Tsinghua University<br>Agent libOS 提出了一种新的 LLM 代理运行时范式,通过借鉴操作系统的进程和能力模型,解决了长周期代理在安全性和状态管理上的核心痛点。它将代理从简单的聊天循环中解放出来,赋予其明确的身份、生命周期和细粒度的权限控制,为构建安全、可审计且具备复杂交互能力的长期运行 LLM 代理提供了坚实的底层基础。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2606.03895v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-06/2606.03895.md) | | <span style='display: inline-block; width: 42px;'>06-01</span> | **AgentRedBench: Dynamic Redteaming and Integration-Aware Defense for LLM Agents over SaaS Integrations**<br><sub>机构: StackOne<br>本文指出了 LLM 代理在 SaaS 集成环境中面临的间接提示注入严峻威胁,并揭示了现有基准和防护措施的不足。通过提出动态红队基准 AgentRedBench 和专用防御模型 AgentRedGuard,作者不仅提供了更真实的安全评估标准,还展示了针对工具响应内容优化的防护模型能极大降低攻击成功率,为 LLM 代理在企业环境中的安全部署提供了重要参考。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2606.02240v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-06/2606.02240.md) | | <span style='display: inline-block; width: 42px;'>06-01</span> | **COMAP: Co-Evolving World Models and Agent Policies for LLM Agents**<br><sub>机构: Central South University, Sichuan University, The Hong Kong Polytechnic University<br>COMAP 通过将世界建模和策略学习视为耦合的共进化过程,解决了传统方法中模型固定和依赖外部信号的局限性。通过闭环交互和自蒸馏,实现了世界模型与智能体策略的相互促进,显著提升了 LLM 智能体在复杂交互环境中的表现。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2606.02372v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-06/2606.02372.md) <div style='min-width:85px;'>[![GitHub](https://img.shields.io/badge/GitHub-View-brightgreen?logo=github)](https://github.com/loyiv/CoMAP)</div> | | <span style='display: inline-block; width: 42px;'>06-01</span> | **SIRI: Self-Internalizing Reinforcement Learning with Intrinsic Skills for LLM Agent Training**<br><sub>机构: Xiamen University, Meituan, Macao Polytechnic University<br>SIRI 提出了一种创新的自内化强化学习框架,解决了长期困扰 LLM 智能体的技能复用与部署效率之间的矛盾。通过自我挖掘、验证和蒸馏三个步骤,SIRI 成功将外部显式技能转化为模型内部的隐式能力,在显著提升 ALFWorld 和 WebShop 任务性能的同时,保持了推理阶段的简洁性和高效性,为轻量级、高性能 LLM 智能体的部署提供了新范式。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2606.02355v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-06/2606.02355.md) <div style='min-width:85px;'>[![GitHub](https://img.shields.io/badge/GitHub-View-brightgreen?logo=github)](https://github.com/kirito618/SIRI)</div> | | <span style='display: inline-block; width: 42px;'>06-01</span> | **ClinEnv: An Interactive Multi-Stage Long Horizon EHR Environment for Agents**<br><sub>机构: Georgia Institute of Technology, Peking University, University of Texas Southwestern Medical Center, Tsinghua University<br>ClinEnv 填补了医疗 AI 评估中的一个关键空白,提供了一个基于真实 EHR 数据的、多阶段的、交互式的住院模拟环境。它不仅评估最终诊断的准确性,还严格量化了医生在信息收集过程中的效率和合理性。研究结果表明,当前最先进的 LLM 在模拟复杂临床决策过程方面仍面临巨大挑战,特别是在长期管理和主动信息获取策略上,这为未来医疗 Agent 的开发指明了方向。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2606.02568v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-06/2606.02568.md) | | <span style='display: inline-block; width: 42px;'>06-01</span> | **Bridging the Last Mile of Time Series Forecasting with LLM Agents**<br><sub>机构: Trip.com Group<br>本文指出了当前时间序列预测研究中忽视的“最后一公里”问题,即如何将统计基线转化为符合业务上下文的决策级预测。作者提出了一种基于 LLM Agent 的框架,通过工具调用、显式动作转化、结构化安全约束以及记忆库反思机制,解决了上下文融合难和过程不可审计的挑战。该方法在保证预测质量的同时,极大地提升了预测过程的可控性、透明度和业务适应性,为实际部署提供了新的范式。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2606.02497v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-06/2606.02497.md) | --- ### 2026年05月 | &nbsp;Date&nbsp;&nbsp; | Paper | Links & Summary | | --- | --- | --- | | <span style='display: inline-block; width: 42px;'>05-31</span> | **SkillAdaptor: Self-Adapting Skills for LLM Agents from Trajectories**<br><sub>机构: Zhejiang University, Ant Group<br>SkillAdaptor 通过将技能适应从轨迹级反思转变为步级归因,解决了长程 LLM 代理任务中失败归因粗糙的问题。通过精确定位首个故障步骤并针对性地更新相关技能,该方法在多个基准测试中显著优于现有免训练适应方法,证明了细粒度失败归因对于构建稳定、可审计的 LLM 代理技能系统的重要性。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2606.01311v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2606.01311.md) <div style='min-width:85px;'>[![GitHub](https://img.shields.io/badge/GitHub-View-brightgreen?logo=github)](https://github.com/zjunlp/SkillAdaptor)</div> | | <span style='display: inline-block; width: 42px;'>05-31</span> | **TimeSage-MT: A Multi-Turn Benchmark for Evaluating Agentic Time Series Reasoning**<br><sub>机构: University of Oxford, VulpiVox Intelligence, Eindhoven University of Technology, Griffith University, Squirrel Ai Learning, East China Normal University<br>TimeSage-MT 填补了时间序列代理评估中的空白,通过模拟真实世界中多轮、演进的分析师工作流,严格评估了 LLM 代理在时间序列推理中的综合能力。研究结果表明,当前最先进的模型在需要长期记忆、不确定性校准和领域知识整合的决策型任务中表现不佳。该基准测试为未来开发更可靠的时间序列分析代理提供了 rigorous 的基础和明确的方向。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2606.01498v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2606.01498.md) | | <span style='display: inline-block; width: 42px;'>05-31</span> | **Dive into Ambiguity: A*-Inspired Multi-Agents Commonsense Obfuscation Attack on LLM Prompts**<br><sub>机构: University of Liverpool<br>本文针对 LLM 在安全关键应用中的脆弱性,提出了一种受 A* 搜索启发的黑盒对抗攻击框架。通过动态调整的重写策略和可解释的机制标签,该方法不仅提高了诱导常识性幻觉的成功率,还显著降低了搜索成本。理论分析与实证结果均表明,该方法在效率和效果上优于现有工作,为评估和提升 LLM 的鲁棒性提供了新的视角和工具。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2606.01441v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2606.01441.md) | | <span style='display: inline-block; width: 42px;'>05-31</span> | **Self-Healing Agentic Orchestrators for Reliable Tool-Augmented Large Language Model Systems**<br><sub>本文证明了在工具增强的 LLM 系统中,采用故障感知、预算限制且由验证引导的编排策略,能显著提升系统的可靠性和可诊断性。通过将有界运行时控制应用于代理编排,自愈机制能够精准识别故障根源并执行针对性恢复,避免了传统方法的盲目性和低效性,为构建高可靠性的 LLM 代理系统提供了新的范式。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2606.01416v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2606.01416.md) | | <span style='display: inline-block; width: 42px;'>05-31</span> | **Early Diagnosis of Wasted Computation in Multi-Agent LLM Systems via Failure-Aware Observability**<br><sub>机构: Northeastern University, New York University, Washington University in St. Louis<br>本文强调了在多智能体LLM系统中引入故障感知可观测性的必要性。通过构建一个将故障模式映射到在线信号的框架,研究者能够诊断出传统评估忽略的“浪费计算”。实验证明,该方法能有效识别证据缺失、循环和工具故障等问题,为优化多智能体系统的效率和可靠性提供了新的诊断视角,填补了底层日志与顶层准确率之间的空白。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2606.01365v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2606.01365.md) | | <span style='display: inline-block; width: 42px;'>05-30</span> | **FALAT: Tracing Failures in LLM Agent Trajectories via Dependency-Guided Search**<br><sub>机构: Concordia University<br>FALAT 通过依赖引导的搜索策略,有效解决了 LLM 智能体长轨迹中因错误传播导致的故障归因难题。它不仅能定位具体的错误步骤,还能识别责任智能体,并通过反事实验证确保归因的可靠性。实验表明,该方法在处理复杂、相互依赖的智能体轨迹时,显著优于现有的基线方法,为提升智能体系统的可调试性和可靠性提供了重要工具。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2606.00765v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2606.00765.md) | | <span style='display: inline-block; width: 42px;'>05-30</span> | **CoMIC: Collaborative Memory and Insights Circulation for Long-Horizon LLM Agents in Cloud-Edge Systems**<br><sub>机构: Beijing Jiaotong University, University of Warwick, The Alan Turing Institute<br>CoMIC 提出了一种创新的云边协同机制,通过“集中反思、分布执行”策略,成功解决了资源受限边缘设备上长程 LLM 智能体的记忆管理和知识共享难题。该方法无需参数更新即可显著提升智能体性能,为边缘 AI 的高效部署提供了新的思路。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2606.00756v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2606.00756.md) | | <span style='display: inline-block; width: 42px;'>05-30</span> | **Scaling Behavior of Single LLM-Driven Multi-Agent Systems**<br><sub>机构: Fudan University<br>本文系统地研究了同质多智能体系统在智能体数量增加时的性能演变,提出了 SIMAS 框架以隔离协作变量。研究确立了 MAS 扩展定律:性能受协同增益与协调开销的权衡支配,呈现边际收益递减。集体智能并非智能体数量的必然产物,而是依赖于基础模型能力和战略交互设计。这项工作为理解 MAS 的集体行为提供了基础科学依据,并纠正了盲目增加智能体数量的误区。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2606.00655v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2606.00655.md) | | <span style='display: inline-block; width: 42px;'>05-30</span> | **ForeSci: Evaluating LLM Agents for Forward-Looking AI Research Judgment**<br><sub>机构: Southeast University, Beijing Zhongguancun Academy, Duke Kunshan University<br>ForeSci 填补了评估 LLM 代理在缺乏未来证据情况下进行前瞻性科研决策能力的空白。通过严格的时间控制和历史可推断的任务设计,它揭示了当前代理在证据利用与最终决策之间存在脱节的问题,为开发更可靠的自主科研代理提供了重要的评估工具和洞察。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2606.00644v2)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2606.00644.md) | | <span style='display: inline-block; width: 42px;'>05-30</span> | **Adversarial Feeds Steer LLM Agent Decisions Against Their Defaults**<br><sub>机构: Independent Researcher<br>本文揭示了 LLM 智能体面临的一种新型安全威胁:上游推荐器/排序器可作为实际的控制面,通过策划 benign 信息流来 steer 智能体决策。研究指出,智能体评估必须超越对最终提示的孤立测试,转而审计信息流层。虽然前沿模型表现出一定的鲁棒性,但大多数模型在不确定状态下易受信息流操纵,这为构建更安全的智能体系统提供了重要的实证依据和改进方向。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2606.00914v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2606.00914.md) | | <span style='display: inline-block; width: 42px;'>05-29</span> | **Used Car Salesbots? Honesty and Credulity of LLMs as Bargaining Agents under Partial Information**<br><sub>机构: University of Edinburgh<br>本文通过模拟二手车销售等bargaining场景,系统评估了LLM代理在部分信息条件下的行为。研究发现,现成LLM无法有效达到博弈论均衡,且策略性欺骗能力有限。更重要的是,针对财务目标的优化虽然提升了谈判性能,却显著降低了代理的诚实度和信任度,突显了在部署自主代理时平衡性能与安全性的必要性。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.31445v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.31445.md) <div style='min-width:85px;'>[![GitHub](https://img.shields.io/badge/GitHub-View-brightgreen?logo=github)](https://github.com/Avmb/llm-bargaining-agents)</div> | | <span style='display: inline-block; width: 42px;'>05-29</span> | **HypoAgent: An Agentic Framework for Interactive Abductive Hypothesis Generation over Knowledge Graphs**<br><sub>机构: The Hong Kong University of Science and Technology<br>HypoAgent 通过多智能体协作机制,有效解决了知识图谱溯因推理在交互式场景下的意图落地和错误诊断难题。它不仅提升了假设生成的准确性和可解释性,还通过根因分析增强了系统的鲁棒性,在多个基准测试中达到了 SOTA 水平,为复杂领域的科学发现和临床诊断提供了有力的工具支持。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.31370v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.31370.md) <div style='min-width:85px;'>[![GitHub](https://img.shields.io/badge/GitHub-View-brightgreen?logo=github)](https://github.com/HKUST-KnowComp/HypoAgent)</div> | | <span style='display: inline-block; width: 42px;'>05-29</span> | **Industrializing Prediction-Powered Inference: The GLIDE Library for Reliable GenAI and Agentic Systems Evaluation**<br><sub>机构: Emerton Data<br>本文介绍了 GLIDE 库,旨在将预测赋能推理(PPI)工业化,以解决生成式 AI 和智能体系统评估中的可靠性与成本矛盾。通过统一分散的 SOTA 方法、提供易用的 API 以及实证驱动的方法选择指南,GLIDE 使得从业者能够在保证统计严谨性(有效置信区间)的同时,显著降低对昂贵人工标注的依赖,为大规模智能体评估提供了实用的基础设施。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.31278v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.31278.md) <div style='min-width:85px;'>[![GitHub](https://img.shields.io/badge/GitHub-View-brightgreen?logo=github)](https://github.com/EmertonData/glide)</div> | | <span style='display: inline-block; width: 42px;'>05-29</span> | **LongTraceRL: Learning Long-Context Reasoning from Search Agent Trajectories with Rubric Rewards**<br><sub>机构: Tsinghua University<br>LongTraceRL 通过引入基于搜索代理轨迹的分层干扰项构建策略和基于黄金实体的评分奖励机制,有效解决了长上下文推理中干扰项混淆度低和过程监督缺失的问题。该方法在多个基准测试中显著提升了LLM的长文本推理能力,促进了模型进行更深入、更 grounded 的逻辑推导。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.31584v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.31584.md) <div style='min-width:85px;'>[![GitHub](https://img.shields.io/badge/GitHub-View-brightgreen?logo=github)](https://github.com/THU-KEG/LongTraceRL)</div> | | <span style='display: inline-block; width: 42px;'>05-29</span> | **AutoSci: A Memory-Centric Agentic System for the Full Scientific Research Lifecycle**<br><sub>机构: Peking University<br>AutoSci 是一个创新的以记忆为中心的智能体系统,它通过解耦长期知识与活跃研究记忆,并结合动态工作流编排与自我进化机制,解决了现有科学智能体在持久性和适应性上的局限。它不仅能够执行完整的科研生命周期,还能在多个项目间积累知识并优化自身能力,为自动化科学研究提供了一个统一且可持续进化的环境。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.31468v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.31468.md) <div style='min-width:85px;'>[![GitHub](https://img.shields.io/badge/GitHub-View-brightgreen?logo=github)](https://github.com/skyllwt/AutoSci)</div> | | <span style='display: inline-block; width: 42px;'>05-28</span> | **Locally Coherent, Globally Incoherent: Bounding Compositional Incoherence in Multi-Component LLM Agents**<br><sub>机构: Princeton University<br>本文揭示了多组件 LLM 智能体中一个关键但被忽视的问题:局部一致的子代理组合后可能导致全局概率不一致。作者提出了组合残差 $\epsilon^*$ 作为运行时检测指标,并通过分层 Boyle-Dykstra 投影提供了确定性的修复方案。实验表明,这种不一致性在现有系统中广泛存在并导致显著的性能损失,而传统的 LLM 提示工程方法无法有效解决,必须采用基于数学规划的结构性修复手段。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.30335v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.30335.md) | | <span style='display: inline-block; width: 42px;'>05-28</span> | **Do Proactive Agents Really Need an LLM to Decide When to Wake and What to Anchor?**<br><sub>机构: Purdue University, Microsoft, Michigan State University, Georgia Institute of Technology<br>本文质疑了主动式代理中“每个事件都调用 LLM 进行决策”的必要性,指出这是一种低效的架构设计。通过引入时序图学习(TGL)模型来处理结构化的用户活动流,作者提出了一种高效、轻量的触发与路由机制。该方法不仅显著降低了延迟和计算成本,使其能够部署在隐私敏感的端侧设备上,还通过结构化的实体路由提高了建议的准确性和 grounding 能力。实验证明,该方案在速度和准确性上均优于现有的基于 LLM 的触发架构,为构建实时、高效的主动式助手提供了新的范式。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.30152v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.30152.md) | | <span style='display: inline-block; width: 42px;'>05-28</span> | **Loong: A Human-Like Long Document Translation Agent with Observe-and-Act Adaptive Context Selection**<br><sub>机构: Harbin Institute of Technology, Shenzhen; University of Macau; Huawei Translation Services Center<br>Loong 通过模拟人类的“观察-行动”机制,解决了长文档翻译中上下文窗口限制与信息冗余之间的矛盾。其核心创新在于 3E 记忆模块的设计以及基于强化学习的自适应上下文选择策略。实验证明,Loong 不仅在翻译质量上显著优于现有最先进方法,还在超长文档处理的稳定性和鲁棒性方面表现出色,为文档级机器翻译提供了新的解决方案。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.30274v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.30274.md) <div style='min-width:85px;'>[![GitHub](https://img.shields.io/badge/GitHub-View-brightgreen?logo=github)](https://github.com/YutongWang1216/LoongDocMT)</div> | | <span style='display: inline-block; width: 42px;'>05-28</span> | **Dissociative Identity: Language Model Agents Lack Grounding for Reputation Mechanisms**<br><sub>机构: University of Oxford<br>本文深刻指出了当前AI治理中一个被忽视的本体论危机:LLM代理的“解离性”本质使其无法承载传统声誉机制所要求的身份持久性和责任主体性。作者警告,盲目套用人类社会的KYC或信用评分体系不仅无效,还可能掩盖真正的安全风险。文章呼吁学术界和政策制定者放弃对“代理身份”的执念,转而开发基于协议约束和行为可观察性的新型治理框架,以适应代理网络的动态和多变的特性。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.30169v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.30169.md) | | <span style='display: inline-block; width: 42px;'>05-28</span> | **HEART-Bench: Do LLM Agents Exhibit Human-like Psychology?**<br><sub>机构: Shanghai Jiao Tong University, Imperial College London, Quwan Group, University of Washington, South China Normal University<br>HEART-Bench填补了当前LLM评估在类人心理学领域的空白。通过结合大五人格理论、自传体记忆和DIAMONDS情境分类法,它不仅仅测试代理的记忆或推理能力,而是深入评估代理是否具备连贯的“心理”和“人格”。这为推动更高级别的人工智能情感智能(EI)和实现真正类人化的长期身份一致性提供了重要的评估工具。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.30058v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.30058.md) <div style='min-width:85px;'>[![GitHub](https://img.shields.io/badge/GitHub-View-brightgreen?logo=github)](https://github.com/peng-weihan/HEART-BENCH)</div> | | <span style='display: inline-block; width: 42px;'>05-27</span> | **Do Agents Need Semantic Metadata? A Comparative Study in Agentic Data Retrieval**<br><sub>机构: Google<br>本文通过实证研究回答了“智能体是否需要语义元数据”这一关键问题。结果表明,尽管 LLM 增强了从非结构化网络中获取信息的能力,但在需要高精度和机器可操作性的数据检索任务中,基于 schema.org 等标准的结构化语义元数据依然具有不可替代的优势。语义元数据能显著提升智能体获取符合 FAIR 原则数据的准确性和效率,避免无效信息的干扰,是构建可靠自主数据工作流的基石。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.28787v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.28787.md) | | <span style='display: inline-block; width: 42px;'>05-27</span> | **Evaluating the Realism of LLM-powered Social Agents: A Case Study of Reactions to Spanish Online News**<br><sub>机构: University of Murcia<br>本文通过案例研究指出,LLM驱动的社会代理在模拟在线新闻反应时,现成模型往往过于“温和”且带有偏差,无法真实反映人类 discourse 中的仇恨言论和情感分布。虽然微调可以改善这一状况,但不同模型在不同维度上存在权衡。研究者在使用LLM进行社会模拟时,必须谨慎选择模型并验证其分布特性,以免扭曲对公众舆论的认知。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.28598v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.28598.md) | | <span style='display: inline-block; width: 42px;'>05-27</span> | **LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know?**<br><sub>机构: Harbin Institute of Technology, Xiaohongshu<br>本文揭示了当前 LLM 搜索代理评估中存在的严重缺陷,即静态基准往往测试的是模型的内存而非搜索能力。通过提出 LiveBrowseComp,作者提供了一个基于实时、非显著事实的深度搜索基准,迫使代理必须依赖外部证据而非内部知识。该基准不仅暴露了现有模型在真正搜索任务上的不足,也为未来开发更强大的证据驱动型搜索代理提供了更可靠的评估标准。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.28721v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.28721.md) | | <span style='display: inline-block; width: 42px;'>05-27</span> | **A Matter of TASTE: Improving Coverage and Difficulty of Agent Benchmarks**<br><sub>机构: Technion; IBM Research<br>本文针对现有智能体基准测试饱和且构建成本高的问题,提出了 TASTE 方法。通过逆向任务构建流程,利用自适应对比 n-gram 模型生成有效且多样的工具序列,并通过聚类和迭代难度演化构建高质量任务。实验表明,基于 TASTE 构建的 $\tau^c$-Bench 能更有效地区分智能体能力,揭示了现有基准的不足,为未来智能体的持续、可扩展评估提供了新途径。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.28556v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.28556.md) | | <span style='display: inline-block; width: 42px;'>05-27</span> | **Mobile-Aptus: Confidence-Driven Proactive and Robust Interaction in MLLM-based Mobile-Using Agents**<br><sub>机构: Shanghai Jiao Tong University, Meta<br>Mobile-Aptus 通过两阶段的置信度集成框架,成功解决了移动智能体中过度执行和过度求助的双重难题。该方法不仅大幅提升了任务成功率,还显著减少了不必要的人工干预,实现了更高效、鲁棒的人机协作体验,在多个基准测试中达到了最先进水平(SOTA)。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.28629v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.28629.md) <div style='min-width:85px;'>[![GitHub](https://img.shields.io/badge/GitHub-View-brightgreen?logo=github)](https://github.com/Wuzheng02/Mobile-Aptus)</div> | | <span style='display: inline-block; width: 42px;'>05-26</span> | **MUSE-Autoskill: Self-Evolving Agents via Skill Creation, Memory, Management, and Evaluation**<br><sub>机构: ByteDance Inc., Rochester Institute of Technology<br>MUSE-Autoskill 通过将技能视为长期的、具备经验感知且可测试的资产,解决了现有方法中技能孤立、静态和缺乏验证的问题。其核心创新在于统一的技能生命周期管理和技能级记忆机制,显著提升了 LLM 智能体在复杂任务中的表现和鲁棒性。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.27366v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.27366.md) | | <span style='display: inline-block; width: 42px;'>05-26</span> | **QUACK: Questioning, Understanding, and Auditing Communicated Knowledge in Multimodal Social Deduction Agents**<br><sub>机构: McGill University, Mila - Quebec AI Institute, University of Cambridge, MBZUAI, University of Toronto, Salesforce<br>QUACK 通过引入多模态环境和细粒度的陈述验证管道,解决了社交推理智能体评估中缺乏地面真实性和细粒度归因的问题。研究结果表明,当前最先进的 VLM 在保持语言与感知一致性方面仍存在显著缺陷,大量存在空间幻觉和无据指控。该工作为未来开发更可靠、更具解释性的多模态社交智能体提供了重要的基准和工具。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.27068v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.27068.md) <div style='min-width:85px;'>[![GitHub](https://img.shields.io/badge/GitHub-View-brightgreen?logo=github)](https://github.com/AAAAA-Academia-Attractions/QUACK)</div> | | <span style='display: inline-block; width: 42px;'>05-26</span> | **FinHarness: An Inline Lifecycle Safety Harness for Finance LLM Agents**<br><sub>机构: Peking University, Tsinghua University, Nanyang Technological University, University of Science and Technology of China, etc.<br>FinHarness 通过将安全防护从“外部监督”转变为“内联生命周期管理”,解决了金融 LLM Agent 在复杂多步工作流中的安全难题。其核心创新在于结合了跨轮次意图监控和自适应的级联验证机制,既有效降低了攻击成功率,又显著控制了计算开销,为金融领域的高风险 Agent 部署提供了可行的安全框架。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.27333v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.27333.md) | | <span style='display: inline-block; width: 42px;'>05-26</span> | **GENESIS: Harnessing AI Agents for Autonomous 6G RAN Synthesis, Research, and Testing**<br><sub>机构: Northeastern University<br>GENESIS 解决了 LLM 在电信领域应用中的核心痛点,即幻觉问题和仿真与现实脱节的问题。通过引入基于真实硬件测试反馈的代理循环和持久化知识层,GENESIS 实现了从意图到可部署代码的自动化闭环,显著加速了 6G RAN 的研发进程,并在真实 5G 系统上证明了其相对于传统 LLM 编码助手的优越性和可靠性。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.27360v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.27360.md) | | <span style='display: inline-block; width: 42px;'>05-26</span> | **Learning to Act under Noise: Enhancing Agent Robustness via Noisy Environments**<br><sub>机构: National University of Singapore, Meituan<br>本文指出了当前 LLM 代理在理想化训练与现实部署之间的根本性错配,提出了 NoisyAgent 框架。通过引入用户噪声和工具噪声,并采用渐进式难度增加的训练策略,该方法显著增强了代理在 stochastic 和不完美环境中的鲁棒性。研究结果强调,对交互不完美性进行建模对于提升代理的实际应用能力至关重要,且噪声训练有助于提升代理的泛化推理能力。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.27209v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.27209.md) | | <span style='display: inline-block; width: 42px;'>05-25</span> | **Can LLMs Time Travel? Enhancing Temporal Consistency in Legal Agentic Search through Reinforcement Learning**<br><sub>机构: HKUST, Tsinghua University, University of Waterloo<br>本文指出了当前法律 AI 代理在处理时间敏感性法律问题时的重大缺陷,即忽视法律修订的时间效力。通过提出 LegalSearch-R1,结合本地精确检索、在线广泛搜索以及基于时间索引数据的强化学习,有效解决了法律推理中的时间不一致问题,大幅提升了法律问答的准确性和可靠性,为法律领域的可信 AI 应用提供了重要参考。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.25920v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.25920.md) <div style='min-width:85px;'>[![GitHub](https://img.shields.io/badge/GitHub-View-brightgreen?logo=github)](https://github.com/AlexFanw/LegalSearch-R1)</div> | | <span style='display: inline-block; width: 42px;'>05-25</span> | **From Model Scaling to System Scaling: Scaling the Harness in Agentic AI**<br><sub>机构: UC Berkeley<br>本文主张代理 AI 的未来进步不仅依赖于更强大的基础模型,更取决于系统设计的优化。通过提出“缩放 harness”的概念,论文指出了上下文治理、可信记忆和动态技能路由三大核心瓶颈,并提供了 CheetahClaws 作为参考实现。研究呼吁社区从单纯的模型中心评估转向系统级评估,关注代理在长期运行中的过程指标和安全演化能力。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.26112v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.26112.md) <div style='min-width:85px;'>[![GitHub](https://img.shields.io/badge/GitHub-View-brightgreen?logo=github)](https://github.com/SafeRL-Lab/cheetahclaws)</div> | | <span style='display: inline-block; width: 42px;'>05-25</span> | **When Do LLM Agents Treat Surface Noise Differently from Semantic Noise? A 68-Cell Measurement Study with a Held-Out Trace-Level Validation**<br><sub>机构: School of Information and Software Engineering, UESTC; Jacobs School of Engineering, UC San Diego<br>本文是一项测量贡献,通过大规模实证研究证实了 LLM 代理对语义噪声比表层噪声更敏感。文章不仅通过严格的统计检验和持留样本验证了这一现象的鲁棒性,还通过轨迹级分析揭示了“隐性分歧”机制,即语义扰动在保持初始动作不变的情况下,逐步腐蚀后续推理过程。研究 retract 了部分先前未复现的机制主张,并为输入规范化策略提供了工程启示:应优先关注那些真正改变答案的扰动类型。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.25981v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.25981.md) <div style='min-width:85px;'>[![GitHub](https://img.shields.io/badge/GitHub-View-brightgreen?logo=github)](https://anonymous.4open.science/r/agentdiff-emnlp-0BB4/)</div> | | <span style='display: inline-block; width: 42px;'>05-25</span> | **PolyGnosis 2.0: Enhancing LLM Reasoning via Agentic Harness Engineering for Polymarket and OSINT Insight Extraction**<br><sub>机构: The Chinese University of Hong Kong<br>PolyGnosis 2.0 通过创新的“驾驭工程”方法,成功解决了在高噪声金融领域利用 LLM 进行专业级推理的难题。它不仅证明了通过精心设计的智能体架构(而非仅仅升级基础模型)可以显著提升推理能力,还具体指出了反思机制的局限性和共识偏见的普遍性。该研究为预测市场中的自主智能应用提供了一个稳健的蓝图,实现了在降低计算成本的同时保持专业分析精度的目标。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.25958v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.25958.md) | | <span style='display: inline-block; width: 42px;'>05-25</span> | **VeriTrace: Evolving Mental Models for Deep Research Agents**<br><sub>机构: University of Cambridge<br>VeriTrace 提出了一种新的范式,即通过显式的反馈循环(解释性更新、偏差反馈、模式修订)来演化和调节深度研究智能体的“心智模型”。该方法有效解决了现有系统中因缺乏监管而导致的信息污染和错误传播问题,在多个基准测试中取得了优于最强基线的性能,证明了在深度研究中引入显式认知调节机制的重要性。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.26081v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.26081.md) | | <span style='display: inline-block; width: 42px;'>05-24</span> | **Eureka: Intelligent Feature Engineering for Enterprise AI Cloud Resource Demand Prediction**<br><sub>机构: Alibaba Cloud Computing Co. Ltd, Fudan University, Tongji University<br>Eureka创新性地将特征工程重构为代理代码生成问题,通过结合领域知识微调、思维链代码生成和强化学习对齐,解决了传统方法在语义理解和动态适应上的局限。实验证明,该方法不仅在多个公开数据集上表现优异,更在阿里云大规模生产环境中显著提升了资源预测的准确性和效率,展示了LLM在企业级AI基础设施优化中的巨大潜力。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.25297v2)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.25297.md) | | <span style='display: inline-block; width: 42px;'>05-24</span> | **LipoAgent: Coordinating Fine-Tuned LLM Agents for Safer Lipid Design**<br><sub>机构: New York University, University of Illinois Chicago<br>LipoAgent 通过将安全性内嵌为预测的先决条件,并利用多智能体协作与人类监督相结合的机制,有效解决了脂质设计中效率与安全性的平衡难题。其不仅在基准测试中显著优于现有模型,还通过了湿实验验证,为加速安全高效的 mRNA 疗法开发提供了有力工具。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.25250v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.25250.md) <div style='min-width:85px;'>[![GitHub](https://img.shields.io/badge/GitHub-View-brightgreen?logo=github)](https://github.com/SAI-Lab-NYU/LipoAgent.git)</div> | | <span style='display: inline-block; width: 42px;'>05-24</span> | **DarkForest: Less Talk, Higher Accuracy for Multi-Agent LLMs**<br><sub>机构: University of Texas at Dallas<br>DarkForest 提出了一种新颖的多智能体协调范式,核心在于“独立生成、结构化聚合、受控通信”。它解决了现有多智能体系统中错误传播和高通信开销两大痛点。通过引入信念分布估计和聚类机制,该方法不仅显著提升了推理准确率,还大幅降低了推理成本,为高效、可靠的多智能体 LLM 系统部署提供了新的思路。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.25188v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.25188.md) | | <span style='display: inline-block; width: 42px;'>05-24</span> | **LLM Agent Based Renewable Energy Forecasting Using Edge and IoT Data A Review of Solar Wind Weather and Grid Aware Decision Support**<br><sub>- 该综述确立了LLM代理在增强可再生能源预测中的潜力,特别是在将数据转化为可操作的自然语言决策支持方面。文章建议未来的研究议程应集中于建立开放基准、开发物理信息驱动的LLM基础模型以及探索联邦预测架构,以解决实时性、准确性和隐私保护等问题。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.25141v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.25141.md) | | <span style='display: inline-block; width: 42px;'>05-24</span> | **GroupTravelBench: Benchmarking LLM Agents on Multi-Person Travel Planning**<br><sub>机构: Renmin University of China, Alibaba Group<br>GroupTravelBench 为推进面向现实世界旅行规划的 LLM 智能体研究提供了一个实用且可复现的基准。它通过引入多用户、多轮交互的场景,强调了 elicitation、coordination 和 planning 三大关键能力,指出了当前最先进的 LLM 在处理群体偏好冲突和公平性方面的局限性,为未来研究指明了方向。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.25200v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.25200.md) | | <span style='display: inline-block; width: 42px;'>05-23</span> | **MDIA: A Multi-Agent Diagnostic Intelligence Pipeline on HealthBench Professional**<br><sub>机构: TietAI<br>本文证明了在临床智能体基准测试中,系统编排架构(如专科路由、多轮上下文管理、安全门控)对性能的提升作用不亚于甚至超过底层基础模型本身的改进。MDIA 通过精心设计的多智能体 DAG 架构,在未微调模型上取得了超越当前最强临床专用系统的表现。同时,研究强调了评估过程中评分器模型选择带来的变异性,呼吁社区采用多评分器交叉验证以确保评估的鲁棒性。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.24699v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.24699.md) | | <span style='display: inline-block; width: 42px;'>05-23</span> | **Spectral Retrieval: Multi-Scale Sinc Convolution over Token Embeddings for Localized Retrieval in LLM Multi-Agent Systems**<br><sub>机构: Cisco Systems, Inc.<br>Spectral Retrieval 通过多尺度 sinc 卷积巧妙地结合了 per-token 匹配的精细度和均值池化的全局性,有效解决了密集检索中局部相关性信号丢失的问题。实验证明,该方法在无需重新训练编码器的情况下,显著提升了检索性能,尤其适合需要精准局部上下文的多智能体 LLM 系统。尽管它继承了晚期交互方法的索引大小限制,但其在处理窄位置局部匹配查询时的增益巨大,为高效高精度的 RAG 系统提供了一种新的中间层解决方案。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.24764v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.24764.md) | | <span style='display: inline-block; width: 42px;'>05-23</span> | **How Many Tools Should an LLM Agent See? A Chance-Corrected Answer**<br><sub>机构: Meta Platforms<br>本文指出了 LLM Agent 工具检索中固定深度策略的局限性,并提出使用 Bits-over-Random (BoR) 这一机会校正指标来评估和优化搜索深度。通过将 BoR 转化为强化学习奖励,实现了无需复杂工程惩罚的自适应深度选择。实验证明,该方法在大幅减少平均展示工具数量的同时,保持了高覆盖率,并显著提升了 LLM 在复杂场景下的工具选择准确率,为工具检索评估提供了新的标准和方法论。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.24660v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.24660.md) | | <span style='display: inline-block; width: 42px;'>05-23</span> | **Market Regime Council for Dynamic Credit Assignment in Multi-Agent LLM Decision Systems**<br><sub>机构: University of Bristol<br>本文提出的 Market Regime Council (MRC) 通过将多智能体投资组合管理建模为在线合作博弈,解决了现有 LLM 金融决策系统中信用分配不明确、对市场体制转换适应性差以及缺乏可解释性的问题。通过引入精确的 Shapley 值计算、贝叶斯自适应混合机制以及体制感知的权重调整,MRC 在加密货币市场实验中展现了优越的风险调整后收益和完全的可审计性,为多智能体 LLM 在动态金融环境中的应用提供了新的范式。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.24490v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.24490.md) | | <span style='display: inline-block; width: 42px;'>05-23</span> | **Automated Detection and Classification of Delusion-related Content in Naturalistic Audio Diaries Using Multi-Agent Language Models**<br><sub>机构: University of Washington<br>本文提出并验证了一种可扩展的多智能体 LLM 流水线,用于自动检测和表征自然语音中暗示妄想信念的内容。研究揭示了详细提示指令对减少假阳性的有效性,以及简单多数投票优于复杂智能体辩论在处理临床模糊文本时的优势。该工作为实时监控精神疾病症状波动提供了有力的技术工具。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.24755v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.24755.md) | | <span style='display: inline-block; width: 42px;'>05-22</span> | **When Planning Fails Despite Correct Execution: On Epistemic Calibration for LLM-Based Multi-Agent Systems**<br><sub>机构: Tianjin University, Renmin University of China<br>本文揭示了 LLM 多智能体系统中一种常被忽视的失败模式——规划中的认知校准失误,即智能体高估了其知识对计划可行性的支持程度。针对该问题的潜伏性和动态性挑战,作者提出了 EPC-AW 框架,通过信息一致性选择计划和基于历史差异的认知状态精炼,有效提升了系统的整体成功率。这项工作为构建更可靠的智能体系统提供了新的视角,即从单纯纠正执行错误转向校准规划阶段的认知不确定性。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.23414v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.23414.md) <div style='min-width:85px;'>[![GitHub](https://img.shields.io/badge/GitHub-View-brightgreen?logo=github)](https://github.com/wzhSteve/EPC-AW)</div> | | <span style='display: inline-block; width: 42px;'>05-22</span> | **SkillOpt: Executive Strategy for Self-Evolving Agent Skills**<br><sub>机构: Microsoft, Shanghai Jiao Tong University, Tongji University, Fudan University<br>SkillOpt 开创性地将深度学习的优化纪律引入到文本空间的智能体技能训练中。通过将有界编辑、严格验证和稳定化机制相结合,它解决了传统技能演化方法中不可靠和不稳定的问题。该方法不仅在多项基准测试中显著超越了现有最先进方法,还证明了优化后的技能具有良好的跨模型和跨环境泛化能力,为冻结模型的持续领域适应提供了一种高效、可复现的新范式。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.23904v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.23904.md) <div style='min-width:85px;'>[![GitHub](https://img.shields.io/badge/GitHub-View-brightgreen?logo=github)](https://aka.ms/SkillOpt)</div> | | <span style='display: inline-block; width: 42px;'>05-22</span> | **OpenSkillEval: Automatically Auditing the Open Skill Ecosystem for LLM Agents**<br><sub>机构: Singapore Management University, Fudan University, JD.com<br>本文针对快速扩张的 LLM 智能体技能生态系统,提出了 OpenSkillEval 自动化评估框架。通过构建动态真实的任务实例和统一对比社区技能,研究揭示了技能增强的效果高度依赖于模型和框架的组合,且许多流行技能并未带来预期提升。这项工作强调了动态、任务 grounded 评估的重要性,并为 LLM 智能体的技能设计、选择和部署提供了实用的见解和指导。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.23657v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.23657.md) | | <span style='display: inline-block; width: 42px;'>05-22</span> | **LLM-driven design of physics-constrained constitutive models: two agents are better than one**<br><sub>机构: Hamburg University of Technology<br>本文提出了一种双 agent 协作框架,通过分离模型生成与物理检查,解决了 LLM 在本构模型设计中缺乏物理一致性的关键问题。实验证明,该方法不仅能自动生成符合物理定律的模型,还能保证高精度和强泛化能力,为自动化、物理感知的模型发现开辟了新路径,且该范式与技术无关,可随 LLM 能力提升自动扩展。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.23754v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.23754.md) | | <span style='display: inline-block; width: 42px;'>05-22</span> | **Push Your Agent: Measuring and Enforcing Quantitative Goal Persistence in Long-Horizon LLM Agents**<br><sub>机构: Xidian University<br>本文指出了长程 LLM 代理在“定量目标持久性”(QGP)上的显著缺陷,即代理难以在外部验证器确认完成足够数量的有效工作之前持续工作。通过提出 PushBench 基准,作者将重复工作、虚假完成和进度漂移从隐性失败转化为显性测量指标。实验表明,即使是顶尖的黑盒代理在面对高数量目标时也会大幅失效,而引入显式的状态跟踪和验证反馈机制能显著提升代理的持久性和可靠性。这强调了未来代理系统设计中,除了提升局部推理能力外,必须加强对外部验证进度的维护和全局目标的管理。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.23574v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.23574.md) | | <span style='display: inline-block; width: 42px;'>05-21</span> | **Compiling Agentic Workflows into LLM Weights: Near-Frontier Quality at Two Orders of Magnitude Less Cost**<br><sub>机构: University of Melbourne<br>本文通过实证研究打破了开发者对“编译式智能体”的三个主要误解。结果表明,将程序性知识编译进模型权重是处理持久性结构知识的自然解决方案:持久结构应存在于权重中,而瞬态状态应存在于 prompt 中。该方法以两个数量级的成本优势提供了接近前沿模型的质量,且具备敏捷的工程迭代能力,为替代昂贵且脆弱的外部编排框架提供了强有力的证据。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.22502v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.22502.md) | | <span style='display: inline-block; width: 42px;'>05-21</span> | **Agentic CLEAR: Automating Multi-Level Evaluation of LLM Agents**<br><sub>机构: IBM Research<br>Agentic CLEAR 填补了当前 Agent 可观测性工具与动态评估需求之间的空白。通过自动化、多层级的文本洞察生成,它不仅降低了对人工标注和手工规则的依赖,还显著提升了开发者调试和优化复杂 Agent 系统的效率,特别是在处理细微故障模式和跨步骤错误传播方面表现优异。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.22608v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.22608.md) <div style='min-width:85px;'>[![GitHub](https://img.shields.io/badge/GitHub-View-brightgreen?logo=github)](https://ibm.biz/ACLEAR-Code)</div> | | <span style='display: inline-block; width: 42px;'>05-21</span> | **WorkstreamBench: Evaluating LLM Agents on End-to-End Spreadsheet Tasks in Finance**<br><sub>机构: Columbia Business School<br>本文介绍了WorkstreamBench,填补了端到端金融电子表格构建评估的空白。通过引入涵盖准确性、公式和格式的多维评估体系,研究发现尽管Claude等领先模型表现较好,但当前LLM智能体在处理复杂金融建模任务时仍显不足,特别是在可扩展性和专业性方面亟待提升。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.22664v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.22664.md) | | <span style='display: inline-block; width: 42px;'>05-21</span> | **AtelierEval: Agentic Evaluation of Humans & LLMs as Text-to-Image Prompters**<br><sub>机构: New York University Abu Dhabi<br>本文介绍了 AtelierEval,首个针对人类和 MLLM 提示能力的统一基准,解决了现有研究忽视上游提示构建过程的问题。通过提出 AtelierJudge 代理评估器,实现了高相关性、可扩展的自动化评估。大规模实验不仅验证了该基准的诊断价值,还揭示了当前 MLLM 提示策略中模仿优于规划的洞察,为未来图像增强型提示者的研究指明了方向。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.22645v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.22645.md) | | <span style='display: inline-block; width: 42px;'>05-21</span> | **Spreadsheet-RL: Advancing Large Language Model Agents on Realistic Spreadsheet Tasks via Reinforcement Learning**<br><sub>机构: University of Illinois Urbana-Champaign<br>Spreadsheet-RL 通过引入强化学习微调和专用的训练环境,显著提升了 LLM Agent 在真实电子表格任务中的性能。它不仅解决了现有方法在处理复杂多步工作流时的局限性,还通过开源数据和环境促进了该领域的研究。结果显示,该方法在通用和领域特定任务上均取得了实质性进步,展现了在办公自动化和数据接口交互中的巨大应用潜力。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.22642v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.22642.md) <div style='min-width:85px;'>[![GitHub](https://img.shields.io/badge/GitHub-View-brightgreen?logo=github)](https://github.com/Spreadsheet-RL/Spreadsheet-RL)</div> | | <span style='display: inline-block; width: 42px;'>05-20</span> | **Agent JIT Compilation for Latency-Optimizing Web Agent Planning and Scheduling**<br><sub>机构: Stanford University<br>该论文提出了一种创新的Agent JIT编译方法,突破了传统Web Agent串行执行的瓶颈。通过将任务编译为可并行执行的代码,并结合智能规划与调度机制,该方法在大幅降低延迟的同时提高了任务执行的准确性。这为构建低延迟、高效率的自动化Web代理提供了新的技术路径。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.21470v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.21470.md) | | <span style='display: inline-block; width: 42px;'>05-20</span> | **Beyond Text-to-SQL: An Agentic LLM System for Governed Enterprise Analytics APIs**<br><sub>机构: Dialpad Inc.<br>本文针对企业分析中非技术用户访问受治理数据的难题,提出了 Analytic Agent。该系统克服了传统 Text-to-SQL 方法在 API 环境和数据治理方面的局限性,通过多智能体协作实现了意图解析、权限验证、安全查询执行和合规可视化。实验结果表明,该方法在真实企业场景中具有高准确性和执行成功率,为构建可信的、基于 API 的企业分析系统提供了实用路径。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.21027v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.21027.md) | | <span style='display: inline-block; width: 42px;'>05-20</span> | **Insights Generator: Systematic Corpus-Level Trace Diagnostics for LLM Agents**<br><sub>机构: Scale AI<br>本文形式化了语料库级别轨迹诊断的问题,并提出了 Insights Generator (IG) 系统。IG 通过多智能体协作,自动化地从大规模 LLM Agent 执行轨迹中提取有证据支持的系统性行为模式洞察。实验表明,IG 不仅能提供高质量的诊断报告,还能显著提升 Agent 的实际性能,有效解决了传统人工诊断和聚合评估无法发现的深层及静默失败问题。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.21347v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.21347.md) | | <span style='display: inline-block; width: 42px;'>05-20</span> | **APEX: Autonomous Policy Exploration for Self-Evolving LLM Agents**<br><sub>机构: National University of Singapore<br>APEX通过构建显式的策略地图,有效解决了自进化LLM智能体中的探索崩溃问题。它结合了基于证据的分支发现和平衡探索利用的策略选择机制,使得智能体能够在不更新模型权重的情况下,持续发现更优策略并在复杂长程任务中保持高性能。该方法在文本冒险和网页交互任务中均展现了显著的优势和鲁棒性。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.21240v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.21240.md) <div style='min-width:85px;'>[![GitHub](https://img.shields.io/badge/GitHub-View-brightgreen?logo=github)](https://github.com/liushiliushi/APEX1)</div> | | <span style='display: inline-block; width: 42px;'>05-20</span> | **What Twelve LLM Agent Benchmark Papers Disclose About Themselves: A Pilot Audit and an Open Scoring Schema**<br><sub>机构: University of Texas at Arlington; Texas Tech University<br>本文是一项关于 LLM Agent 基准测试透明度的试点审计研究。通过提出并应用一个包含五个维度的评分 schema,研究揭示了当前顶级 Agent 基准论文在实验细节披露上的严重不足,特别是环境规范和成本报告的缺失。该工作为社区提供了一套开源的审计工具,旨在推动更严格、透明的评估标准,尽管目前仅为单审核员初步结果,但为后续的多审核员审计和标准化奠定了基础。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.21404v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.21404.md) | | <span style='display: inline-block; width: 42px;'>05-19</span> | **PEEK: Context Map as an Orientation Cache for Long-Context LLM Agents**<br><sub>机构: MIT CSAIL, Stanford University<br>PEEK 通过引入“上下文地图”这一概念,成功解决了 LLM 代理在重复处理相同长上下文时缺乏高效定向知识的问题。它通过蒸馏、映射和驱逐机制,以极低的成本和 token 消耗,显著提升了代理在长上下文任务中的准确性和效率,证明了维护可重用的上下文定向知识对于提升 LLM 代理性能至关重要。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.19932v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.19932.md) <div style='min-width:85px;'>[![GitHub](https://img.shields.io/badge/GitHub-View-brightgreen?logo=github)](zhuohangu/peek)</div> | | <span style='display: inline-block; width: 42px;'>05-19</span> | **EngiAI: A Multi-Agent Framework and Benchmark Suite for LLM-Driven Engineering Design**<br><sub>机构: ETH Zurich<br>本文介绍了 EngiAI,一个用于 LLM 驱动工程设计的多代理框架和基准套件。通过引入工作流、RAG 和 HPC 编排三个维度的评估,文章系统地分析了不同 LLM 在处理复杂工程设计任务时的能力边界。结果表明,虽然专有模型在标准任务上表现优异,但在条件分支和长程工作流编排上仍面临显著挑战。该研究为评估和优化面向工程领域的 LLM 代理系统提供了重要的基准和参考实现。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.19743v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.19743.md) | | <span style='display: inline-block; width: 42px;'>05-19</span> | **A Methodology for Selecting and Composing Runtime Architecture Patterns for Production LLM Agents**<br><sub>机构: Stanford School of Engineering<br>本文确立了“随机-确定性边界”(SDB)作为生产级 LLM 代理运行时的核心架构原语。通过定义 SDB 的四部分契约,作者整理了六种运行时架构模式,并提出了选择方法和故障诊断流程。研究指出,随着模型能力的提升,架构惯性(由模式选择和 SDB 强度决定)将成为影响长期可靠性的主导因素。该工作为构建高可靠性生产级代理提供了系统的工程方法论。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.20173v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.20173.md) <div style='min-width:85px;'>[![GitHub](https://img.shields.io/badge/GitHub-View-brightgreen?logo=github)](https://github.com/vasundras/agent-runtime-patterns)</div> | | <span style='display: inline-block; width: 42px;'>05-19</span> | **Towards LLM-Assisted Architecture Recovery for Real-World ROS~2 Systems: An Agent-Based Multi-Level Approach to Hierarchical Structural Architecture Reconstruction**<br><sub>机构: Institute for Software and Systems Engineering, Clausthal University of Technology<br>本文针对 ROS 2 系统中架构模型缺失和不一致的问题,提出了一种增强的 LLM 辅助架构恢复方法。通过优化提示词设计和引入多级中间表示的分阶段恢复策略,成功实现了跨抽象层级的层级结构重建。在真实复杂案例研究中的评估证明了该方法在提高架构恢复质量和处理复杂性方面的有效性,为分布式 cyber-physical 系统的自动化架构文档化提供了新思路。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.20055v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.20055.md) | | <span style='display: inline-block; width: 42px;'>05-19</span> | **From Prompts to Pavement Through Time: Temporal Grounding in Agentic Scene-to-Plan Reasoning**<br><sub>机构: German University in Cairo (GUC), C-DRiVeS Lab, Deggendorf Institute of Technology, IAV GmbH<br>本文探讨了在多智能体通信中进行时间 conditioning 是否能保持或增强推理的一致性。研究指出,虽然标准NLP指标未能反映提升,但定性分析证明了时间 grounding 对于实现预测性安全和稳定行为的重要性。该工作明确了基于提示的时间 grounding 的局限,并为未来的时间场景到规划推理研究建立了基准。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.19824v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.19824.md) | | <span style='display: inline-block; width: 42px;'>05-17</span> | **Episodic-Semantic Memory Architecture for Long-Horizon Scientific Agents**<br><sub>机构: Serbian Institute for Artificial Intelligence Research and Development; Bayer A.G.<br>本文针对科学智能体在长程交互中面临的上下文饱和和认知退化问题,提出了一种双过程记忆架构。通过解耦短期情景记忆和长期语义记忆,并引入领域特定的巩固机制,有效解决了科学工作流中假设演化、矛盾参数处理和精确事实保留的挑战。实验表明,该架构在显著降低 token 成本和延迟的同时,在长程任务中保持了高准确率,优于传统的全上下文方法和单纯的 RAG 方案,为构建持久的科学 AI 合作者提供了可行的技术路径。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.17625v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.17625.md) | | <span style='display: inline-block; width: 42px;'>05-17</span> | **AgentModernize: Preserving Business Logic in Legacy Modernization with Multi-Agent LLMs and Behavioral Specification Graphs**<br><sub>机构: University of Texas at Arlington<br>AgentModernize 通过多智能体协作和行为规格图(BSG),成功解决了遗留系统现代化中业务逻辑丢失的核心痛点。实验表明,将现代化视为行为保持问题并引入严格的验证反馈机制,远优于传统的语法翻译方法。该框架不仅提高了代码生成的行为等价性,还为受监管行业提供了可审计的追踪记录(业务规则清单、BSG、等价性报告),具有重要的实际应用价值。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.17535v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.17535.md) | | <span style='display: inline-block; width: 42px;'>05-17</span> | **Causal Intervention-Based Memory Selection for Long-Horizon LLM Agents**<br><sub>机构: University of Georgia<br>本文指出了现有长周期 LLM 智能体记忆系统中基于语义相似度检索的局限性,提出了 Causal Memory Intervention (CMI) 方法,通过因果干预评估记忆的实际效用。同时构建了 Causal-LoCoMo 基准以评估系统在存在干扰和有害记忆时的表现。实验表明,基于因果有用性的记忆选择能显著提升智能体在复杂长周期任务中的鲁棒性和回答质量。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.17641v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.17641.md) <div style='min-width:85px;'>[![GitHub](https://img.shields.io/badge/GitHub-View-brightgreen?logo=github)](https://github.com/Saksham4796/causal-memory-intervention)</div> | | <span style='display: inline-block; width: 42px;'>05-17</span> | **Evaluating Deep Research Agents on Expert Consulting Work: A Benchmark with Verifiers, Rubrics, and Cognitive Traps**<br><sub>机构: Deccan AI Research<br>本文指出了当前深度研究智能体评估中的关键空白,即缺乏对多文档、决策级结构化交付物的严格评估。通过引入包含认知陷阱、确定性验证器和专家评分规则的新基准,揭示了当前最前沿智能体在高风险咨询任务中的局限性。结果显示,尽管智能体在某些方面表现出色,但在满足严格的质量和准确性联合标准方面仍有显著差距,且不同智能体表现出截然不同的失败模式。这强调了在将 DRAs 部署于关键企业决策之前,需要进行更严格、更贴近实际工作流的评估。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.17554v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.17554.md) | | <span style='display: inline-block; width: 42px;'>05-17</span> | **NeuSymMS: A Hybrid Neuro-Symbolic Memory System for Persistent, Self-Curating LLM Agents**<br><sub>机构: iVedha Corporation, MLSoft Inc.<br>NeuSymMS通过融合神经网络的语义理解能力与符号系统的逻辑推理能力,为LLM代理提供了一种可信任、可审计且持久的记忆解决方案。它有效解决了现有方法在事实冲突处理、时间演化追踪及上下文管理上的缺陷,为生产环境中的智能代理系统提供了一条实用的技术路径。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.17596v2)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.17596.md) | | <span style='display: inline-block; width: 42px;'>05-16</span> | **S-Bus: Automatic Read-Set Reconstruction for Multi-Agent LLM State Coordination**<br><sub>机构: laborate via shared shards.<br>S-Bus 通过引入基于 HTTP 流量分析的 DeliveryLog 机制,解决了多智能体 LLM 系统中共享状态管理的结构性竞态条件问题。它在无需修改智能体代码的前提下,提供了形式化验证的可观察读隔离(ORI)一致性保证。实证结果表明,S-Bus 在防止结构性冲突方面能达到与成熟数据库串行化隔离级别相当的效果,特别适用于专用分片拓扑的多智能体协作场景,为构建可靠的多智能体系统提供了重要的基础设施支持。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.17076v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.17076.md) <div style='min-width:85px;'>[![GitHub](https://img.shields.io/badge/GitHub-View-brightgreen?logo=github)](https://github.com/sajjadanwar0/sbus)</div> | | <span style='display: inline-block; width: 42px;'>05-16</span> | **AgentKernelArena: Generalization-Aware Benchmarking of GPU Kernel Optimization Agents**<br><sub>机构: AMD<br>AgentKernelArena 填补了 AI 智能体在 GPU 内核优化领域评估的空白,不仅关注代码生成的即时性能,更强调完整工作流的效率和优化结果的泛化能力。研究结果表明,虽然当前智能体在特定任务上能实现显著加速,但在从零生成内核时的泛化鲁棒性仍有待提高,特别是在处理未见输入配置时容易陷入硬编码陷阱。该框架为未来开发更通用、更鲁棒的 AI 辅助内核优化工具提供了重要的评估标准。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.16819v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.16819.md) <div style='min-width:85px;'>[![GitHub](https://img.shields.io/badge/GitHub-View-brightgreen?logo=github)](https://github.com/AMD-AGI/AgentKernelArena)</div> | | <span style='display: inline-block; width: 42px;'>05-16</span> | **To Call or Not to Call: Diagnosing Intrinsic Over-Calling Bias in LLM Agents**<br><sub>机构: Shanghai Jiao Tong University, Shanghai Artificial Intelligence Laboratory, Renmin University of China, The Chinese University of Hong Kong Shenzhen, University of Science and Technology of China<br>本文通过将过度调用从一种经验现象重构为可因果修正的机制对象,揭示了 LLM 代理中存在的内在调用偏差。通过结合稀疏自编码器进行机制诊断和自适应边际校准进行干预,该研究不仅解释了模型为何倾向于过度调用,还提供了一种高效、低损耗的纠正方案,为提升 LLM 代理的工具使用可靠性提供了新的视角和方法。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.18882v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.18882.md) <div style='min-width:85px;'>[![GitHub](https://img.shields.io/badge/GitHub-View-brightgreen?logo=github)](https://github.com/SKURA502/agent-sae/)</div> | | <span style='display: inline-block; width: 42px;'>05-16</span> | **SEMA-RAG: A Self-Evolving Multi-Agent Retrieval-Augmented Generation Framework for Medical Reasoning**<br><sub>机构: The Chinese University of Hong Kong, Wuhan University of Technology<br>SEMA-RAG 通过模仿临床医生的多阶段推理过程,将传统的单轮静态 RAG 重构为由三个专业智能体(解释器、探索者、仲裁者)协作的多轮动态框架。该方法有效解决了传统 RAG 在临床语义理解和证据充分性反馈方面的结构性缺陷,显著提升了医疗问答的准确性和可靠性。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.17101v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.17101.md) | | <span style='display: inline-block; width: 42px;'>05-16</span> | **RAGA: Reading-And-Graph-building-Agent for Autonomous Knowledge Graph Construction and Retrieval-Augmented Generation**<br><sub>机构: Qingdao University<br>RAGA通过引入自主Agent机制,解决了传统LLM驱动KG构建中存在的跨块语义丢失、实体歧义和缺乏可解释性的问题。其核心的“阅读-搜索-验证-构建”循环及证据锚定机制,不仅提升了KG构建的质量,还通过混合检索增强了RAG系统的可靠性,为高风险领域的可信AI应用提供了参考范式。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.17072v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.17072.md) | | <span style='display: inline-block; width: 42px;'>05-14</span> | **Veritas: A Semantically Grounded Agentic Framework for Memory Corruption Vulnerability Detection in Binaries**<br><sub>机构: University College London<br>Veritas 证明了“语义接地”作为二进制漏洞检测操作设计原则的有效性。通过结合静态分析的精确性、LLM 的推理能力以及动态验证的可靠性,Veritas 能够在剥离二进制文件中高效、准确地检测内存破坏漏洞,并在实际场景中发现了高危未知漏洞,展现了其在实际安全审计中的应用潜力。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.15097v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.15097.md) | | <span style='display: inline-block; width: 42px;'>05-14</span> | **Orchard: An Open-Source Agentic Modeling Framework**<br><sub>机构: Microsoft Research, Columbia University, UIUC<br>Orchard 通过提供一个轻量级、开源且与 harness 无关的环境层(Orchard Env),解决了智能体研究中基础设施碎片化和训练不可扩展的问题。它不仅在代码生成、GUI 操作和个人助理三个截然不同的领域展示了卓越的性能,还证明了通过高效的数据蒸馏和针对性的训练策略(如信用分配 SFT 和平衡自适应 RL),小参数开源模型可以达到甚至超越专有系统的水平。该框架的发布有望加速开源社区在智能体建模方面的创新。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.15040v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.15040.md) <div style='min-width:85px;'>[![GitHub](https://img.shields.io/badge/GitHub-View-brightgreen?logo=github)](https://github.com/microsoft/Orchard)</div> | | <span style='display: inline-block; width: 42px;'>05-14</span> | **Self-Distilled Agentic Reinforcement Learning**<br><sub>机构: Zhejiang University, Meituan, Tsinghua University<br>本文针对多轮 LLM 智能体训练中 RL 监督稀疏和 OPSD 不稳定的问题,提出了 SDAR 框架。通过引入门控机制,SDAR 有效地利用了 OPSD 的密集 token 级指导,同时通过不对称处理教师信号解决了多轮累积误差和特权上下文带来的噪声问题。实验证明,SDAR 在多个基准任务上均取得了显著的性能提升,且训练更加稳定,为 LLM 智能体的后训练提供了一种高效的新范式。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.15155v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.15155.md) <div style='min-width:85px;'>[![GitHub](https://img.shields.io/badge/GitHub-View-brightgreen?logo=github)](https://github.com/ZJU-REAL/SDAR)</div> | | <span style='display: inline-block; width: 42px;'>05-14</span> | **From Text to Voice: A Reproducible and Verifiable Framework for Evaluating Tool Calling LLM Agents**<br><sub>机构: Dialpad Inc.<br>本文提出了一种将文本工具调用基准转换为音频基准的通用框架,解决了现有音频基准缺乏通用性和复用性的问题。通过实证研究揭示了全模态模型在语音工具调用中的性能瓶颈及主要失败模式,并验证了开源大模型作为评估裁判的可靠性。该框架为语音代理系统的开发和部署提供了低成本、可复现的诊断手段,是对专用音频语料库的重要补充。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.15104v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.15104.md) | | <span style='display: inline-block; width: 42px;'>05-14</span> | **Known By Their Actions: Fingerprinting LLM Browser Agents via UI Traces**<br><sub>机构: University of Oxford<br>本文首次系统性地揭示了 LLM 浏览器代理的行为指纹特性。通过被动监测用户的 UI 交互痕迹(动作类型与时序),攻击者能够以极高的准确率识别出代理背后使用的具体 LLM 模型。这种识别能力不依赖于易被篡改的网络头信息,而是基于模型固有的行为动力学特征。研究还表明,常见的简单防御措施(如随机延迟)不足以抵御此类攻击。这一发现强调了在 LLM 代理广泛部署的背景下,保护模型身份隐私和防范针对性攻击的紧迫性。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.14786v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.14786.md) <div style='min-width:85px;'>[![GitHub](https://img.shields.io/badge/GitHub-View-brightgreen?logo=github)](https://github.com/KabakaWilliam/known_actions)</div> | | <span style='display: inline-block; width: 42px;'>05-09</span> | **Dual Data Alignment Makes AI-Generated Image Detector Easier Generalizable**<br><sub>机构: Tencent YouTu Lab, East China University of Science and Technology, Peking University, Renmin University of China, Shenzhen University, Hong Kong University of Science and Technology<br>本文揭示了现有AI生成图像检测器泛化能力差的根本原因不仅在于像素级的语义偏差,更在于被忽视的频率级不对齐。通过提出双数据对齐(DDA)方法,同时校正像素和频率域的分布,有效去除了虚假相关性。结合新提出的DDA-COCO和EvalGEN基准, extensive 实验证明该方法能显著提升检测器在多样化、 unseen 生成模型场景下的鲁棒性和泛化性能,为构建更通用的AIGI检测系统提供了新思路。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2505.14359v6)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2505.14359.md) <div style='min-width:85px;'>[![GitHub](https://img.shields.io/badge/GitHub-View-brightgreen?logo=github)](https://github.com/roy-ch/Dual-Data-Alignment)</div> | | <span style='display: inline-block; width: 42px;'>05-09</span> | **AlignGemini: Generalizable AI-Generated Image Detection Through Task-Model Alignment**<br><sub>机构: Tencent Youtu Lab, East China University of Science and Technology, Shenzhen University, Hong Kong University of Science and Technology<br>本文揭示了AIGI检测中根本性的“任务-模型”错位问题,即VLM擅长语义但弱于像素,传统视觉模型反之。通过提出“任务-模型对齐”原则,作者构建了AlignGemini,将检测任务解耦为语义一致性检查和像素伪影检测,并分别由最适合的模型分支处理。这种方法不仅在简化训练数据的前提下显著提升了检测精度和泛化能力,还为设计通用且高效的AIGI检测器提供了新的原则性框架。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2512.06746v2)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2512.06746.md) | | <span style='display: inline-block; width: 42px;'>05-09</span> | **All Patches Matter, More Patches Better: Enhance AI-Generated Image Detection via Panoptic Patch Learning**<br><sub>机构: Zhejiang University, Tencent Youtu Lab, Peking University, Wechat Pay<br>本文揭示了AIGI检测中“所有补丁都包含伪影”的特性,并指出了现有方法因“懒惰学习”而导致的少补丁偏差问题。提出的PPL框架通过随机补丁替换和补丁级对比学习,成功迫使模型均匀利用所有补丁信息。该方法在多个基准测试中展现了卓越的泛化能力和鲁棒性,为提升AI生成图像检测的性能提供了新的视角和技术路径。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2504.01396v3)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2504.01396.md) | | <span style='display: inline-block; width: 42px;'>05-07</span> | **StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction**<br><sub>机构: The Chinese University of Hong Kong, Shanghai Artificial Intelligence Laboratory, University of Oxford, University of Georgia, Shenzhen Loop Area Institute<br>StraTA 通过引入显式的轨迹级策略抽象,解决了现有反应式智能体在长视野决策中面临的探索短视和信用分配难题。该方法通过分层训练和多样化策略机制,显著提升了 LLM 智能体在复杂交互任务中的性能和样本效率,为构建更可靠的长视野智能体提供了新的范式。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.06642v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.06642.md) <div style='min-width:85px;'>[![GitHub](https://img.shields.io/badge/GitHub-View-brightgreen?logo=github)](https://github.com/xxyQwQ/StraTA)</div> | | <span style='display: inline-block; width: 42px;'>05-06</span> | **FoodCHA: Multi-Modal LLM Agent for Fine-Grained Food Analysis**<br><sub>机构: University of California, San Diego<br>FoodCHA 通过引入分层代理机制,有效解决了食物识别中细粒度属性提取难和标签非规范化的问题。它不仅在精度上显著优于现有的大型视觉语言模型,还通过采用轻量化基座模型提升了实际部署的可行性,为实时、准确的个人营养监测提供了新的技术路径。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.05499v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.05499.md) | | <span style='display: inline-block; width: 42px;'>05-05</span> | **Agent Island: A Saturation- and Contamination-Resistant Benchmark from Multiagent Games**<br><sub>机构: Stanford University<br>本文提出了 Agent Island,一个旨在解决静态基准测试饱和与污染问题的动态多代理博弈环境。通过让LLM代理在类似《幸存者》的环境中进行说服与竞争,该方法能够持续评估模型的战略交互能力。实验结果显示 GPT-5.5 具有显著优势,并揭示了模型间存在的提供商偏好偏见。该工作为追踪LLM在复杂多代理场景下的能力演进提供了新的工具和视角。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.04312v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.04312.md) | | <span style='display: inline-block; width: 42px;'>05-04</span> | **When Agents Handle Secrets: A Survey of Confidential Computing for Agentic AI**<br><sub>机构: Imperial College London<br>本文系统地梳理了机密计算在Agentic AI领域的应用现状与挑战。作者指出,随着AI代理承担更多自主任务,传统的软件层防御已不足以应对来自特权对手和复杂交互流程的安全威胁。通过引入TEE和远程认证,机密计算提供了硬件级的隔离和信任验证能力。然而,目前仍缺乏一个成熟的端到端框架来整合这些硬件原语,特别是在处理多代理协作认证和大规模GPU加速推理的性能优化方面仍存在六大开放挑战。该综述为未来构建生产级安全代理系统提供了重要的理论依据和技术路线图。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.03213v2)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.03213.md) | | <span style='display: inline-block; width: 42px;'>05-03</span> | **Coopetition-Gym v1: A Formally Grounded Platform for Mixed-Motive Multi-Agent Reinforcement Learning under Strategic Coopetition**<br><sub>机构: University of Toronto<br>Coopetition-Gym v1 为混合动机多智能体强化学习提供了一个形式化 grounded 的基准平台。通过解耦收益与奖励、校准历史案例以及提供全面的参考算法和数据集,该平台使得研究人员能够系统地研究战略竞合中的复杂动态,推动了 MARL 从理想化场景向更具现实意义的混合动机场景迈进。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.02063v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.02063.md) <div style='min-width:85px;'>[![GitHub](https://img.shields.io/badge/GitHub-View-brightgreen?logo=github)](https://github.com/vikpant/strategic-coopetition)</div> | | <span style='display: inline-block; width: 42px;'>05-02</span> | **Feedback-Normalized Developer Memory for Reinforcement-Learning Coding Agents: A Safety-Gated MCP Architecture**<br><sub>机构: PythaLab, Yildiz Technical University<br>本文贡献了一个具有组件级证据和明确声明边界的可审计记忆控制架构,而非声称 universal 的编码智能体改进。它强调了在RL编码代理中,记忆管理需要结合严格的治理、离线评估和安全门控,以应对微小细节对训练稳定性和正确性的重大影响。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.01567v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.01567.md) | | <span style='display: inline-block; width: 42px;'>05-01</span> | **A Low-Latency Fraud Detection Layer for Detecting Adversarial Interaction Patterns in LLM-Powered Agents**<br><sub>机构: University of California, San Diego; UNC at Greensboro; Indiana University Bloomington<br>本文提出了一种互补的防御机制,即针对 LLM 智能体的低延迟欺诈检测层。通过从交互轨迹中提取结构化特征并使用轻量级机器学习模型,该方法解决了传统规则基方法在应对多轮渐进式攻击时的不足,以及 LLM 基检测方法延迟过高的问题。实验表明,交互级别的行为检测应成为 LLM 智能体部署时防御体系的核心组成部分。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.01143v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-05/2605.01143.md) | --- ### 2026年04月 | &nbsp;Date&nbsp;&nbsp; | Paper | Links & Summary | | --- | --- | --- | | <span style='display: inline-block; width: 42px;'>04-30</span> | **Agentic AI for Trip Planning Optimization Application**<br><sub>本文针对智能车辆行程规划中从可行性向最优性转变的需求,解决了现有方法在优化能力和评估标准上的双重缺口。通过引入具备动态细化能力的编排式代理 AI 框架,以及提供确切最优解的 TOP 数据集,作者实现了比传统单代理及固定工作流多代理系统更优的性能,为行程规划优化提供了新的方法论和评估基准。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2605.00276v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-04/2605.00276.md) | | <span style='display: inline-block; width: 42px;'>04-26</span> | **ClawTrace: Cost-Aware Tracing for LLM Agent Skill Distillation**<br><sub>机构: UC San Diego, Epsilla, Carnegie Mellon University<br>本文指出了当前 LLM Agent 技能蒸馏中忽视成本信号的缺陷,提出了 ClawTrace 追踪平台和 TraceCard 数据格式,解决了细粒度成本归因难题。基于此构建的 CostCraft 管道生成了保留、剪枝和修复三类技能补丁。研究揭示了剪枝规则在跨任务成本优化上的高效性与泛化能力(降低 32% 中位数成本),而保留规则可能存在过拟合风险。ClawTrace 作为开放基础设施发布,旨在推动成本敏感的 Agent 研究。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2604.23853v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-04/2604.23853.md) | | <span style='display: inline-block; width: 42px;'>04-27</span> | **BenchGuard: Who Guards the Benchmarks? Automated Auditing of LLM Agent Benchmarks**<br><sub>机构: University of Washington, Phylo, Inc., Genentech, Inc.<br>本文提出了 BenchGuard,开创了将前沿 LLM 从被评估对象转变为评估基础设施主动验证者的新范式。通过自动化交叉验证基准测试的各个组成部分,BenchGuard 有效解决了基于执行的基准测试中普遍存在的隐性错误和噪声问题。实验结果表明,该方法不仅能高精度地复现专家发现的问题,还能以极低的成本揭示人工审查遗漏的重大缺陷,为 AI 辅助的基准测试开发提供了切实可行的解决方案。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2604.24955v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-04/2604.24955.md) | | <span style='display: inline-block; width: 42px;'>04-24</span> | **FormalScience: Scalable Human-in-the-Loop Autoformalisation of Science with Agentic Code Generation in Lean**<br><sub>机构: University of Manchester, Idiap Research Institute, National Biomarker Centre<br>本文提出了 FormalScience,一个高效的人机协同自动形式化流水线,并构建了 FormalPhysics 数据集。研究不仅解决了物理学等科学领域因符号复杂性和语义漂移导致的自动形式化难题,还通过系统性分析揭示了 LLM 在科学推理形式化中的局限性。该工作为科学领域的可解释性验证和自动化事实核查提供了重要基础工具和基准。</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2604.23002v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-04/2604.23002.md) <div style='min-width:85px;'>[![GitHub](https://img.shields.io/badge/GitHub-View-brightgreen?logo=github)](https://github.com/jmeadows17/formal-science)</div> | | <span style='display: inline-block; width: 42px;'>04-24</span> | **Superminds Test: Actively Evaluating Collective Intelligence of Agent Society via Probing Agents**<br><sub>机构: University of Maryland<br>Collective intelligence refers to the ability of a group to achieve outcomes beyond what any individual member can accomplish alone. As large language model agents scale to populations of millions, a key question arises: Does collective intelligence emerge spontaneously from scale? We present the first empirical evaluation of this question in a large-scale autonomous agent society.</sub>| <div style='min-width:85px;'>[![arXiv](https://img.shields.io/badge/arXiv-Paper-%23D2691E?logo=arxiv)](https://arxiv.org/pdf/2604.22452v1)</div><div style='min-width:85px;'>[![Summary](https://img.shields.io/badge/Sum.-Read-blue?logo=dependabot)](summary/2026-04/2604.22452.md) | --- <!-- paper-daily:readme:months:end --> ## Star History <picture> <source media="(prefers-color-scheme: dark)" srcset=" https://api.star-history.com/svg?repos=xianshang33/llm-paper-daily&type=Date&theme=dark " /> <source media="(prefers-color-scheme: light)" srcset=" https://api.star-history.com/svg?repos=xianshang33/llm-paper-daily&type=Date " /> <img alt="Star History Chart" src="https://api.star-history.com/svg?repos=xianshang33/llm-paper-daily&type=Date" /> </picture>

Developer Tools ML Frameworks Read-it-Later & RSS
1.3K Github Stars