YX Nexus 周报 003:Agent、创作、注意力

2025年6月1日
YX Nexus 周报 003:Agent、创作、注意力

本周主题主要聚焦在AI Agent的认知、构建与经验,还有对于AI与认知科学相关结合的“情感”与“注意力机制”等


1.先分享一个很有趣的小故事:

1900 年,两匹马凝视着早期的汽车,思考着它们的未来。

“我很担心技术性失业。”

“嘶嘶,别做个卢德分子(泛指因担忧技术冲击而抵制技术的人)。在蒸汽机取代我们在工业中的地位、火车取代我们拉货车的工作时,我们的祖先也说过同样的话。但今天,我们的就业岗位不减反增,而且,这些岗位比过去更好,我宁愿拉一辆轻巧的四轮马车,也不愿整天原地打转,只为了驱动一台愚蠢的矿井抽水机。”

“但是,如果内燃机真的腾飞了呢?”

“我肯定,一定会有超出我们想象的新工作给我们来做。过去一直都是这样的,就像轮子和犁发明的时候一样。”


2.对于 AI Agent Infra(基础设施层)新的认知:

目前 Agent 开发仍处于行业开发标准前期,并没有系统性的构建规范(虽然有框架,但没有统一性的)。不过,可以预见的是 Agent 开发难度与成本都在持续下降,随着 MCP 逐渐被接受、Manus 等许多通用型智能体让 Agent 具象化,无疑会促成新的认可与规范。下面的对于 Infra 层的几点概括:

拾象:

2025 年以来,Agent 开发量和使用量都有明显提高。Agent 的爆发带来了 Agent Infra 需求的爆发。在过去 1-2 年,Agent 开发大多依赖开发者手动使用传统 Infra 搭建,开发工程量大、流程复杂,但随着越来越多 Agent-native Infra 涌现,Agent 开发的难度和周期都在缩小,开发的范式正在重构和收敛

Agent Infra 是 Agent 落地的关键,涵盖了 Agent 从开发到部署的完整生命周期。我们对这个领域进行了初步扫描后,按重要性划分出了四大赛道,分别是:

  • Environment 的作用是给 Agent 执行任务提供容器,是一个 Agent-native computer;

  • Context 层是在 Agent 工作中赋予记忆 Memory 和领域知识的重要中间层;

  • Tools 由于 MCP 协议的统一而百花齐放,同时目前 Tools 的核心用户还是开发者,普通用户的使用门槛太高;

  • Agent Security 是在 Agent 产品范式固定之后会涌现的大机会,需要同时确保避免 Agent 受攻击和发起攻击。


3.对于构建一个较为完整的 Agent(有目标、有记忆、能规划、调用工具)的经验分享:

有趣的是,作者所言,大部分代码为 AI 所写,自己进行测试与优化。 原文:Vibe coding 实战

该 Agent 能够基于用户需求,自主规划包含行程、交通、场地推荐和预算的周末活动方案。核心能力包括:

  • 自主规划与思考:AI 能在半开放的“轨道”上(开发者设定边界和硬规则)自主判断任务步骤、所需工具组合及信息完整性。
  • 多工具调用:集成了小红书(获取灵感)、POI 地图信息(如百度地图 API,核实地点客观数据)、路线规划工具和上下文查询工具(复用已有信息)。
  • 记忆能力 (上下文管理):通过精细的上下文注入策略(筛选、压缩、存储不同类型和重要性的信息,如系统消息、用户消息、AI 输出、工具结果),模拟长期记忆,确保 Agent 理解并持续追踪用户需求。
  • Human-in-the-Loop:强调在复杂任务中多轮交互和用户确认的必要性,因为用户需求往往模糊且动态。

其他拓展思考:

关于“记忆”:

上下文管理与“真正”的记忆:

  • 目前的上下文管理是“模拟记忆”。真正的突破可能在于模型本身具备更长、更高效的内部记忆机制,或者出现新型的记忆存储和检索架构(超越向量数据库的简单相似性搜索)。

  • 分层记忆机制”的设想非常重要。可以借鉴人类记忆模型(瞬时记忆、短时记忆、长时记忆),并根据信息价值、遗忘曲线等设计更精细的策略。

关于“流程”,文章提到了将可控工作流(即清晰的硬规则)与自主性平衡结合。即:

设定清晰的“硬规则”(如必须先查天气、POI 工具的特定用途、关键节点的用户确认),但在规则框架内给予 AI 判断工具组合和执行顺序的自由。


4.本周最喜欢的创始人访谈来自于晚点对明超平的访谈,其为 YouWare CEO,方向为coding agent、社区、押注 coding 会成为一种普遍的新创作方式

时间窗口

大家都觉得 AGI 重要,你可以俯拍、仰拍、侧拍。字节可以用徕卡拍,我们可能只能用手机。但最后不是设备决定了结果,而是你在什么时间什么位置,按下了快门。

创作动机

太多 AI 产品提供创作能力,而 YouWare 想激发创作动机

今天大多数 AI 产品只是在解决 “能力”——给你一个足够简单、能出效果的对话框,告诉你什么都能做,指望你自己发挥,这时大多数人都是懵的,因为组织语言很费劲。我们则希望通过社区,给用户 “动机” 和 “触发器”——因为这里有创意分享、内容参考和创作者间的互相帮助。

智能赋能

我突然悟到,好的公司,必须被一个技术周期里最主流的趋势赋能。今天判断一个 AI 产品的价值,也应该看它对它的 token 消耗是在加速还是放缓?它是不是在最大化利用智能红利?

提高价值

从最开始追求 token 消耗,到追求 value per token(单个 token 的价值)。选 coding 和社区,就是在追求 value per token。

社区进一步放大了单 token 的价值,当一个 vibe coding 作品被放到社区,不仅能被复用,还能激发其它人的创作和消费。这种指数级的扩散是我们真正关注的杠杆。

当前问题

目前的 AI 产品都太效率导向,这个世界也需要更多元的东西。我们今天在思考这些取舍,我希望工具足够易用、效果足够好,也希望用户在能享受作为人和创作者的创造过程。有趣总是重要的。

激励与商业

这是三个阶段:第一阶段是我们充当广告商,knot 激励就是 YouWare 官方付的广告费;第二阶段是我的广告费和三方广告费平摊给作者;第三阶段,纯粹靠三方广告去激励作者就行了。

设想的未来

  • 一类是调度型 Agent,本质上像一个 OS(操作系统),直接面向用户;
  • 另一类是被调度的 Agent,按需被调用来完成具体任务。

比如一个用户说 “我想做一个设计”,调度型 Agent 会分解需求、匹配工具,在它的调用列表里可能有 100 个可选的设计 Agent。有意思的是,现在搜索里的 page rank 可能会变成 Agent Rank

硬件、上下文

我想过,如果我做眼镜,可能会做极致减法,只保留一个传感器:它要么是个摄像头,但不用来拍照或拍视频,而是每隔一段时间采集环境信息;要么是一个扬声器或录音器,可以记录声音信息,这样 AI 就能帮你处理更多线下数据。

这背后是两种逻辑:

  • 一是把物理世界的信息喂给 AI,通过 prompt 告诉它:我是谁、要干嘛;
  • 二是把 AI 拉入现实世界,通过具身智能或其它设备,让它一直 “在场”,持续理解你。

这是眼镜这类设备的最大价值。你如果想颠覆苹果、Google、微软,你就要拿到他们拿不到的上下文

个人决策

我还是偏直觉型。我不相信绝对理性,“理性是对感性的说服”。我的起点是 “我觉得”,然后我会用数据去验证,看是否要修正直觉。

产品思维

在月之暗面(Kimi)中学到的,很多产品形态,不是一两个月就能做出来的,你要押注一、两年后的模型能力和技术条件,要思考怎么在今天做事,才能让产品继续被下一阶段的智能赋能。确实在 Kimi 之前,没人这么跟我交流过,互联网产品也没必要这么做。

产品经验(一加-字节剪映-月之暗面-youware创业):

  • 一是用户:你得真的知道用户是怎么用产品的,这必须贴近观察。
  • 二是用科学方式做产品:产品会有一部分偏艺术或感性的东西,但其中至少六、七成完全可以被科学化。
  • 三是以终为始:要基于未来可能发生的事,而非过去已经发生的事推演产品。这包括未来的技术成熟度、市场和竞争格局、用户心态和行为等。这可能是 AI 时代最重要的东西了。

5.一位独立开发者复刻 Youware,代码开源,同时有详细的文档规划指导 AI 完成项目开发,认识到:

当时我很欣赏他们,感觉必火,然后感觉自己复刻一个也没那么难,最后发现我错得离谱——我能把它做出来,弄上线,但是没办法持续运营它——增长能力才是他们的核心竞争力。

我从很久以前,就明白应该从需求侧开始设计产品了,用工程师的思路、供给侧思路正向去盘,一定会出问题。我大部分时间也是从需求侧做的,也终于赚了一点钱。

但偶尔,只是偶尔,我还是忘不掉我曾是一个无所不能,几乎能做出市面上任何 AI 应用的工程师——只要时间和资源允许。

这当然是犯浑,一个自负盈亏的生意人不该这么做。所以就有了上面的仓库,一个痛苦的教训。


其他的一些随笔思考:

6.关于 AI 与情感

并没有什么已知的法则明确禁止一个足够复杂的、基于信息处理的系统,发展出类似于“情感”的内在状态。

“情感”甚至也是一种高度复杂系统涌现的特性。

并不一定要求这种情感是和人类一样的,毕竟生理基础本身有很大差异。

不过,如果将“情感”作为反馈机制?本身已经实现。

未来构建的复杂AI系统,多模态感知输入(预训练的世界基座模型)、强大的自我学习与环境交互能力(强化学习)、一个能够进行内在状态评估和目标驱动的“价值”系统(创造意义、prompt、system prompt learning)

如何定义与度量?是不是还是模式匹配?负面情感是否要赋予?是,则有巨大风险;否,则可能无法涌现出复杂的“情感”?

我们把情感放到两个层面来看看:

  • 功能层(情感=特殊的控制与反馈回路)
  • 现象层(情感=主题可报告、可区分的内在状态)

现有的强化学习中的奖励函数已经可以理解为是一种“情感信号”,处于功能层面。


7.注意力机制中的认知科学:

在AI的学习中尤其保持跨学科思维,毕竟,Transformer的成功本身就证明认知科学与AI的深刻关联。

对智能定义为“完成某种复杂任务的能力”,这样,注意力机制还能否作为智能的一个底层机制?复杂任务中的挑战,超长信息、任务动态变化、长程依赖...

为了完成任务,所具备的一个能力就是注意力机制,核心是”在资源有限的情况下动态地选择、关注意义——即对于任务完成有所帮助的某些信息“,这是认知层面的一个能力。

在这种情况下,QK匹配——过滤无关信息、Softmax权重分配——资源分配给最相关信息、Value加权融合——任务所需上下文信息、多头机制——并行多种视角。

动态过滤、资源优化分配、多种视角(多模态融合、世界模型)

注意力机制是智能的必要条件,但不是充分条件。


8.复杂系统是相似的

对智能功能性定义为“完成某种复杂目标的能力”

把人工智能看作人类有意识的、为达到某种目的的复杂系统。公司已经是我们造出来的“AI”,只是它还没有意识罢了。但它已经拥有了“目标函数、反馈机制、自组织结构和影响世界的能力”。

尤其以拟合数据(对于公司的输入变成了市场、用户、监管、竞争等)类比,商业作为核心,亏损是欠拟合过度追求利益则过拟合。这个模型“局部最优”等变得“失控”,则需要被微调…


9.底层逻辑是相通的

AI能够泛化,也是因为很多底层逻辑是相通的—泛化依赖底层逻辑相通,学习到了数据、乃至于未来世界中的底层规律。世界模型变得很重要了…

人类现在为止并不清楚、也无法验证,AI也许已经进化出了新的维度感知能力。就如同对天生盲人来说颜色是什么…这也是一种智能“黑箱”

人类引以为傲的创造力、情感感受等(心智特征),AI未必不能出现而且也许不需要出现…AI的发展会使其出现新的存在形态,然而这很大程度上取决于人类的引导。

未必不能让AI与人类协作共生中,发展出其自身的、独特的感知维度、认知方式、价值实现,我们需要定义“生命”