大家好,我是二哥呀。
必须推荐一个,最近一直在用,GitHub 上有 1.4K Star 的开源项目,名叫 BrowserAct。
专门为 AI Agent 打造的浏览器自动化 CLI 工具。

https://github.com/browser-act/skills
大家好,我是二哥呀。
必须推荐一个,最近一直在用,GitHub 上有 1.4K Star 的开源项目,名叫 BrowserAct。
专门为 AI Agent 打造的浏览器自动化 CLI 工具。

https://github.com/browser-act/skills
大家好,我是二哥呀。
上周一个球友在群里吐槽:"老板让我做竞品分析报告,还要附带 PPT 和数据表格,给了我两天时间。"
我问他后来怎么搞定的,他说自己肝了一天半,PPT 排版到凌晨两点。我听完心情复杂,因为类似的活,我前两天用天工花了不到 20 分钟就跑完了——从数据整理到报告生成到 PPT 排版,一条龙。
【此处插入天工生成报告的截图:截图目标:展示天工一站式完成竞品分析的全流程;关键词:对话框、任务执行、多文件输出;建议位置:网页截图】
不是吹,是真的觉得这个时代的生产力工具已经变了。
今天这篇就聊两个东西:一个是昆仑万维的天工超级智能体(后面简称天工),另一个是他们刚开源的 Agent 模型 SkyClaw v1.0。前者是产品,让普通人也能调度一支 AI 团队干活;后者是模型,让开发者能在自己的 Agent 里接入一个性价比炸裂的大脑。
大家好,我是二哥呀。
有没有想过?
Claude Code 的代码搜得又快又准,到底是怎么实现的?

我花了一早上时间,认真研究了会,翻了翻 Anthropic 首席工程师 Boris Cherny 的播客、亚马逊科学团队发的论文、Cursor 官方博客的论证、Claude Code 源码,把这件事从头到尾捋了一遍。
大家好,我是二哥呀。
这两年 AI 工具是真的多。每天打开电脑,光 AI 相关的标签页就能数出七八个。一个聊天,一个写代码,一个查知识库,一个跑 Agent,再加上各家模型的控制台。切来切去,脑子不是用在任务上,全用在找窗口上了。
直到我看到 HarnessClaw。第一反应是:又一个聊天壳子?如果只是把模型搬到桌面端,那跟在网页上聊有什么区别?但实际装上去跑了一遍之后,我发现这个东西的野心比我想的大得多,它想做的不是"又一个 AI 聊天工具",而是"本地 AI Agent 工作台"。
这篇文章我就讲三件事。多 Agent 聚合管理,告别一个窗口一个模型的日子;Electron 跨平台桌面端,Mac、Windows、Linux 开发者都能用;Harness 工程化思维,让 AI 从"你问我答"变成"人掌舵,Agent 执行"的任务调度平台。
大家好,我是二哥呀。
这两年 AI 工具是真的多。一个网页负责聊天,一个网页负责代码,一个网页负责知识库,一个网页负责 Agent,再加上模型厂商自己的控制台,桌面上很容易开成一排标签页。
所以我看到 HarnessClaw 的第一反应是:它到底是不是一个新的聊天壳子?如果只是把模型搬到桌面端,那意思不大。真正有价值的点应该是,把模型、Agent、工具、技能和项目放到一个本地工作台里,让它能像一个 AI 指挥台一样用起来。
我这次没有只看 README,也没有只写产品介绍,而是把 HarnessClaw Engine、桌面客户端、多模型配置、内置 Specialists、Skill 市场都实际点了一遍。结论先放前面:最适合写成推广案例的,是“本地 AI Agent 工作台”。
大家好,我是二哥呀。
市面上目前所有的 Coding Plan 都只有语言模型。
换句话说,如果你的 Agent 需要音频能力,你需要额外接入 TTS 模型;
需要 RAG,你需要额外接入向量模型;需要视频/图片生成,你需要额外接入视觉模型。这还不包括联网搜索、记忆能力等其他 Harness。
麻中麻。
于是宇宙厂出手了,火山引擎推出了业界第一个 Agent 套餐:方舟 Agent Plan。

大家好,我是二哥呀。
讲良心话,GPT-5.5 和 Opus 4.7 的模型能力已经非常强了。
哪怕是国产模型,配上顶级的 Harness 工具 Claude Code,也能变得非常强大。
下图是我最近肝出来的一个 PaiCLI 工具,交互体验和 Qoder CLI/Claude Code 很接近了。

第一弹,聚焦 Agent 核心架构——ReAct、Plan-and-Execute、Multi-Agent、异步并行。
这几个方向面试出现的频率最高,也是 PaiCLI 第 1、2、5、7 期的核心内容。
ReAct 是 Reasoning + Acting 的缩写,Yao et al.(姚顺雨)在 2022 年提出。
核心就一句话:让 LLM 在推理的同时能执行动作,根据动作结果继续推理,形成一个闭合的循环。

大家好,我是二哥呀。
这是面试题系列的最后一弹——综合设计题。
前面七篇我们聊了 Agent 核心架构、记忆与上下文、工具与安全、MCP 协议、多模型适配、Prompt 与 Skill、产品化,每一篇都在拆某个具体方向的知识点。但面试到后半段,面试官不会再问你“HITL 的五种审批决策是什么”这种可以查代码的细节了。他要看的是你的系统设计能力、技术判断力和工程品味。
综合设计题没有标准答案。回答的关键不是背一段结论,而是展示你的思考过程——怎么分析问题、怎么权衡取舍、怎么在约束条件下做出合理选择。这也是我做 PaiCLI 21 期教程最大的体会:写代码是手段,做决策才是核心能力。
我说:"MCP 全称 Model Context Protocol,是 Anthropic 在 2024 年底提出的开放协议。它定义了 AI 应用和外部工具之间的标准通信接口。"
