最近有个东西让我有点坐不住。
GLM-5.1 发布了,编程评测 45.3 分,直逼 Claude Opus 4.6 的 47.9。

光看跑分还不够,我得亲自下场测一测。
于是我给了它一个真实项目需求:从零开发一个在线简历编辑器——派简历。9 份需求文档、前后端完整开发、自动化测试,全程不让它停。
最近有个东西让我有点坐不住。
GLM-5.1 发布了,编程评测 45.3 分,直逼 Claude Opus 4.6 的 47.9。

光看跑分还不够,我得亲自下场测一测。
于是我给了它一个真实项目需求:从零开发一个在线简历编辑器——派简历。9 份需求文档、前后端完整开发、自动化测试,全程不让它停。
大家好,我是二哥呀。
科大讯飞这次干的漂亮(值得鼓掌)。
他们开源了一个叫 SkillHub 的项目,定位是“企业级 Agent Skill 商店”。说人话就是:给 AI Agent 造了一个 npm,或者说是 Docker Hub,但专门为 Skills 设计。
上线没多久,GitHub 上已经 1.5K Star 了。

大家好,我是二哥呀。
Claude Code 源码泄露后,我是熬了一宿啊。
首先搞了一个二哥版的CLI,还挺像模像样的,哈哈,基本的Skills、MCP都可以调用。

然后又搞了好几份教程,等校对完都会开放给大家,比如说这份《Claude Code编程思想》。
大家好,我是二哥呀。
最近有个词在 AI 圈子里火得不行,叫 Harness Engineering。
AI圈是真会造新概念啊:Agents aren't hard; the Harness is hard——Agent 不难,难的是 Harness。
仔细研究了一圈之后,我发现这玩意不是噱头,而是 AI 工程化走到今天必然会出现的一个转折点。
简单说,过去我们花大力气调提示词、选模型、做微调,但 Agent 在真实场景里跑起来依然各种掉链子:任务跑一半忘了目标、上下文越来越乱、报错了不知道怎么恢复。这些问题靠更强的模型解决不了,得靠一套“外挂系统”来管着它。
大家好,我是二哥。
有句话憋在心里好久了:Claude Code/Codex 写代码的能力确实强,别的工具没法比,但他们的联网能力,确实差点意思。
尤其是碰到微信公众号、小红书这类需要登录 session 的网页,直接歇菜,并且经常陷入自己的死循环,折腾好久出不来结果。

“最近飞书、网易云音乐都在发 CLI 工具,你怎么看这波热潮?”老王笑嘻嘻地问,“AI 圈每天都在出新东西,有些是风口,有些是泡沫。CLI 这波,你觉得是哪个?”
能感受到,老王对 AI 时代的技术敏感度是真的高。
飞书也不愧是 OpenClaw 大火之后的最大赢家,不仅第一时间降低飞书的配置难度,还在第一时间做出针对 Agent 的 CLI,成为我和 AI 交流最频繁的 IM 工具。

大家好,我是二哥呀。
这段时间,Skills 这个概念被炒得相当热。
Anthropic 出了一批,OpenAI 出了一批,现在 MiniMax 也把自家压箱底的技能包全部开源了,现在已经飙升到 7.8K+ Star。

他们的口号是:把 AI 写代码的质量,从「大学生水平」直接拉到「5 年以上资深工程师水平」。
大家好,我是二哥呀。
昨天还在用 Codex 新出的插件功能往飞书云文档上传 Markdown,今天飞书官方 CLI 就来了。
这节奏,离谱到了奶奶家。

等于说我昨天肝了一天的功能全废,真应了那句话,AI 时代,你不学,工具会自动过期。😄
飞书 CLI 是什么?
老王发量很多,且阳光自信,一看就是刚入职没两年的热血青年,但确实有面试官的威严。
这是我的第一场面试,说不紧张那是不可能的。
但提前已经和同频道的宿友互面了两周,面对老王的压力,自认为能扛得住。😄
“我看你简历上连个Agent项目都没有,你难道不知道现在是AI时代吗?”老王第一次张嘴就开始给压力。

大家好,我是二哥呀。
用 Claude Code 写代码写了大半年,什么都好,就一个事让我一直如鲠在喉——联网能力太拉了。
WebSearch 搜出来的东西经常答非所问,WebFetch 抓网页动不动就返回一堆乱码,碰到需要登录的页面直接歇菜。更离谱的是小红书、微信公众号这种动态渲染的平台,Agent 根本看不到内容,跟瞎子摸象似的。
