这份 AI Agent 学习路线我整理了一周,后端程序员转型直接抄作业
大家好,我是二哥呀。
最近收到的私信里,有一半都在问同一个问题:"二哥,我想转 AI,但不知道从哪开始学。"
说实话,我太理解这种感觉了。打开 B 站搜 AI 学习路线,一堆视频告诉你要先学 Transformer、先看 Attention is All You Need 论文、先搞懂反向传播。看完感觉自己数学不行,转身就把浏览器关了。
但真相是——大部分人搞混了两件事。
你想做的是 AI 应用开发,不是去字节 AI Lab 训模型。这两个方向的学习路线,差别大到像是两个职业。
今天这篇,我花了不少时间整理,把 AI Agent 的学习路线从头到尾捋了一遍。看完之后你应该能搞清楚三件事:学什么、先学什么后学什么、什么现在压根不用碰。
别被营销号贩卖的焦虑带偏节奏。说到底,学 AI 应用开发和当年学 Java 后端没有本质区别——都是理解核心概念、熟悉技术栈、然后在项目中反复练。
【此处插入AI Agent学习路线全景图:截图目标:展示AI技术栈分层结构的全景图;关键词:AI技术栈、分层架构、全景图;建议位置:思维导图或架构图】
01、AI 工程师 ≠ 算法工程师
很多程序员一听到 AI,脑子里蹦出来的第一个画面就是:数学公式、论文、训练模型、调损失函数。然后立刻劝退自己——算了,我数学不行。
这是对 AI 工程师最大的误解。
AI 领域有两种完全不同的角色。AI 算法工程师研究模型架构、训练模型、优化模型效果,确实需要扎实的数学功底和深度学习经验,他们干的事情是造引擎。AI 应用工程师(业界也常叫 Agent 工程师)基于现有的大模型构建 AI 驱动的应用和系统,需要的是工程能力加上 AI 应用层的知识,他们干的事情是造汽车。
我们不需要会造数据库引擎才能用 MySQL 建系统,同样,也不需要会训练 GPT 才能用大模型构建应用。
行业现在最缺的不是能训练模型的人——那是大厂 AI Lab 和模型公司的事。最缺的是能把模型用好、把 AI 能力落地成产品的人。而这恰恰是程序员最擅长的事。
以阿里巴巴的 AI Agent 工程师岗位为例,招聘要求本质上就是:后端工程师基础 + AI 应用能力。如果做过 1-2 个有深度的 RAG、Agent 项目,基本上都能涵盖到对应的技术栈。
【此处插入阿里AI Agent工程师招聘JD截图:截图目标:证明AI工程师岗位以工程能力为主;关键词:招聘要求、AI Agent、后端基础;建议位置:招聘网站页面】
所以这篇文章的目标很清楚:给大家一张 AI 技术领域的全景地图,加一条可执行的学习路线。看完之后应该清楚——有哪些东西、它们之间什么关系、先学什么后学什么、什么暂时不用碰。
先给大家一个画面感,免得看了一堆概念不知道学了能干嘛。
学完第一阶段(大约 3 周),我们就能写一个终端对话机器人,输入问题,模型流式吐回答,像 ChatGPT 一样。学完第二阶段(大约 2 个月),能给团队做一个内部文档问答系统——同事在群里问"我们的部署流程是什么",AI 直接从文档库里检索出来回答。再往后学完第三阶段,能做一个自动化周报 Agent,它自己去翻 Git 提交记录和任务状态,整理出一份周报发到飞书群。
这不是画大饼,后面每个阶段都会告诉大家怎么一步步做到。
02、AI 技术全景图——六层架构搞明白
AI 技术体系的概念很多,但它们不是散的——有清晰的分层结构。就像后端技术栈有数据库层、缓存层、服务层、网关层一样,AI 技术栈也是一层一层搭上去的。
第一层:模型层(基座层)
这一层是整个 AI 技术栈的地基,所有上层能力都建立在大模型之上。但对程序员来说,定位很简单:知道有什么模型、参数规模以及怎么选就够了。不需要深入训练原理和模型架构,就像用 MySQL 不需要看 InnoDB 源码一样。
几个关键概念快速定位。LLM(大语言模型)是能理解和生成自然语言的模型,比如 GPT、Claude、DeepSeek,是当前 AI 应用的核心引擎。Embedding Model(嵌入模型)把文本转成向量(一串数字),用于语义搜索和相似度计算,后面讲 RAG 时会用到。多模态模型在常规 LLM 基础上还能处理图片、音频、视频。
模型获取方式分两种:开源模型(DeepSeek、Qwen、LLaMA)可以下载到本地部署,闭源模型(GPT、Claude)只能通过 API 调用。各有适用场景,不是简单的谁好谁坏。
小白只需记住一件事:模型就是一个超级强大的文本处理函数,我们不需要造它,只需要会调用它。学习阶段用 Ollama 在本地跑开源模型就够了,免费且不依赖网络。
【此处插入主流大模型对比图:截图目标:展示当前主流开源和闭源模型的对比;关键词:GPT、Claude、DeepSeek、Qwen、参数规模;建议位置:表格或对比图】
第二层:模型接口与通信层
这一层解决的问题是:怎么跟模型对话。对程序员来说,大模型本质上就是一个 HTTP 服务——发请求,返回结果。
Chat Completion API 是最核心的接口。每条消息都有角色标记:system(系统设定)、user(用户输入)、assistant(模型回复),三种角色组成完整的对话上下文。几乎所有 AI 应用都建立在这个接口之上。
API 规范目前主流两套——OpenAI 格式和 Anthropic 格式。国内大多数模型(DeepSeek、Qwen、智谱等)都兼容 OpenAI 格式,意味着切换模型往往只需改一下 base_url 和 API Key。
【此处插入Chat Completion API调用示例截图:截图目标:展示一个最简单的API调用代码和返回结果;关键词:Chat API、请求响应、角色标记;建议位置:代码编辑器或终端】
Function Calling / Tool Use(函数调用)让模型在回答过程中调用工具——比如查数据库、调天气接口。模型并不真正执行代码,而是返回结构化的调用意图(调哪个函数、传什么参数),由我们的程序去执行并把结果喂回模型。这是构建 Agent 的基础能力。
【此处插入Function Calling流程图:截图目标:展示用户→模型→工具→模型→用户的完整调用链路;关键词:Function Calling、工具调用、结构化输出;建议位置:流程图】
几个关键参数必须搞清楚。Token 是模型处理文本的基本单位,调用 API 按输入/输出 Token 分别计费。Context Window(上下文窗口)是模型单次能处理的最大 Token 数,GPT-4o 是 128K,Claude Opus 4 是 200K。Temperature 控制输出随机性,越低越确定,适合事实性任务;越高越有创造性。
【此处插入OpenAI Tokenizer工具截图:截图目标:展示同一段中文文本被切分成Token的效果;关键词:Token、分词器、Tokenizer;建议位置:OpenAI官网Tokenizer页面】
小白只需记住一件事:大模型就是一个 HTTP 接口,发 JSON 请求、收 JSON 回复。会调 REST API 就会调大模型,没有任何新东西。
这一层是程序员接触 AI 的起点。学完这层,几十行代码就能写出一个能跟大模型对话的程序。
第三层:数据与检索层——RAG 的主战场
大模型有一个天然短板:它只知道训练时见过的内容,不知道我们公司的内部文档、最新的业务数据、昨天刚发布的政策。
核心思路叫 RAG(Retrieval-Augmented Generation,检索增强生成):先从知识库中检索出相关内容,再把这些内容塞进 Prompt 让模型生成回答。就把它理解成给模型开卷考试——先让它翻书,再让它答题。这是目前落地最多、最实用的 AI 应用模式。
一个完整的 RAG 系统分两条流水线:
【离线索引】原始文档 → 解析 → 分块 → Embedding → 存入向量数据库
【在线查询】用户提问 → Embedding → 检索相关片段 → (重排序) → 拼入 Prompt → 模型生成回答数据准备阶段要把"书"整理好。文档解析是把原始文件转成纯文本,听起来简单,实际上是最脏最累的环节——扫描件需要 OCR,表格和图片需要特殊处理。文档分块是把长文档切成小段,分块策略直接影响检索质量:切太大,检索不精准;切太小,丢失上下文。
向量化与存储阶段,通过 Embedding 模型把一段文本变成高维向量,语义相近的文本,向量在空间中距离也相近。然后存进向量数据库,主流选项有 Pgvector(PostgreSQL 扩展,最简单)、Milvus/Qdrant(专用向量数据库,性能更强)。
【此处插入向量相似度可视化截图:截图目标:展示语义相近的文本在向量空间中距离更近的效果;关键词:Embedding、向量空间、语义相似度;建议位置:向量可视化工具或示意图】
检索与排序阶段,把用户的问题也做 Embedding,在向量库中找到距离最近的文档片段。混合搜索同时用向量搜索和关键词搜索取长补短。Reranker(重排序模型)对初步结果做精细打分,把最相关的排到前面。
【此处插入混合搜索对比截图:截图目标:对比纯向量搜索和混合搜索的检索结果差异;关键词:混合搜索、向量检索、关键词检索、Reranker;建议位置:检索结果对比表】
【此处插入RAG流程架构图:截图目标:直观展示RAG系统的完整数据流;关键词:RAG、向量数据库、Embedding、检索;建议位置:流程图】
小白只需记住一件事:RAG 就是"先搜再答"——用户问问题,先从我们自己的文档库里搜出相关内容,再让模型基于这些内容回答。搜索用的是向量(而不是关键词),所以能理解语义。
第四层:能力扩展与智能体层
前三层让 AI 能对话、能查资料。这一层让 AI 能干活——不只是回答问题,还能理解目标、制定计划、调用工具、自主完成任务。
Prompt Engineering(提示词工程)贯穿所有环节。同一个模型,不同的问法会得到质量天差地别的回答。System Prompt 设定模型角色,Few-shot 给几个示例让模型照着来,Chain of Thought 引导模型一步步推理。
Agent(智能体)是这一层的核心。它不是调用一次模型就结束,而是一个循环系统:感知输入 → 思考推理 → 采取行动 → 观察结果 → 继续思考 → …… → 任务完成。
ReAct 模式是最经典的 Agent 工作范式——模型先想"我应该做什么",然后执行一个动作(比如调用搜索工具),观察返回结果,再决定下一步。大多数 Agent 框架都基于这个模式。
实际构建 AI 应用时,还要区分 Workflow(工作流)和 Agent 两种编排思路。Workflow 预定义好固定流程,可控性强,适合流程明确的场景。Agent 由模型自己决定下一步做什么,灵活但不确定性更高。实际项目中两者经常混合使用。
【此处插入Agent工作循环图:截图目标:展示ReAct模式下Agent的循环决策过程;关键词:ReAct、规划、执行、观察;建议位置:流程图】
小白只需记住一件事:Agent 就是一个能自己想、自己做、自己检查的 AI 员工。我们给它目标和工具,它自己决定怎么完成任务。
第五层:工程化与基础设施层
AI 应用在 Notebook 里跑通和上生产是两回事。这一层解决的就是上生产的问题——可靠性、安全性、成本、可观测性——而这恰恰是后端程序员最熟悉的领域。
AI Gateway 统一管理所有 AI 请求,负责鉴权、限流、日志、路由——和我们熟悉的 API Gateway 几乎一样。模型路由与降级根据任务复杂度智能选择模型,简单问题走便宜小模型,复杂问题走强模型。
安全护栏层防止 AI 翻车。Prompt Injection 防护就是 AI 应用的 SQL 注入——同样的攻防思维,只是载体从 SQL 变成了自然语言。Hallucination 检测拦截模型一本正经编造事实的行为。
可观测性包括基础监控(延迟、错误率)和 AI 特有的链路追踪——一次 Agent 调用可能内部触发多轮模型调用加多次工具调用加多次检索,需要完整的调用链才能排查问题。
【此处插入LangSmith链路追踪截图:截图目标:展示一次Agent调用的完整Trace链路(多轮LLM调用+工具调用);关键词:LangSmith、Trace、链路追踪、可观测性;建议位置:LangSmith或Langfuse控制台】
小白只需记住一件事:这一层干的事情和传统后端的网关、监控、缓存一模一样,只是服务对象从微服务变成了大模型。后端基础好的同学在这层会有天然优势。
第六层:应用层
前五层是技术组件和工程能力,这一层是它们的最终交付形态。知识库问答系统是 RAG 最典型的落地场景,Text-to-SQL 让非技术人员也能用自然语言查数据,AI Copilot 辅助编码开发,智能工作流驱动业务流程中需要理解和判断的环节。
【此处插入AI应用形态汇总图:截图目标:展示知识库问答、Text-to-SQL、AI Copilot等典型应用形态;关键词:应用层、知识库问答、Text-to-SQL、AI Copilot;建议位置:应用分类示意图】
对程序员来说,第二、三、四、五层是主战场。第二层是入门,第三层和第四层是核心技能,第五层是发挥后端优势让 AI 应用真正落地的关键。
03、概念关系梳理——别学散了
全景图解决了"有什么"的问题,但概念不是孤立的。这一节把几条最关键的脉络串起来。
复杂度演进链路
从最简单的 LLM 调用开始,每一步都是在前一步基础上的增强:
LLM API 调用 → 加 Prompt Engineering → 加 RAG → 加 Function Calling → 加 Agent → 加 Multi-Agent大部分业务场景做到 RAG + Function Calling 就已经能解决问题了,不需要一上来就搞 Multi-Agent。
【此处插入复杂度演进阶梯图:截图目标:展示从LLM API到Multi-Agent的逐步递进关系;关键词:复杂度演进、递进关系、能力叠加;建议位置:阶梯图或层级图】
三种让模型变好的手段
Prompt Engineering 是把问题问得更好,类比跟一个聪明人更高效地沟通;RAG 是给模型提供参考资料,类比给它一叠参考文档做开卷考试;Fine-tuning 是让模型本身变得更专业,类比送它去培训班进修。
推荐策略是按顺序尝试,不要跳步:先优化 Prompt(80% 的问题在这步就解决了),效果不够加 RAG 引入外部知识,效果仍不够再考虑 Fine-tuning。
一个常见误区:以为 Fine-tuning 能让模型记住企业知识库的内容。实际上灌知识用 RAG 更合适,Fine-tuning 更适合调整模型的行为模式。
【此处插入Prompt/RAG/Fine-tuning对比表截图:截图目标:一张表对比三种优化手段的成本、效果、适用场景;关键词:Prompt Engineering、RAG、Fine-tuning、对比;建议位置:对比表格】
Workflow vs Agent vs Multi-Agent
这三者是递进关系——自主性越高,能力越强,但不确定性也越高。能用 Workflow 解决的就用 Workflow(可控、可预测、好维护),需要灵活判断的用 Agent,单个 Agent 能力不够才上 Multi-Agent。
生产环境的常见模式是混合架构:整体是 Workflow 的确定性流程,在需要灵活判断的环节嵌入 Agent。不要一上来就做 Multi-Agent——调试成本极高。
【此处插入概念关系对比表:截图目标:清晰对比Workflow/Agent/Multi-Agent的适用场景;关键词:Workflow、Agent、Multi-Agent、选型;建议位置:对比表格】
04、学习路径规划——分三个阶段走
核心原则只有一个:先跑起来,再做优化;先搞应用,再补原理。
第一阶段:跑通基本链路(3-4 周)
投入时间大约 20-30 小时,业余每天 1-2 小时约 3-4 周。这一阶段的目标很明确:让我们能跟大模型对话,并且是用代码对话。
第一步:搞懂基本概念(2-3 小时)
不需要看论文,但几个概念必须能用自己的话解释清楚。LLM 本质上就是一个输入文本、输出文本的函数,只不过这个函数异常强大。Token 是模型处理文本的最小单位,决定两件事——上下文长度的上限和费用。Prompt 就是发给模型的输入文本。Temperature 控制模型输出的随机性,0 是永远走最稳妥的选择,值越高越愿意尝试更有新意的表达。
第二步:搭建本地开发环境(2-3 小时)
在调用任何付费 API 之前,先在本地把环境跑通。安装 Ollama,一行命令安装,一行命令拉模型,一行命令启动服务。推荐先拉一个 qwen2.5:8b 或 deepseek-r1:8b,8B 参数量在 16GB 内存的机器上就能跑,效果足够学习用。
为什么先搭本地环境?免费、无网络限制、不用申请 API Key。等需要更强效果时再切换到云端 API——因为 Ollama 提供的是 OpenAI 兼容接口,代码几乎不用改,只需换个 URL 和 Key。
顺手提一嘴:装完 Ollama 后,建议再装一个 AI Coding 工具(比如 TRAE 免费、或者 Claude Code),后面写代码的时候效率翻倍。详细的工具对比和 Coding Plan 套餐推荐放在了第 06 章,这里先知道有这么个东西就行。
【此处插入Ollama本地运行截图:截图目标:展示Ollama一行命令拉模型并运行;关键词:Ollama、本地部署、模型运行;建议位置:终端命令行】
第三步:用代码调通 Chat API(3-5 小时)
选一个框架,用代码实现"发消息 → 收回答"的完整链路。Java 开发者推荐 Spring AI(Spring 生态优先)或 LangChain4j(功能更丰富)。别在框架选型上纠结太久,先挑一个用起来,后面随时可以换。
以 Spring AI 为例,真的就这么简单。先在 pom.xml 里加一个依赖:
<dependency>
<groupId>org.springframework.ai</groupId>
<artifactId>spring-ai-openai-spring-boot-starter</artifactId>
</dependency>然后在 application.yml 里配上 Ollama 本地模型的地址(不花一分钱):
spring:
ai:
openai:
base-url: http://localhost:11434
api-key: ollama
chat:
options:
model: qwen2.5:8b写一个 Controller,三行核心代码:
@GetMapping("/chat")
public String chat(@RequestParam String message) {
return chatModel.call(message);
}跑起来,浏览器访问 localhost:8080/chat?message=你好,模型就会回话了。就这么简单,和调一个普通的 REST 接口没有任何区别。
【此处插入Spring AI第一个对话Demo运行截图:截图目标:展示浏览器访问接口后模型返回回答的效果;关键词:Spring AI、第一个Demo、API调用;建议位置:浏览器+终端】
第四步:实现流式输出(2-3 小时)
大模型生成一个完整回答可能需要 5-15 秒。如果等全部生成完再返回,用户会以为系统卡死了。流式输出让回答像打字机一样逐字出现。技术上就是 SSE(Server-Sent Events),对于用户交互类的 AI 应用,流式输出不是可选项而是必须项。
【此处插入流式输出效果截图:截图目标:展示流式输出的打字机效果,逐字蹦出回答;关键词:流式输出、SSE、打字机效果;建议位置:Web对话界面】
第五步:Prompt Engineering 入门(5-8 小时)
这是投入产出比最高的技能。System Prompt 设定模型的角色和边界,Few-shot 在 Prompt 中给几个例子让模型模仿,结构化输出引导模型以 JSON 等特定格式输出。把 Prompt 当接口契约来写——明确输入格式、输出格式、边界条件、异常处理。写 API 文档的经验在这里直接复用。
推荐资源:OpenAI 官方的 Prompt Engineering Guide(搜"OpenAI prompt engineering"第一条就是),写得很简洁实用,2 小时能看完。吴恩达在 DeepLearning.AI 上的 ChatGPT Prompt Engineering 免费课程也值得看,1 小时视频配实操练习。
【此处插入Prompt对比效果截图:截图目标:展示同一个问题用普通Prompt和优化后的Prompt得到的不同质量回答;关键词:Prompt优化、System Prompt、Few-shot、效果对比;建议位置:对话窗口对比】
阶段里程碑:能跑通一个完整的对话 Demo——用户输入问题 → 后端调用模型 API → 流式返回回答。代码能解释清楚每一行在做什么。
第二阶段:掌握 RAG + Agent 两大核心模式(6-8 周)
投入时间约 60-80 小时。如果说第一阶段是能跟模型对话,第二阶段就是让模型真正能干活。
RAG 部分——让模型能回答私有数据的问题
先理解 Embedding 和向量检索(5-8 小时)。把几十条文本做 Embedding,然后用余弦相似度查最相似的 5 条,直观感受向量检索的效果和局限性。向量数据库学习阶段用 Pgvector 就够了。
推荐资源:Spring AI 官方文档(spring.io/projects/spring-ai)有完整的 RAG 教程和示例代码,跟着做就能跑通。LangChain4j 的 GitHub 仓库里 examples 目录下也有大量开箱即用的 Demo。如果想看视频,B 站搜"Spring AI RAG 实战"能找到不少质量不错的教程。
然后走通 RAG 全流程(15-20 小时)。这是第二阶段的核心中的核心:文档加载 → 文本分块 → Embedding 向量化 → 存入向量数据库 → 用户提问 → 向量检索 → 取出相关片段 → 组装 Prompt → 发给 LLM → 生成回答。
建议的练手项目:拿自己团队的技术文档或一本熟悉的技术书的 PDF 做一个知识库问答系统。用熟悉的内容来测试,能快速判断效果好不好,也更容易定位问题出在哪一步。
【此处插入RAG知识库问答系统Demo截图:截图目标:展示一个可运行的知识库问答系统界面;关键词:知识库问答、RAG、文档检索;建议位置:Web应用界面】
Agent 部分——让模型能调用工具干活
先搞 Function Calling / Tool Use(8-10 小时)。核心机制是把可用工具的描述告诉模型,模型根据用户意图决定调用哪个、传什么参数。模型本身不执行工具——它只输出结构化的调用指令,我们的代码负责实际执行。本质上就是把写的接口以工具描述的形式注册给模型,模型充当一个智能的接口调用编排器。
然后学 Agent 基础(8-10 小时)。理解 Agent 循环:感知 → 规划 → 执行 → 观察 → 决策。用框架实现一个能完成多步任务的 Agent,比如查询某只股票最近一周的价格,计算涨跌幅,生成分析报告。
【此处插入Agent多步执行日志截图:截图目标:展示Agent自主规划并逐步调用工具完成任务的执行过程;关键词:Agent循环、多步执行、工具调用日志;建议位置:终端或日志输出】
再补上对话记忆 Memory(5-8 小时)。短期记忆维护当前对话的上下文,类似 Session;长期记忆跨会话记住用户偏好,类似用户画像。
【此处插入Memory机制示意图:截图目标:对比短期记忆(Session)和长期记忆(数据库持久化)的工作方式;关键词:短期记忆、长期记忆、上下文窗口;建议位置:架构示意图】
阶段里程碑:RAG 维度能独立开发一个知识库问答系统,Agent 维度能实现一个多步骤的 Agent。拿这两个项目去面试或向团队展示,足以证明具备 AI 应用开发能力。
第三阶段:进阶模式 + 生产级工程化(持续)
第二阶段让我们能做出来,第三阶段让我们能做得好并且上得了线。
RAG 效果优化包括分块策略调优(根据文档类型选最适合的分块方式)、混合搜索(向量检索 + 关键词检索互补短板,性价比最高的优化手段)、Reranker 重排序(从 Top 20 中精排出 Top 5)、查询改写(用 LLM 将口语化的问题改写成更适合检索的形式)。
Agent 进阶包括 Workflow 设计(确定性的工作流编排)、Multi-Agent 协作(多个专业化 Agent 分工处理复杂任务)、MCP 协议(Anthropic 提出的标准化协议,AI 世界的 USB-C 接口——工具提供方只需实现一次 MCP Server,所有支持 MCP 的客户端都能即插即用)。
工程化全家桶是后端程序员的差异化竞争力所在。安全护栏、AI Gateway、可观测性、效果评估、语义缓存、成本管理——这些和传统后端架构里的东西几乎一一对应,换个上下文就能直接复用。
【此处插入AI应用工程化架构图:截图目标:展示生产级AI应用的完整工程化架构;关键词:AI Gateway、安全护栏、可观测性、语义缓存;建议位置:架构图】
05、技术选型速览
不展开分析,直接给结论。
Java 程序员首选 Spring AI 或 LangChain4j 二选一(Spring AI 与 Spring Boot 集成最自然,LangChain4j 功能覆盖更全面且迭代更快),搭配 Ollama 做本地开发,向量数据库用 Pgvector 或 Milvus。
模型选型方面,学习阶段用 Ollama 加 Qwen2.5 或 DeepSeek-R1 的 7B/8B 蒸馏版(16GB 内存即可运行,免费、本地、不依赖网络)。生产环境按场景选——追求效果用 GPT/Claude API,追求性价比用 DeepSeek、MiniMax、Qwen、GLM API,数据敏感场景私有部署开源模型。
向量数据库起步用 Pgvector(PostgreSQL 扩展,最简单),数据量大了或对性能有要求上 Milvus。
Python 要不要学?能读懂就行,不需要刻意去学。AI 领域的 Python 示例代码最多,看得懂方便查资料和理解概念,但写项目优先用自己的主力语言。
Dify、Coze 这类低代码平台了解即可,适合快速验证想法和搭原型,但做定制化的生产级应用还是得写代码。
【此处插入技术选型对比表:截图目标:对比不同语言的AI开发框架选型;关键词:Spring AI、LangChain4j、Ollama、技术选型;建议位置:对比表格】
06、工具篇——AI Coding 工具 + Coding Plan 套餐
学 AI 应用开发,光会写代码不够,还得会用 AI 写代码。
这句话不是绕口令。2026 年了,如果还在纯手搓代码,效率至少差了 3 倍。AI Coding 工具已经从"尝鲜"变成了"基建",就像当年从记事本写代码到用 IDEA 一样,回不去了。
四大 AI Coding 工具
Claude Code 是目前我用得最多的。它不是 IDE 插件,而是一个命令行 Agent——直接在终端里跟它对话,它能读代码、改代码、跑测试、提交 Git,整个开发流程都能覆盖。最厉害的是 Skills 和 Hooks 机制,可以把常用的工作流沉淀下来复用。我写公众号文章、做竞品调研、甚至管理项目文档,全是用 Claude Code 完成的。缺点是需要订阅 Claude Pro(20 美元/月)或者 Max(100/200 美元/月),烧 token 比较快。
【此处插入Claude Code终端操作截图:截图目标:展示Claude Code在终端中读写代码的交互过程;关键词:Claude Code、终端、Agent编码;建议位置:终端会话窗口】
Codex(OpenAI) 是 OpenAI 推出的 Agent 编码工具,和 Claude Code 定位类似,也是命令行模式。支持 OpenAI 全系列模型,o3、o4-mini 都能用。它的优势在于 OpenAI 的生态更完整,Function Calling 和 Structured Output 支持得更早更稳。如果团队主力模型是 GPT 系列,Codex 会更顺手。
【此处插入Codex终端操作截图:截图目标:展示Codex在终端中执行代码任务的交互界面;关键词:Codex、OpenAI、终端编码;建议位置:终端会话窗口】
TRAE(字节跳动) 是字节做的 AI IDE,基于 VS Code 魔改,内置了 AI 对话和代码补全。最大的卖点是国内直连、不用翻墙,对国内开发者来说体验很丝滑。支持接入豆包大模型,也可以配置其他模型。免费额度比较大方,适合预算有限的小伙伴。
【此处插入TRAE编辑器界面截图:截图目标:展示TRAE的AI对话面板和代码补全功能;关键词:TRAE、字节跳动、AI IDE、代码补全;建议位置:IDE编辑器界面】
Qoder 是一个开源的 AI Coding Agent,支持多种模型后端。它的特点是可以本地部署,数据不出服务器,对数据安全敏感的团队来说是个好选择。社区活跃度不错,功能迭代也挺快。
【此处插入Qoder使用截图:截图目标:展示Qoder的代码生成或编辑交互过程;关键词:Qoder、开源、本地部署、AI编码;建议位置:终端或编辑器】
怎么选?不用纠结。Claude Code 和 Codex 是第一梯队,选哪个取决于我们用的模型生态。TRAE 适合国内网络环境和预算有限的场景。Qoder 适合对数据安全有要求的团队。先挑一个用起来,用熟了再换也不迟。
Coding Plan 套餐——烧 Token 的正确姿势
AI Coding 工具有一个绕不开的问题:烧 token。
Claude Code 一天写几个小时代码,轻松消耗几十万 token。按 API 价格算,一个月下来费用不低。Codex 也差不多,o3 模型的推理 token 价格更是肉疼。
所以各大模型厂商都推出了 Coding Plan 套餐,专门给 AI 编码场景设计的包月/包年方案。
Claude Pro/Max:Anthropic 官方订阅,Pro 每月 20 美元,Max 分 100 美元和 200 美元两档。Pro 额度有限,重度使用建议直接上 Max。Claude Code 原生支持,开箱即用。
智谱 GLM Coding Plan:国内性价比最高的选择之一。lite 版每月 49 元,对于学习阶段完全够用。GLM-5 系列模型在中文场景下表现不错,配合 Claude Code 使用效果出乎意料地好(是的,Claude Code 可以接入 GLM 模型)。
DeepSeek API:价格极其便宜,DeepSeek-V3 的输入价格只有 GPT-4o 的几十分之一。缺点是高峰期偶尔排队。学习阶段和非核心场景拿来当主力完全没问题。
通义千问 API:阿里云的大模型服务,Qwen 系列模型免费额度不少,超出后按量计费也很便宜。和阿里云生态集成好,企业用户可以考虑。
我的建议是:学习阶段用 Ollama 本地跑免费模型 + DeepSeek API 做补充,足够了。进入项目开发阶段再根据需要上 Claude Max 或者 GLM Coding Plan。别一上来就买最贵的套餐,先把本地环境玩明白。
【此处插入Coding Plan价格对比表:截图目标:对比各家Coding Plan套餐的价格和额度;关键词:Claude Max、GLM Plan、DeepSeek、价格对比;建议位置:对比表格】
07、实战项目——用三个项目串起整条学习路线
说了这么多概念和工具,最终还是要落到项目上。
我一直觉得,学 AI 最忌讳的就是只看不练。看完 RAG 的原理觉得"哦我懂了",但真正上手的时候才发现——文档解析出来一堆乱码、分块策略调了三天效果还是差、向量检索返回的结果和问题八竿子打不着。
这些坑,不动手永远踩不到。而踩过了,才是真的懂了。
下面分两类推荐:先是零门槛的开源项目,clone 下来就能跑,适合入门练手;再是我带着星球小伙伴做的三个进阶项目,适合想做深做透、拿去面试的同学。
零门槛开源项目推荐
如果只是想快速上手感受一下 RAG 和 Agent 是怎么回事,这几个开源项目直接 clone 下来就能跑:
RAG 入门:LangChain4j 的 GitHub 仓库(搜"langchain4j")里有一个 examples 目录,包含了从最简单的 Chat 到完整 RAG 流程的所有示例代码,Java 程序员直接看这个最快。Spring AI 官方也有 spring-ai-examples 仓库,覆盖了对话、RAG、Function Calling 等场景。
Agent 入门:GitHub 上搜"spring-ai-agent-example"或"langchain4j-agent",能找到不少社区贡献的入门级 Agent Demo。挑一个 star 数高的 clone 下来跑跑看,理解 Agent 循环是怎么跑起来的。
这些项目的优势是零成本、零门槛、几分钟就能看到效果。缺点是功能比较简单,拿去面试说服力不够。
如果想做更完整、更贴近生产级的项目,可以看下面这三个。
【此处插入LangChain4j Examples目录截图:截图目标:展示LangChain4j开源仓库的examples目录结构;关键词:LangChain4j、开源示例、GitHub;建议位置:GitHub仓库页面】
派聪明(PaiSmart)——RAG 知识库系统
这是我带着星球的小伙伴做的第一个 AI 实战项目,定位是企业级 RAG 知识库问答系统。
技术栈是 Spring Boot 3.4 + Spring Data JPA + Elasticsearch 8.10(做向量检索)+ Redis + Kafka + MinIO。大模型对接了 DeepSeek API 和 Ollama 本地模型,Embedding 用的豆包。
整个 RAG 流水线从文档上传、解析(Apache Tika 支持 PDF/Word/Markdown 等格式)、分块、Embedding 向量化、存入 Elasticsearch、到用户提问时的语义检索、重排序、Prompt 组装、LLM 生成回答,全链路走通。
这个项目最大的价值在于——它不是一个 Demo,而是一个真正能用的系统。有完整的用户认证(Spring Security + JWT)、知识库管理、文档组织、实时 WebSocket 通信。拿来面试的时候,面试官能看到的不只是"会调 RAG API",而是完整的工程能力。
星球里已经有不少小伙伴靠这个项目拿到了小红书、网易、智谱、百度等公司的 offer。说白了,面试官问 RAG 的时候,能结合自己踩过的坑来回答,比背八股文有说服力一万倍。
【此处插入派聪明项目架构图:截图目标:展示派聪明RAG系统的整体架构;关键词:派聪明、RAG、Spring Boot、Elasticsearch;建议位置:架构图或项目首页】
PaiFlow——Agent 工作流编排平台
派聪明解决了"让模型能查资料"的问题,PaiFlow 解决的是"让模型能干活"的问题。
PaiFlow 定位是企业级 AI Agent 工作流编排平台,类似 Dify/Coze/n8n,但用 Java 技术栈从零实现。核心技术栈是 Java 21 + Spring Boot 3.4 + Spring AI + LangGraph4j。
第一期实现了播客工作流——输入文本 → LLM 处理 → TTS 语音合成 → 输出音频,支持并行执行和 SSE 实时流式反馈。看似简单,但这条链路把 Agent 工作流的核心概念全串起来了:节点定义、DAG 执行引擎(拓扑排序 + 环检测)、状态机编排、条件分支。
第二期就更硬核了:OCR 节点、代码分支、RAG 集成、Agent 自主决策、MCP 工具协议。如果说派聪明是学 RAG 的最佳项目,PaiFlow 就是学 Agent 工作流的最佳项目。
这个项目配套了 19 万字的教程和 200+ 道面试题,覆盖 Agent/Skills、Spring AI、LangGraph4j、分布式系统。拿来准备秋招面试,基本上 AI 应用开发这块的问题都能接住。
【此处插入PaiFlow工作流编辑器截图:截图目标:展示PaiFlow的可视化工作流编辑界面;关键词:PaiFlow、工作流、可视化编排、节点;建议位置:Web应用界面】
PaiAgent——开源 AI Agent 平台
PaiAgent 是我做的一个开源项目,把派聪明和 PaiFlow 的核心能力整合到了一起。
它支持可视化拖拽构建 AI 工作流,前端用 React + ReactFlow 实现流程编辑器,后端用 Spring Boot + Spring AI 统一对接多家大模型(OpenAI、DeepSeek、Qwen、GLM 都支持)。内置双执行引擎——自研 DAG 引擎和 LangGraph4j 状态图引擎,根据工作流复杂度自动路由。
还有一个 Skills 系统,用 YAML + Markdown 声明式定义技能,支持三级渐进加载(摘要→详情→参考资料),这个设计思路参考了 Claude Code 的 Skills 机制。
开源地址在 GitHub 上,感兴趣的小伙伴可以直接 clone 下来跑。学习的时候可以边看源码边对照学习路线,每个模块对应学习路线的哪一层,一目了然。
【此处插入PaiAgent GitHub仓库截图:截图目标:展示PaiAgent开源项目的GitHub首页和Star数;关键词:PaiAgent、GitHub、开源、Star;建议位置:GitHub仓库页面】
三个项目怎么串起来
派聪明(RAG)→ PaiFlow(Agent 工作流)→ PaiAgent(综合平台)
对应第二阶段 对应第三阶段 综合实战先做派聪明,把 RAG 全链路吃透。再做 PaiFlow,理解 Agent 工作流编排。最后看 PaiAgent 的源码,学习如何把 RAG 和 Agent 整合成一个完整的平台级产品。
这三个项目做下来,不管是面试还是在工作中落地 AI 应用,底气都足了。
【此处插入三个项目关系图:截图目标:展示派聪明→PaiFlow→PaiAgent的递进关系;关键词:实战项目、学习路径、递进关系;建议位置:流程图】
08、暂缓学习区——知道不学什么同样重要
知道现在不学什么和知道现在学什么同样重要。下面这些属于模型层和算法层的知识,现在去学性价比极低,还容易陷进去出不来。
Fine-tuning / LoRA / QLoRA 是对已有模型做二次训练,等 RAG + Prompt Engineering 都搞不定时再碰。知识蒸馏是把大模型的能力教给小模型,等需要在端侧部署时再说。RLHF / DPO 是用人类偏好反馈对齐模型行为,大多数应用开发者不会碰到这一步。
Transformer 架构和注意力机制是大模型的底层原理,满足好奇心可以看,但对应用开发不是必须的。Pre-training 从零训练大模型,这是模型厂商干的事。分布式训练和 DeepSpeed 只有做模型训练才需要。
这不是说这些东西没价值——恰恰相反,它们是 AI 领域的核心技术。但学习有优先级,时间应该花在离业务产出最近的地方。先把应用层吃透、能交付项目,再按需向底层挖掘。跟学后端一样——先学会用 Spring Boot 写接口上线,再去看 Spring 源码和 JVM 调优。
09、常见误区,别踩坑
"必须精通数学才能搞 AI"——做 AI 应用不需要。线性代数和概率论是训练模型的人需要的。调 API、做 RAG、搞 Agent,跟数学基本没关系。
"必须先学 Python"——不需要。Spring AI、LangChain4j 这些 Java 框架已经很成熟了,用最熟悉的语言上手最快。
"要从 Transformer 论文看起"——千万别。这就像想学做菜,先去研究锅是怎么造出来的。
"RAG 能解决所有问题"——不能。RAG 擅长基于已有文档回答问题。如果需要模型学会一种全新的推理方式或输出风格,RAG 帮不了,那才是微调的场景。
"Agent 就是自动化脚本"——差远了。自动化脚本是 if-else 写死的,Agent 的核心区别在于决策过程是动态的。但也别神化它——Agent 依赖预先定义好的工具集,设计不好照样翻车。
"模型越大效果越好"——不一定。很多场景下,小模型 + 好的 Prompt + RAG 的效果比大模型直接裸跑要好得多。选模型要看具体场景,不要无脑追大。
"Prompt Engineering 很简单,没技术含量"——恰恰相反,这是 AI 应用工程师最核心的技能之一。好的 Prompt 能让同一个模型的输出质量大幅提升,甚至决定一个功能能不能上线。
【此处插入学习时间规划表:截图目标:展示三个阶段的学习时间和产出物对照;关键词:学习阶段、时间投入、产出物;建议位置:表格】
10、给两类读者的行动建议
给校招生:重点打磨第一、二阶段,做一个完整的 RAG 项目放进简历。为了把项目做透,可以主动往第三阶段的优化手段伸一伸——比如混合搜索、Reranker,这会让项目明显区别于"跑通了就行"的竞争者。面试中最有说服力的回答不是只背概念,而是概念和实践结合:"我做了一个知识库问答系统,一开始检索准确率只有 60%,后来通过调整分块策略和加 Reranker 提升到了 85%。"简历上的 AI 项目要体现工程能力,不只是调 API。
给在职后端程序员:第一阶段快速过,有工程基础和 API 开发经验,1 周内应该能跑通所有 Demo。重点投入第二、三阶段,特别是工程化部分——AI Gateway、可观测性、效果评估、安全护栏。这是相比其他转型人群的最大差异化优势。尽早在实际工作中找一个 AI 落地点,学完第二阶段就可以在团队里提一个知识库问答或内部工具智能化的小项目。
从今天开始可以做的 3 件事:装一个 Ollama,本地跑一个 DeepSeek 或 Qwen,用 API 方式跟它对话,半小时搞定。用 AI 解决一个工作中的实际问题,哪怕是用 RAG 让模型能回答项目的 FAQ。花两小时研究 Prompt Engineering,立刻能用在日常工作中。
ending
说真的,写这篇文章的时候我一直在想一个问题。
两年前我们还在争论 AI 会不会取代程序员,现在回头看,争论本身就是个伪命题。AI 没有取代谁,但它确实改变了我们写代码的方式。
就像十年前我们开始学容器化和微服务一样,现在正是学 AI 应用开发的时候。方向是确定的,路线也是清晰的。
我见过太多人被焦虑裹挟,报了一堆课、下了一堆资料、收藏了一堆教程,最后一行代码都没写。也见过一些人,就只是装了个 Ollama,在本地跑了个小模型,然后用周末的时间做了个知识库问答的 Demo,拿去给领导看。领导说:"不错,下个月团队内部试用。"
【差距不是知道多少,而是动手了没有。】
AI 工程师不是一个全新的职业,它是程序员这个职业的自然进化。我们的工程能力、系统设计思维、调试经验,这些年积累的东西一点都不会浪费。
只不过现在工具箱里多了几样新家伙——大模型、RAG、Agent。
学会用它们,就像当年学会用 Redis、学会用 Docker 一样。没那么难,也没那么神秘。
先装个 Ollama,跑起来再说。
我们下期见。
