标签: RAG

阿里云 OCR+LiteParse，让扫描件 PDF 也能被 RAG 检索到

大家好，我是二哥呀。

做 RAG 的小伙伴大概都被同一个东西卡住过：一份扫描件 PDF，或者一张截图 PDF，结果检索的时候怎么都搜不到内容。

我在做派聪明（PaiSmart，一个企业级 RAG 知识库）的时候就遇到过这个问题。

不过今天我找到了一个不错的解决方案，用 LlamaIndex 开源的 LiteParse，一条命令就能把扫描件里的文字 OCR 出来了，不需要 API Key，解析速度还很快。

沉默王二大约 10 分钟

腾讯面试官：“为什么 Claude Code 不用 RAG 检索代码，而是 grep？”我：“因为...我也不知道”，他沉默了。

大家好，我是二哥呀。

有没有想过？

Claude Code 的代码搜得又快又准，到底是怎么实现的？

我花了一早上时间，认真研究了会，翻了翻 Anthropic 首席工程师 Boris Cherny 的播客、亚马逊科学团队发的论文、Cursor 官方博客的论证、Claude Code 源码，把这件事从头到尾捋了一遍。

沉默王二大约 11 分钟

AI Agent 面试题第二弹：Memory 系统、RAG 检索、长上下文工程 13 题

老王这次换了副金丝眼镜，像极了某个互联网大厂的 CTO，眼神犀利但嘴角带笑，看起来今天心情不错。

老王翻了翻我的简历，“你这个 PaiCLI 写了三层记忆架构、RAG 向量检索、长上下文自适应，挺能吹的啊。”

（内心 OS：王哥你别说吹，这些我一行一行码出来的😤）

我说：“王哥，这几块确实是 PaiCLI 的核心。记忆系统做了三期，第 3 期做 Memory、第 4 期做 RAG 代码库理解、第 12 期做长上下文工程。最近还做了两个升级——长期记忆加了项目级隔离，代码检索从 RAG 一把梭改成了精确搜索优先、RAG 语义兜底。”

老王露出感兴趣的表情：“行，那就从记忆系统开始聊。”

沉默王二大约 20 分钟

食堂打饭时，同事问：你们天天说的 Embedding、Rerank 到底是啥？打饭阿姨抢着说：就是让LLM听懂人话。佩服佩服啊。

大家好，我是二哥呀。

不管是 Claude Code 还是 Codex，它们在读项目源码/读知识库的时候都很无敌，随便问一个问题，都能精准定位到对应的代码块/文档。

这是怎么做到的呢？

背后离不开 Embedding 的功劳。

沉默王二大约 15 分钟

面试结束后，我反问：“就面个实习至于上这么大强度吗？”面试官：“你对 RAG、Agent、MCP、Skill 理解得很到位，所以要求高一点。”

老王今天穿了件黑 T 恤，胸口印着一行白字「My code does compile」，胡子有点拉碴，应该是连续好几天没刮了。

桌上摆着一杯冰美式，估摸着是刚冲的，但一直没顾得上喝。

“我对你要求比较高。”老王开门见山地说，“你，可不要紧张啊。”

（内心OS：哥们也是见过大风大浪的，根本不怕好吧，你尽管来。）

沉默王二大约 14 分钟

用 SQLite + Embedding 给 Agent 加上 RAG，从此秒懂项目源码

大家好，我是二哥呀。

这一期我们来给 Agent 装上 RAG，让 Agent 可以直接读我们的代码库。

举个具体场景，我问“MemoryManager 是怎么压缩上下文的”。没有 RAG 的 Agent 只能凭训练数据瞎猜，猜得对算运气好。

装了 RAG 之后，Agent 会先去代码库里捞 ContextCompressor.compressIfNeeded，看 Map-Reduce 的实现，再基于这段真实代码的回答。

整个 RAG 的架构示意图如下所示。

沉默王二大约 15 分钟

字节面试官：“连个Agent项目都没有敢投AI岗？”我气笑了：“LoRA我都一清二楚，更别说Agent和RAG了。”面试官：“没压力到你啊。”

老王就看了一眼我的简历，就开始上压力了：“你不知道现在是 AI 时代吗？简历上连个 Agent 项目都没有，你是怎么敢投 AI 岗的？”

“王哥，你能不能瞪大眼睛仔细瞧瞧。”我直接反击。

老王是真没想到，我敢回怼，立马怂了。

“压力你一下嘛，看你急的。”老王态度 180 度大转弯啊，“简历写得真不错，这恐怕是这一个月来，我见过写得最漂亮的简历了。”

沉默王二大约 16 分钟

面试官：RAG 不用向量数据库，用 MySQL 硬扛？我：100 万向量不是很轻松？

老王透明的茶杯里，泡满了枸杞，我就瞅了一眼，少说也有 100 颗。

没等我回过来神，老王就直入主题：“你做 RAG 检索用的什么数据库？”

“MySQL。”

老王差点没把刚抿到嘴里的水喷到我帅气的脸上：“就 MySQL？向量检索你用 MySQL？”

“咋了王哥，MySQL 不配拥有向量吗？100 万条 chunk 我照样给它安排得明明白白。”

看老王气急败坏的样子，我笑了：“王哥，逗逗你啦，活跃活跃气氛嘛，这下我不紧张了。向量这块我用的是 ElasticSearch 了，既能做语义，又能做关键字存储，混合检索轻松搞定。😄”

沉默王二大约 17 分钟

派聪明RAG面试题解析：腾讯QQ一面真经

大家好，我是二哥。

相信大家也都发现了，今年和去年有很大的不同，不管是你面Java后端，还是其他岗位，AI 的浓度那是相当的高。

接下来就给大家分享一些真实的面经，冲大厂暑期实习的小伙伴可以拿来作为参考。

全文非常肝，系好安全带，我们粗粗粗发啦。

沉默王二大约 11 分钟

不用 RAG！卡帕西的 LLM Wiki 方案就很香

大家好，我是二哥呀。

这周技术圈被卡帕西的一条推文刷屏了。他说了这么一句：现在花在 LLM 上的 token，大部分不是在写代码，而是在整理知识库。

他给了一个叫「LLM Wiki」的方案，两个文件夹，一个 CLAUDE.md，没了。

没有向量数据库，没有 embedding 模型，没有混合检索 😄。

沉默王二大约 10 分钟