标签: 多模态

大家好，我是二哥呀。

如果把时间拨回到 2023 年，AI 圈讨论最多的还是：谁更会聊天、谁更像人、谁能写诗。那时候的大模型，说白了就是"文本处理专家"，你给它文字，它回你文字。

到了 2024 年，风向开始变了。GPT-4V、Gemini 这些模型开始能看图了，但它们的方式很简单：文本归文本团队管，图像归视觉团队管，最后把两个模块拼在一起，美其名曰"多模态"。

这就好像你公司里有个翻译团队，还有个设计团队，两个团队分别干活，最后老板说："你俩合作一下吧"。

2026 年 1 月 22 日，百度正式发布了文心大模型 5.0，这一次他们选了一条完全不同的路——原生全模态。

二哥大约 10 分钟