大家好,我是二哥呀。
如果把时间拨回到 2023 年,AI 圈讨论最多的还是:谁更会聊天、谁更像人、谁能写诗。那时候的大模型,说白了就是"文本处理专家",你给它文字,它回你文字。
到了 2024 年,风向开始变了。GPT-4V、Gemini 这些模型开始能看图了,但它们的方式很简单:文本归文本团队管,图像归视觉团队管,最后把两个模块拼在一起,美其名曰"多模态"。
这就好像你公司里有个翻译团队,还有个设计团队,两个团队分别干活,最后老板说:"你俩合作一下吧"。
2026 年 1 月 22 日,百度正式发布了文心大模型 5.0,这一次他们选了一条完全不同的路——原生全模态。
大约 10 分钟
