提前免费!百度连发两款模型,我们实测:能听歌看电影,还会蛐蛐人

声明:本文来自于微信公众号 机器http://之心,作者:机器之心。
AI 竞争进入白热化阶段javascript。这次,轮到百度给自家大模型上强度。
刚刚,百度一口气官宣了两款大模型,分别是文心大模型 X1和文心大模型4.5。
那么,这两款大模型有啥区别呢?
这么说吧,文心 X1是一款深度思考模型,具备更强的理解、规划、反思、进化能力,并支持多模态,尤其是多工具调用,更是它的一大特色。
而文心4.5号称新一代原生多模态基础大模型,最擅长的就是多模态理解,语言能力也更精进。
相比于之前版本,文心4.5不仅在理解、生成、逻辑、记忆能力方面上了一个台阶,还在去幻觉、逻辑推理、代码能力上php有了全面提升。
目前,这两款模型已在文心一言官网、百度搜索、文小言 APP 等产品上线。(体验网址:https://yiyan.baidu.com/)
最关键的是,它们全都免费!
对于大模型来说,识别梗图早就不是什么新鲜事了,文心4.5最拿手的还得是音视频的理解分析。
当我们听到一首喜欢的音乐,但就是死活想不起来歌名时,我们只需录一小段音频,投喂给文心4.5,它就能给出这首歌的一切。
音乐,机器之心,3分钟
下图比较了四个不同模型(文心4.5、DeepSeek-V3-Chat、GPT-4o 和 GPT-4.5)在文本测试基准上的性能对比。结果显示文心4.5在大多数测试基准上的表现优于其他模型,尤其是在 C-Eval、CMMLU、CMath 和 CLUEWSC 等基准上。
RAG 相关技术
RAG 检索增强生成(Retrieval Augmented Generation),已经成为当前最火热的 LLM 应用方案, 是衡量大模型优劣的重要维度。
现在大模型在各种任务上虽然很强大,但也有缺点,比如:幻觉现象导致 LLM 有时会「瞎编」一些不存在的信息;还有大模型掌握的信息并不是最新知识,知识系统更新很慢;此外,生成的内容缺乏透明度等一系列问题,导致大模型在实际应用中并不是很理想。
RAG 通过检索最新的、相关的知识,解决了上述问题,让生成的内容更可靠、更准确。
百度研发的「理解 - 检索 - 生成」协同优化检索增强技术,提升了大模型技术及应用的效果,能够生成准确率更高、时效性更好的答案。而且,百度在 RAG 技术上具备中文深度理解、多模态检索、垂直领域定制化以及实时数据整合能力等优势,在中文互联网、企业服务、政务医疗等场景中更具实用性和竞争力。
此外,在国内外主流大模型的 RAG 能力实测中,百度文心一言综合表现最佳。
虽然传统的 RAG 已经基本解决了大模型在文本生成层面的幻觉问题,但在多模态领域,尤其是图片生成领域,传统 RAG 已经远远不够用了。
比如,编程我们经常看到生成的图片出现明显的逻辑错误等问题。即使结果符合要求,但看上去也是一股 AI 味,这些问题严重影响了 AI 生成图像的实用性和可信度。
正如百度创始人、董事长兼首席执行官李彦宏在百度世界2024大会上所提出的:「文字层面的 RAG 已经做得很好,基本让大模型javascript消除了幻觉;但在图像等多模态方面,和 RAG 的结合还不够,这也是百度希望重点突破的方向。」
在这种情况下,百度自研了一种检索增强的文生图技术 iRAG(image based RAG),旨在解决传统文生图系统中常见的幻觉问题,提升生成图像的准确性和实用性。
在拥有亿级的图片资源和强大的基础模型能力,百度 iRAG 将这些优势相结合,避免了传统文生图系统中一眼假的问题,生成的图像不仅超真实,还具备极高的准确性和可靠性。
结语
这次,百度一口气上线了两款大模型,总算扬眉吐气了一回。
近十年来,百度一向舍得在研发上砸钱。截至目前,百度已累计投入超过1800亿元。
如今来看,真金白银没有白花。


相关文章:
相关推荐:


