新华通讯社主管
经济参考网

证券市场信息披露媒体

2025年4月3日 星期四

首页 >> 正文

文小言上新了!支持多模型调度,升级全新语音大模型、图片问答能力
2025-03-31 来源:经济参考网

3月31日,新一期百度AI DAY上,文小言宣布完成品牌焕新与功能升级。除品牌视觉形象焕新外,文小言聚焦模型开放与功能创新,支持多模型融合调度,升级全新语音大模型、图片问答、AI生图生视频等多项能力,为用户带来更智能、更高效的AI体验。

百度AI产品创新业务负责人薛苏强调:“AI的未来不再是单纯的技术参数比拼,而是通过多模型协同,真正为用户创造价值。文小言希望通过开放生态,整合顶尖模型能力,做出更强大、更简单的AI产品。”

多模型融合:打造AI“超级大脑”,重新定义用户体验

文小言此次升级的核心亮点在于“多模型融合调度”。通过整合百度自研的“文心X1”“文心4.5”等顶尖模型,并接入DeepSeek-R1、可灵等第三方优质模型,文小言实现了多模型间的智能协同。用户只需选择“自动模式”,即可一键调用最优模型组合,或根据需求灵活选择单一模型完成特定任务,大幅提升响应速度与任务处理能力。

以“设计三种风格的南偏东客厅效果图”为例,文小言能够精准解析装修风格差异,调用“文心X1”完成深度推理,生成三幅风格迥异但视角一致的装修效果图;随手拍摄一张茅台镇的照片,文小言就可以调用“文心4.5”的多模态分析能力,精准识别出地理位置、当地产业、建筑风格等详细信息。

功能升级:全新语音大模型、图片问答,解锁AI应用新场景

此次功能升级,文小言进一步提升了全新语音大模型、图片问答、AI生图生视频等能力,全面优化用户体验。

全新语音大模型支持方言对话、复杂知识问答及随时打断等场景,用户可进行语音知识问答或趣味角色扮演。

百度语音首席架构师贾磊透露,该模型是百度在业界首个推出、基于全新互相关注意力(Cross-Attention)的端到端语音语言大模型。在语音场景满足一定交互指标下,大模型调用成本比行业平均降低50%-90%,推理响应速度极快,将语音交互等待时间压缩至1秒左右,极大提升了交互流畅性。同时,在大模型加持下,实现了流式逐字的LLM驱动的多情感语音合成,情感饱满、逼真、拟人,交互听感也得到极大提升。

图片问答功能让用户可以通过拍摄或上传图片,以文字或语音提问直接获取深度解析。例如,拍摄一道数学题可实时生成解题思路与视频解析;上传多款商品图可对比参数、价格,辅助购物决策;拍摄杯子设计图后,AI可自动解析设计风格并生成同款手机壳、支架等衍生产品/包装。

值得一提的是,新增的“图个冷知识”功能更富趣味性,用户可预设“历史学者”“科技达人”等人设视角,为同一图片赋予多维解读。例如,当用户询问“猫窗探秘,为何猫爱窗边的科学真相?”时,文小言能从狩猎本能、能量获取、领地意识等角度给出独特解读。(华柏)

凡标注来源为“经济参考报”或“经济参考网”的所有文字、图片、音视频稿件,及电子杂志等数字媒体产品,版权均属《经济参考报》社有限责任公司,未经书面授权,不得以任何形式刊载、播放。获取授权

《经济参考报》社有限责任公司版权所有 本站所有新闻内容未经协议授权,禁止转载使用

新闻线索提供热线:010-63074375 63072334 报社地址:北京市宣武门西大街57号

JJCKB.CN 京ICP备18039543号