随着 AI 竞争加剧,消费市场成为各大科技公司的必争之地。在文心一言、豆包、Kimi 等产品疯狂争夺 C 端用户的当下,如何打开 AI 消费市场,成为阿里巴巴的紧迫课题。
2 月 6 日,多家媒体消息称,人工智能科学家许主洪教授(Steven Hoi)正式加入阿里巴巴,将出任集团副总裁。据内部人士透露,许主洪教授将专注于 AI To C 业务的多模态基础模型及 Agents 相关基础研究与应用解决方案,提升阿里巴巴 AI 应用 C 端产品在模型结合应用上的端到端闭环能力。
稍后,许主洪在 X 上确认了这一消息,并提到"未来十年,为消费市场开发基础模型和 AI Agents 应用存在大量机会!"
这位技术大牛的加入,意味着阿里在 AI To C 的又一尝试。
自去年底阿里巴巴"少壮派"吴嘉执掌智能信息事业群以来,阿里的 AI C 端产品开始加速整合:先是将通义系列 C 端产品从阿里云剥离,随后又整合了天猫精灵所属的智能互联事业群;在产品层面,阿里选择了用户量已达 2 亿的夸克作为主攻方向,将其重新定位为 "AI 全能助手 ",并开始与天猫精灵展开联动。据悉,双方正在筹备包括 AI 眼镜在内的 AI 新产品。
如今技术人才的引入只是一个开始,进入 2025 年,阿里 AI 急需一场面向消费市场的反击。
从 Salesforce 到阿里,专注多模态预训练
作为一位深耕 AI 领域 20 余年的研究者,许主洪的学术履历颇为丰富。2002 年获清华大学计算机系学士学位后,他在香港中文大学完成了硕士和博士学位。在学术界,他于 2019 年当选 IEEE Fellow(电气和电子工程师协会会士),入选斯坦福 " 全球前 1%AI 科学家 " 榜单。
许主洪的研究领域覆盖机器学习基础理论及多个应用方向,包括多媒体信息检索、计算机视觉、大数据分析等。其中,他在多模态预训练方面的工作获得了最多关注,特别是 BLIP 模型系列的研究成果,发布在了多个开源社区。
BLIP 系列有多篇论文,研究聚焦于视觉 - 语言多模态预训练(Vision-Language Pre-training, VLP),旨在通过统一模型架构和高效数据增强策略,实现视觉语言理解与生成任务的协同优化,可以应用于图像 - 文本检索、图像标题生成、视觉问答、视觉推理和视觉对话等多种任务。
在 Github 社区,BLIP 获得了 5000 颗星,而 BLIP2 则是直接点爆了当年的图文模型圈,获得业界高度评价,并被认为是多模态启发性工作,对开源社区做出了显著贡献。此外,据许主洪在 X 称,BLIP-2 还被排名为 the 5 top AI Research paper of 2023,仅次于 GPT-4。
《BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models》也是许主洪参与的引用量最高的工作,具体来看,通过创新的 " 冻结模型 + 轻量桥接 " 策略,以 Q-Former 架构对齐了图像和文本,在保持高性能的同时大幅降低了计算成本。
这些研究大多完成于他在 Salesforce 期间。在 Salesforce,许主洪参与了多个 AI 研究项目,并尝试将研究成果转化为应用产品。
在离开 Salesforce,加入阿里巴巴之前,许主洪还有一段创业经历,于 2023 年创立了一家多模态生成式 AI 初创公司 HyperGAI 并担任 CEO,发布了三款开源多模态大模型。其中,开源多模态模型 Hyper-Pretrained Transformers (HPT) 1.5 Edge 能够实现文本和视觉输入的多模态理解,专为边缘和移动设备量身定制,参数小于 5B。
不过,在竞争激烈的 AI 创业市场中,HyperGAI 的产品未能获得市场反响,其开源模型在 Huggingface 平台上少有人关注。
从总体来看,多模态研究和横跨学术、产业、创业,是许主洪两个关键词。
重组、融合、创新,阿里 AI to C 需要新牌
在多模态 AI 成为技术竞争焦点的当下,我们不难理解:在发力 To C 的关键时刻,阿里恰好需要这样一位既能突破算法边界、又能推动产品创新的科学家。
在过去一段时间里,阿里 AI To C 产品中,除夸克以外,其他 AI 产品包括通义 APP 本身在 C 端的表现并不突出。也正是因此,目前的阿里正在通过整合通义、夸克等产品力量,配以顶尖人才加持,打造一个更具竞争力的 AI To C 新生态。
首先是在模型与应用的关系上,阿里经过一年多的探索后逐渐明确了 " 分而治之 " 的策略,让基础模型研发和消费级应用各自独立发展,以适应不同的创新节奏。
2024 年底,阿里将原属阿里云的"通义"应用剥离出来,并入智能信息事业群由吴嘉统管,而此前通义千问更多是整体打包的思路,模型和应用捆绑发展。但在实践中发现,大模型研发和消费级应用分属不同赛道,各自面临的挑战和节奏都不尽相同,为双方松绑后通义千问团队可以专注技术突破,而 C 端产品团队则能更灵活地进行调整。
此后更多的 AI to C 整合开始了。特别是天猫精灵所属的智能互联事业群并入之后,加上原有的夸克、书旗小说、UC 浏览器等业务,一条从搜索到内容,从文本到语音交互,从软件到硬件的创新链条正在形成。在这条链条上,多模态技术成为连接各个场景的关键。
许主洪的加入,也恰好印证了阿里的这一技术布局。作为 BLIP 系列的参与者,他在多模态预训练和效率优化方面的积累正是阿里所需要的。从夸克的图文理解到天猫精灵的视觉交互,再到未来可能推出的 AI 眼镜,多模态交互将成为阿里 AI 产品的标配。
不过,在 AI 消费市场,先进技术只是起点,过去一年的市场竞争已经证明,真正的难点在于找准用户和场景。
对 All in AI 的阿里巴巴而言,这既是机遇也是挑战。一方面,阿里拥有庞大的用户基础、丰富的应用场景和强大的技术储备;但另一方面,在 To C 战场上,无论是百度的文心一言、百度文库,还是字节的豆包,都已形成了一定的用户心智。
现在的阿里不仅需要新鲜血液,也需要一场胜仗,通过 AI 重新定义自己在消费互联网时代的核心竞争力。