繁体版 简体版 2026年5月27日 星期三

国产AI新贵「小初」 智力媲美人类

从检索图像、描述视频,到吟诗作赋、续写文章,再到识别语音、双语翻译,虚拟人「小初」日前亮相2021世界人工智能大会,赋诗赞美天宫,解说火箭视频,意会太空遨游,展示了图、文、音三种模态的智能转换和生成。这得益于一个名为「紫东太初」的跨模态通用人工智能平台。该平台由中国科学院自动化研究所研发,基于国产化基础软硬件,仅采用一个大模型,有效地提升机器的理解和生成能力,让AI接近人类智力。

国产AI新贵「小初」 智力媲美人类
7月8日,2021世界人工智能大会开幕,超过300家企业的众多前沿人工智能技术与产品集中亮相。\新华社

从检索图像、描述视频,到吟诗作赋、续写文章,再到识别语音、双语翻译,虚拟人「小初」日前亮相2021世界人工智能大会,赋诗赞美天宫,解说火箭视频,意会太空遨游,展示了图、文、音三种模态的智能转换和生成。这得益于一个名为「紫东太初」的跨模态通用人工智能平台。

该平台由中国科学院自动化研究所研发,基于国产化基础软硬件,仅采用一个大模型,有效地提升机器的理解和生成能力,让AI接近人类智力。

「小初,请以天宫为主题作首诗吧?」「天宫生殿开成,万花垂露照初。稠云不掩国志,飞天当触明霞。」「你能看懂这个视频吗?」「视频中,火箭正在发射。」「小初,图片中航天员正在干什么?」

「航天员正穿着航天服站在机械臂上遨游太空。」……7月9日,在2021世界人工智能大会(WAIC2021)上,中国科学院自动化研究所所长徐波发布了自动化所研发的跨模态通用人工智能平台──「紫东太初」。

图文音全场景应用 自动学习

「紫东太初」平台是跨模态通用人工智能平台,以多模态大模型为核心,基于全栈国产化基础软硬件平台,可支撑全场景AI应用。「所谓跨模态是指它可以理解语音、文字和图片等多种模态信息;所谓全栈国产化是指这个平台的底层算力、模型、框架等都是自主研发的。」徐波解释道。

多种模态预训练模型被广泛认为是从限定领域的弱人工智能迈向通用人工智能路径的探索。依托面向超大规模的高效分布式训练框架,自动化所构建了具有业界领先性能的中文预训练模型、语音预训练模型、视觉预训练模型,并开拓性地通过跨模态语义关联实现了视觉、文本、语音三种模态统一表示,构建了三模态预训练大模型,赋予跨模态通用人工智能平台多种核心能力。

徐波介绍,「紫东太初」兼具跨模态理解和生成能力。与单模态和图片、文字两种模态相比,「紫东太初」采用一个大模型就可以灵活支撑图片、文字以及语音的全场景AI应用,具有了在无监督情况下多任务联合学习、并快速迁移到不同领域数据的强大能力。

「引入语音模态后的多模态预训练模型,可实现共性图片、语音和文字的空间表征和利用,并突破性地直接实现三模态的统一表示。」徐波说,特别值得强调的是,该平台首次让「以图生音」和「以音生图」成为现实,对更广泛、更多样的下游任务提供模型基础支撑,让AI能够在视频配音、语音播报、标题摘要、海报创作等更多场景实现应用。

改变单一范式 探AI研发新路径

「『紫东太初』跨模态通用人工智能平台包括三大关键技术和六大核心能力。」徐波说,三大关键技术分别是多模态理解与生成多任务统一建模、面向国产化软硬件的高效训练与部署、多模态预训练模型架构设计与优化。六大核心能力则体现为多模态统一表示与语义关联、跨模态内容转化与生成、预训练模型网络架构设计、标注受限自监督模型学习、模型适配与分布式训练、模型轻量化与推理加速。

徐波表示,「大数据+大模型+多模态」将改变当前单一模型对应单一任务的人工智能研发范式,多模态大模型将成为不同领域的共性平台技术,是迈向通用人工智能路径的探索,具有广阔的应用前景。(大公报记者 刘凝哲)

分享本页
返回顶部