菜宝钱包(caibao.it)是使用TRC-20协议的Usdt第三方支付平台,Usdt收款平台、Usdt自动充提平台、usdt跑分平台。免费提供入金通道、Usdt钱包支付接口、Usdt自动充值接口、Usdt无需实名寄售回收。菜宝Usdt钱包一键生成Usdt钱包、一键调用API接口、一键无实名出售Usdt。

首页科技正文

皇冠体育官网app(www.hg108.vip):“紫东太初”多模态大模型项目获2022世界AI大会最高奖项

admin2022-09-242

皇冠体育apiwww.hg9988.vip)是一个开放皇冠网址即时比分、皇冠网址代理最新登录线路、皇冠网址会员最新登录线路、皇冠网址代理APP下载、皇冠网址会员APP下载、皇冠网址线路APP下载、皇冠网址电脑版下载、皇冠网址手机版下载、皇冠体育api接入的官方平台。


“紫东太初”是全球首个图、文、音三模态大模型,开创性地实现了图像、文本、语音三模态数据间的“统一表示”与“相互生成”,实现了“以图生音”和“以音生图”,理解和生成能力更接近人类,为打造多模态人工智能行业应用提供创新基础,向通用人工智能迈出了重要一步。


近日,2022世界人工智能大会在上海举行,由武汉人工智能研究院、中国科学院自动化研究所和华为技术有限公司联合研发的“紫东太初”多模态大模型项目获得了此次大会的最高奖项。“此次大会的‘智联世界,元生无界’主题,恰好揭示了人类智能未来发展的两大方向,智联世界代表弱人工智能对物理世界的作用及改造,而元生无界则代表着利用人工智能技术构建元宇宙,实现虚实融合的新型世界。”中国计算机行业协会数据安全专业委员会委员、北京理工大学网络与安全研究所所长闫怀志说。


中国科学院自动化研究所研究员、武汉人工智能研究院院长王金桥表示,“紫东太初”是全球首个图、文、音三模态大模型,开创性地实现了图像、文本、语音三模态数据间的“统一表示”与“相互生成”,实现了“以图生音”和“以音生图”,理解和生成能力更接近人类,为打造多模态人工智能行业应用提供创新基础,向通用人工智能迈出了重要一步。


“紫东太初”具备部分类脑特性


在闫怀志看来,通用人工智能旨在制造出像人类一样思考、像人类一样拥有全面智能、能够从事多类型工作的机器,因此又被称为强人工智能。目前的人工智能充其量只是承袭了人类的认知结果,远未形成不同感官之间的、相互确定的认知能力。


传统的人工智能,比如大名鼎鼎的阿尔法围棋(AlphaGo),在一些领域内已经“孤独求败”。不过,北京德火科技有限责任公司技术总监李岩表示,现阶段许多行业内应用的人工智能技术仍处于比较初级的阶段,与科幻电影中设想的各类人工智能应用还相去甚远。


在王金桥看来,人工智能一路发展至今,虽然取得了许多突破与进步,但仍存在三大主要局限:首先,人工智能模型的功能单一,一个模型只能解决一个任务;其次,人工智能模型的训练依赖于大量的样本,如果缺乏足够的样本支撑,训练也就无从谈起。以训练人脸识别数据库Webface为例,需要2.6亿张图片才能训练出一个可用的模型;最后,人工智能模型的泛化能力差,不能应用于广泛的应用场景。


“我们一直以来都在追求如何解决当前人工智能‘一专一用’的问题,基于自监督学习的多模态预训练模型是当前的一个重要发展路径。”王金桥说。


自监督学习指的是从大规模的无监督数据中挖掘隐含的监督信息进行训练,从而得到对下游任务有价值的表征,相比于传统的深度学习,是更接近人类的学习方式。


“能否在同一个维度、同一个空间,面对不同的场景提供同一个多模态大模型,摆脱‘一专一能’,是实现人工智能通用化的基础。”王金桥说。“紫东太初”可以将图像、文本、语音等不同模态数据实现跨模态的统一表征和学习,突破了当前AI技术局限,具备部分类脑特性,从“一专一能”迈向“多专多能”。


闫怀志指出:“本质上,‘以图生音’和‘以音生图’仍然是一种基于数据的人工智能,但它更接近于人类的理解和思考方式,因此可以被视为从弱人工智能向通用人工智能迈进的重要基础性工作。”


实现三模态内容的统一与重现


曾经,“以图生音”和“以音生图”只是幻想,而如今的“紫东太初”却让这两者成为了现实。“以图生音”和“以音生图”究竟是如何实现的?实现图、文、音三模态转化的真正关键以及底层逻辑是什么?


据悉,“紫东太初”三模态间的相互转换和生成,其核心原理是视觉、文本、语音不同模态通过各自编码器映射到统一语义空间,然后通过多头自注意力机制学习模态之间的语义关联以及特征对齐,形成多模态统一知识表示;之后,再利用编码后的多模态特征,通过解码器分别生成文本、图像和语音。


王金桥表示:“通俗地说,‘紫东太初’就是将形式各不相同的三模态内容转化为一个统一的多模态知识表示,之后再次利用这种知识表示重新生成三模态内容,以此实现‘以图生音’和‘以音生图’。”


同时,王金桥还表示,“紫东太初”凭借四大突破,有效助力以多模态认知为核心的通用人工智能发展。


具体来说,一是首次提出多层次、多任务跨模态自监督学习框架,支持从词条级走向模态级、样本级的三级预训练自监督学习方式;二是首次完成弱关联多模态数据语义统一表示,减少数据收集与清洗代价;三是首次实现多模态理解与生成任务的统一建模,支持跨模态检索、多模态分类、语音识别、图像生成等理解与生成任务;四是首次实现无监督超越有监督方法,基于5%—10%的数据标注,实现100%的有监督学习效果。


打造典型人工智能行业应用


“与单模态和图文两模态相比,‘紫东太初’采用图、文、音三模态大模型,可以灵活支撑全场景的人工智能应用。”王金桥说,“‘紫东太初’还具有在无监督情况下多任务联合学习以及不同领域数据快速迁移的强大能力。引入语音模态后的多模态预训练模型,可实现共性图文音语义空间表征和利用,并突破性地直接实现三模态的统一表示,对更广泛、更多样的下游任务提供模型基础支撑。”


“目前,我们已经整合了产学研用各方面的资源,打造了一系列典型的人工智能行业应用。”王金桥说。在智能制造领域,“紫东太初”可以有效降低模型训练对于样本数量的依赖,同时提升算法性能。


“紫东太初”还与杭州移动共同打造了为杭州文旅代言的智能文旅虚拟人“杭小忆”。“紫东太初”的多模态对话支持南宋御街场景陶瓷、丝绸、活字印刷、特色小吃等场景化数据的增量训练,助力南宋御街的导游、导购人工智能数字人实现语音识别、中文对话、语音交互、以音生图等功能。



不论在现实世界还是神话故事中,


如果任何动物、植物、大石头什么的,


突然能开口跟你说人话,


你一定觉得


这东西成精了、通灵了、闹鬼了,


甚至吓得拔腿就跑。


恭喜你!


你发现了人和其他动物的一大根本区别:


随着社会生活文化演变,


会说话的人类自然而然形成了多种语言,


给这些语言起一个专业的小名词,


就叫:“自然语言”。


比如汉语啦、英语啦、日语什么的,


都是自然语言的一种。


“自然语言”是人类有智慧的表现,


but只是冰山浮出水面的一角。


实际上,想要掌握这种语言,


需要环境、常识、背景知识等多种信息,


我们把这些合起来,统称为“语义空间”。


这就像冰山庞大的水下部分,


容易被忽略,却没它不行。


比如,你想想


自己怎么就自然而然学会说人话了呢?

现在流行的AI就面临


怎么能学会“说人话”的问题。


比如,


说“胖乐吃了一大碗”。


三岁小朋友都听得懂,


这是说胖乐吃了一大碗饭。


但是AI智商不够用的话,


就可能理解成:


胖乐吃掉了一只大瓷碗……


所以AI必须有足够的背景知识,


才能听得懂人话,才能理解自然语言。


这就是AI的“认知冰山”问题。


掌握了冰山庞大的水下部分,


才是人工智能正确学会“说人话”的关键。


也有科学家把“认知冰山”叫做人工智能的


“暗物质”~


更要命的是,我们习以为常的说话聊天,

还包含了语气、语调、断句什么的。


这对于一个智商欠费的AI来说,


是个超级大麻烦。比如:


除了语气、语调、情绪之外,


还有更复杂的图像视频。


人看图很厉害的,有时候要表达一件事,


往往是说话半小时,看图1分钟。


视觉,这对人工智能更是巨大挑战。


我们如何才能同时有效把声音、视觉和文字


这些信息都整合起来呢?


如何让AI像人一样交流、探索?


当很多AI朋友还在吭哧吭哧学“说人话”的时候,


我们的超新星——AI“小初”同学


闪亮登场啦!


小初出身学术豪门,


是由中国科学院自动化研究所的


小姐姐小哥哥们一手创造,


大名叫“紫东太初”跨模态预训练模型。


这名字就自带主角光环,


是真正的实力派。

AI小初这套大模型包含


图像、文本、语音三个单模态预训模型,


是通过跨模态的关联和生成构成的多模态大模型


在多项下游任务中都有超越业界最好的性能,


构建了全自主人工智能技术体系。


如果AI圈也有武林,

,

皇冠体育官网appwww.hg108.vip)是一个开放皇冠体育官网代理APP下载、皇冠体育官网会员APP下载、皇冠体育官网线路APP下载、皇冠体育官网登录APP下载的皇冠体育官网平台。皇冠体育官网APP上最新登录线路、新2皇冠体育官网更新最快。皇冠体育官网APP开放皇冠体育官网会员注册、皇冠体育官网代理开户等业务。

,


那小初笑傲人工智能江湖,


妥妥的~


AI圈里,


其他的AI同学进行“思考”的时候,


往往只考虑两个“模态”,


比如图像+文本,或者语音+文本。


这种“思考”是有局限的,


因为忽略了周围环境的“语音”信息,


而且在理解和生成输出信息方面逊色。


而中科院自动化所的研究者们


首次将语音信息引入人工智能,


并通过统一语义空间网络表达


生成三模态模型——


图像、语音和文本,三位一体~!


图像、文本和语音三位一体的AI——小初同学


就是科学家们打开


“认知冰山”语义空间大门的一个重要尝试


拥有这样强大智慧的小初同学,


就能更加接近人类真正的想象力。


在文本与图像的基础上,


自动化所的研究者们给小初加入了


侧重交互功能的语音“超能力”,


使小初这套大模型一下子变“活”了。


专业说法叫:


使人工智能迈向更高层次的通用型人工智能方向发展


小初有多像人呢?


来来来,


没有对比就没有伤害~


严肃正经地讲,小初同学——


“紫东太初”三模态训练模型


采用多层次多任务自监督预训练的学习方式,


提出三模态数据的语义统一表达,


可同时支持三种、


或者任两种模态的若干数据预训练。


小初不仅可以实现跨模态理解,


还能实现跨模态生成。


如果只能理解,不能生成,


那就是哑巴。


小初做到了理解和生成


两个最重要的认知能力的平衡,


首次实现了“以图生音”和“以音生图”。


不仅能听会说,


而且比两个模态


如图像和文本、或者视频和文本,


更加“能说会道”。


所以在AI世界的“跑分任务拉力赛”中,


小初明显胜过其他只有两个模态的AI同学们。


那么问题来了!


先举一个例子:


一个刚学外语的人,


用外语听说表达的时候,


往往需要现在脑子里翻译成母语,


再翻译成外语。


比如说“苹果”,


要翻译成汉语再到apple,


而熟练之后就不用了,


往往能直接和apple对应。


就像学外语一样,


小初作为一个学习人类语言的AI,


是不是需要图像、文本和语音三个模块之间


经过“翻译”,才能理解呢?


比如,


小初是不是必须把语音先“翻译”成文字,


然后“读”了之后再输出为或视频呢?


答案是:NO~


小初独步武林的一个地方就在于,


它完全不用传统文字“翻译”,


而是通过共性的语义空间实现直接交互关联,


即在一个语义空间内将声音直接转换图像。


这跟人类处理信息的方式特别像。


在这个由图像、文本和语音三个模态


共同构建的共性语义空间中,


更加类人的多模态交互得以实现,


语音、图像与文字可以自然流畅转换。


小初就跟一个大活人一样,


语音识别那都是小case,


还能语音合成、描述图像,中文续写


等等等等~


紫东太初这个三模态模型的重点在于:


探索如何更“巧”地学习,


并且有巨大的生产生活应用场景。


比如解说欧洲杯,拍电影生成画面。


总之,


未来会有更多想象力和艺术创造力。


AI小初同学面前,还有慢慢“求学路”,


不过在当前的初级阶段,


小初已经是三好学生啦!


来源:中国科学院自动化研究所 科技日报实习记者 李诏宇

注:文章内的所有配图皆为网络转载图片,侵权即删!

网友评论