帮助人类是“他们”的初心 AI3D虚拟人背后的故事

央广网合肥5月17消息(记者 张宣剑)“冰冰的实现其实可以拆两部分来说,一部分是声音,一部分是形象。声音这一块主要采集了一部分冰冰的语音,把它提炼出来,同时体现了一些其他不同的情感,形象这次是基于“冰冰”的形象做了一个艺术加工把它变成了卡通形象。”科大讯飞AI研究院虚拟形象技术研究主管何山介绍说。

何山说“通过美术把“冰冰”的模型建模以后,同步去采集很多跟她的表情动作相匹配的语音数据,然后通过AI的模型训练出来,相应的语音匹配上相应的表情和动作,把语音和我们最终的形象表达结合起来,就诞生了“冰冰”最终的一个形态。”

今年是建团一百周年,由中央广播电视总台、共青团中央宣传部、科大讯飞联合制作的H5产品百年正青春!冰冰邀你一起来答题备受广大网友好评。记者了解到,虚拟数字人是指具有数字化外形的虚拟人物,与具备实体的机器人不同,虚拟数字人依赖显示设备存在。虚拟数字人具备拥有人的外观,拥有人的行为,拥有人的思想三个特征。

“讯飞在虚拟人AI驱动方面,探索了从口唇合成到表情及肢体动作的驱动合成,让虚拟人的自由表达具有更高的表现力及更丰富的维度。”何山说。

记者了解到,讯飞基于大数据多模态预训练的语种相关的口唇驱动框架,在保证高真实度的口唇合成效果的同时可以实现不同语种以及不同方言的口唇驱动,让虚拟人的应用场景得到了延申,比如冬奥多语种虚拟志愿者爱加,联合国防疫宣传等;在表情和动作的驱动上,基于情感的语义空间实现了虚拟人从语音到表情动作的上的情感表现,实现了虚拟人交互过程中的情感贯穿,让虚拟人更加拟人化。

“在3D虚拟形象上,讯飞结合了基于单张照片的3D人脸重建以及表情迁移,实现了3D可驱动个性化虚拟形象的快速生成,未来还将向全身扩展。”科大讯飞有声平台总经理郜静文说。虚拟人基于语音有形象后,个性层面会更强,表达会更丰富,更容易和用户之间产生共情。虚拟人多元化、个性化、情感表现等特点,将拓宽能语音的赛道,有更多的应用方向和场景,反向又驱动人工智能有更高的智能化表现。

目前,虚拟人作为媒体播报场景下的虚拟主播已经得到了广泛引用,解决大量音视频生成的时效性,在金融、教育、医疗、政企、文旅、文娱等办公、服务和文化内容场景也有了应用落地,作为虚拟客服、虚拟老师、智医助手、数字员工、虚拟偶像等。

“基于讯飞自主研发的语音合成、识别、自然语言、图像处理等技术,创新发布虚拟生成、驱动、交互技术,搭建了科大讯飞AI虚拟人交互平台,不仅可以提供虚拟人形象构建、AI驱动、API接入、多场景解决方案,实现一站式的虚拟形象打造服务。同时也联合产业合作伙伴,共建虚拟人生态服务。”科大讯飞有声平台总经理郜静文说。

人们在很多工作或生活上已经得心应手,需要有助手辅助,自己再去做更具创造性的工作或者休息,这是人类一直在做的创新,从汽车、洗衣机、扫地机器人等逐渐开始,虚拟人也是一类机器人。优先从视频主播、语音客服升级视频客服等真实需求场景出发,逐渐扩展的线上线下各场景的服务机器人,未来服务机器人和身份机器人在很多场景也会相互促进。

“从技术和应用上说,我们希望虚拟人越来越聪明,能够帮助人类协助我们的工作和生活,帮助人类是他们的初心。所以,我们希望做出越来越“可爱的”虚拟人,懂情感,有个性,智慧并善良,被人们喜爱。同时,每个人都可以获得,不是千篇一律和遥不可及。”郜静文说。