精彩文章
了解商汤AI大装置最新技术动向,感受研发团队硬核实力
商汤CEO徐立:AI打破虚实世界次元壁
技术文章
发布于 2022-07-14 09:53:36


上周,在大咖齐聚的2021世界人工智能大会(WAIC)商汤科技人工智能企业论坛上,关于科技、科幻、人文、治理的诸多观点百家争鸣,碰撞激荡,为大家带来了一场磅礴的思想风暴。


论坛上,商汤科技联合创始人、首席执行官徐立发表题为“AI打破虚实世界次元壁”的主题演讲,详细剖析SenseCore商汤AI大装置核心价值,并直观解读了虚拟世界与现实世界连接的“密码”。

sensecore

徐立认为,人工智能大装置将能够真正意义上降低人工智能生产要素的价格,推动物理世界的全面数字化转型。商汤致力于完整地连接虚拟世界与现实世界,通过SenseCore商汤AI大装置和多种AI技术平台,把现实世界数字化搬到虚拟世界中,同时把虚拟世界投射到现实世界,打破人工智能次元壁。
 
如下是徐立的演讲内容,商汤君在这里完整分享给大家:

数字化转型的三个步骤

今天,我想讲一个轻松点的话题,人工智能怎样帮助我们在虚拟世界和现实世界间穿梭。我们的现实世界正在经历一场数字化过程,把现实世界的各种东西数字化搬到虚拟数字世界中;同时数字世界生产的内容又通过不同的载体投射到现实世界中。

首先,什么是数字化?

我想起20多年前我的第一台数码相机,Olympus,像素达到200万。我特别开心,用它在学校里各种拍照。我以为那就是数字化了,毕竟那台相机叫做数码相机。

记得当时拍过一张学校内自行车行的照片,非常有特色,叫“交大小树林精修自行车”。前段时间,我回到学校,发现这个自行车行依然在,20多年店名招牌都没变。


当时车行修的自行车是凤凰、永久,都是那个时代的回忆。那时,我们觉得有了数码相机、录音笔、DV等数字设备,记录下来就是数字化了。

可今天再看这张照片时,除了能够回忆一下过去之外,好像也什么都做不了。我只是做了把相片的“像素化”。

数字化转型是一个工具,那我们讲数字化转型时,在谈论哪些内容?我理解我们谈论的数字化是在构造一个数字化世界,对于这个世界的访问、搜索、操作能够直接影响到真实物理世界。我们理解的这样的数字化世界的建立通常需要几个步骤:

第一步,场景的数据化,也就是我们熟悉的像素化、3D化。我们过去很多大数据应用都是完成了第一步数据化。但是数据如果没有和真实业务流程结合,单纯数据化作用有限。

第二步,我们要做要素的结构化,就是把数据化得到的大量数据根据感知理解来抽取对于人类有意义的元要素。

然后才是第三步,流程的可交互化。我们经常听到流程再造。数字化过程中,首先要做到流程可交互——这个交互可以和人工,也可以进一步升级到机器决策流程。

一个有业务价值的数字世界的构造,是可以让我们直接使用这些数据去搜索并且影响现实流程的。而基于可交互化的流程,才能去做业务流程的重塑和自动化,这也是SenseFoundry/SenseFoundry Enterprise商汤方舟城市/企业开放平台的一项核心能力。

以上海商汤科技大厦为例。


我们第一步把整栋楼进行了3D重建,做了一个物理空间的数字孪生,并同步把传感器数据叠加到数字孪生空间上。但是这步只是完成了一个数据化的动作。

在这之上,我们通过感知、识别,将人、物、事、场进行结构化,增加了数字世界的语义要素,使得这个数字世界变得可操作。

接下来,我们将更多业务流程放到这个操作系统中,使整栋楼的管理变得可交互、更智能。

食堂错峰排队功能、会议室预定、自动送货送餐、电子储物柜、失物招领等一系列办公中的问题,在有了整体的信息化、结构化之后,就能够完成流程再造。

比如在基于SenseFoundry Enterprise商汤方舟企业开放平台等打造的商汤智能办公系统中,有一个用线下搜索引擎去搜索万物的“万物检索”,对于丢落在公共区域的车钥匙、笔记本电脑,都可以进行搜索。


打开万物检索,可以看到我们同事搜索的高频词,有两个词比较显眼,“灯笼”和“锅”。我很好奇为什么会有同事在办公室里找锅。正确的打开方式比如搜索背包,可以看到公共区域的背包,并且在3D地图上标注出来。


当我们能赋予更多场景智能化后,日常所有流程都将不再需要人为介入。

为什么需要SenseCore商汤AI大装置?

数字化转型的诸多步骤,场景数据化和流程交互化更为显式,一接输入,一接业务。但语义要素的结构化是连接两端的关键,也是真正意义上需要大规模AI赋能的环节。由于各种场景中大量的长尾要素需要结构化,迫使我们必须有核心技术突破。

当前,80%结构化应用都是低频的、长尾的场景,如果没有通用人工智能,我们面临的就是大量人力投入到单一项目中,且还不能很好解决这些本质上是小数据、小样本的问题。此外,技术上如果还聚焦于单一问题过程,就很难在很多通用场景下有很好的泛化能力,导致性能不稳定。通用超大规模模型再加上小样本单一场景的细分优化成为解决生产成本和准确率的核心,其导致的就是对AI算力的本质需求。

十年前,我们看到的是人工智能深度学习算法的规模化应用所带来的红利;五年前,我们看到的是行业大数据所带来的单一问题突破工业红线的红利。接下来,我们可能会看到AI超级计算带来的红利,这将帮助大家探索更大的解空间。

常识的理解是算法越精准,可能需要的算力就越少。但过往10年最好的AI算法对于算力的需求几乎增长了100万倍,这说明我们在扩大探索未知的解空间,只有搜索空间变大了,才需要增加更大的算力。

商汤在2017年就开始探索大参数深度网络和对于并行算力的优化,并启动关于人工智能算力大装置 (SenseCore)的投入研究。之所以称之为大装置是类比于高能物理中的粒子对撞机,通过随机的两束粒子流的高速碰撞去认识量子粒子的新规律、新粒子。粒子碰撞结果不可预测,但只有通过不停的探索尝试,才有可能找出一些真正意义上可解释物理世界的规律。

同理,在人工智能的可能性探索中,很多通用模型在设计的时候其实都是一次对于资源的冒险,需要通过去尝试不同的、超大模型来达到卓越的泛化能力,通过不断去迭代才能解决,所以我们把它称为AI大装置。


SenseCore商汤AI大装置总共分为三层九大模块。
 
第一层是算力层。包括计算训练的芯片,AI数据中心(AIDC),和底层传感器。商汤联合清华大学、复旦大学、上海交通大学、中国信息通信研究院及行业伙伴共同成立的“人工智能算力产业生态联盟”将解决从无到有的问题,从软件到硬件做更好的集成和算法的优化。
 
目前,商汤智算中心(AIDC)计划总算力3740 Petaflops的计算能力(1 Petaflop等于每秒1千万亿次浮点运算)。
 
第二层是平台层。在算力层之上我们必然有软件的平台,其中包括数据平台、训练框架、加速模块以及模型生产平台。
 
数据平台很好理解,主要是数据的存储、标注、加密;训练框架是商汤自主原创的深度学习训练框架SenseParrots;加速模块是商汤高性能AI计算引擎SensePPL,使我们能更好地使用好分布式的数据和硬件加速;有了通用的大模型之后,我们可以蒸馏出各种小模型,模型生产平台可以实现小样本模型高效生产。

第三层是算法层。算法层提供可以使用的算法模块。很多场景有复用的模块,一些问题不需要重复解时,可以直接从工具箱拿取需要的算法。商汤的算法工具箱里已经有17000个算法模型
 
除工具箱外,商汤还将一部分SOTA算法进行整合开源到OpenMMLab体系中,在GitHub上已收获37000颗星,这个平台上的算法也积累了使用中的最佳实践,让大家能够从零开始快速使用。


 
算力层、平台层、算法层三层完美融合,就是商汤的AI大装置,能够真正意义上降低人工智能生产要素的价格,推动物理世界的全面数字化转型。
 
有了人工智能大装置,我们可以做什么?看几个例子:



这是冬奥会场馆水立方。第一步通过场景数据化能够将其3D结构重建出来。

第二步要把场馆内所有人、事、场景进行结构化,之后就可以真正去理解发生的事情。


这里的事更多的是运动姿态、轨迹等。比如冰壶运动,我们可以让机器去理解冰壶的轨迹、运动员推冰壶时人的关节动作等相关内容。

第三步是流程交互化,基于上述的结构化信息,无论是教练对运动员分析还是观众互动,都可以在上面进行迭代。我们可以在观看比赛时看到整个3D内容信息的叠加,甚至算法能够更好地做出轨迹预测,以及完成超现实互动。


再看另外一个我们日常很常见的场景,扶梯。

扶梯安全一直是个很重要的问题,因为扶梯是个完全开放的环境。我们将整个扶梯的物理信息做数据化重建之后,可以在之上定义各式各样的异常场景,包括跌倒、逆行、推轮椅、拉行李箱等,这些都属于结构化要素,能够在语义层面与数据模型连接。


有了这个连接,我们就能够再造流程,把所有流程自动化,从发现异常到推送上报再到去解决问题,比如自动降低扶梯运行速度等。整个流程中,现在只有解决问题这一步还需要人工介入,比如逆行了需要管理员去干涉。

让虚拟世界照进现实

说完现实中的物理世界,我们再回到这张照片。


我一直在思考这个自行车行为什么能够在学校里长青20多年,我想还是借助AI来分析吧。我把这个名字放到智能翻译器里,翻译器真的告诉了我真相。

翻译器翻译的是:The woods are repairing bicycles,认为是小树林本身在修自行车。



那我再读这个牌子,发现原来这么多年断句错了。

为什么品牌长青、屹立不倒?因为它叫“交大小树林精-修自行车”,是小树林精在修自行车。

既然知道了真相,我还是需要告诉我的同学们,我就想把小树林精给投射到现实世界中来。如果我要表现这个“小树林精”,需要的是把数字虚拟世界叠加到现实场景中。


这是另外一个由虚拟叠加现实的通道。商汤为此打造了一个企业级平台,能够联通大量基础硬件设施,包括手机终端、loT设备,AR/MR眼镜。并为诸多现实场景提供一体化解决方案,包括智慧场馆、景区、文博馆、游乐场所、大型商超、机场交通枢纽等等。
 
我们将这个基础设施平台称为商汤SenseMARS火星混合现实平台,我们可以用它遥望不一样的星空。


下面我们有请一位虚拟世界的专家现场连线。

欢迎王者荣耀的公孙离,一位生活在Metaverse元宇宙中的专家。


没想到的是,我们的公孙离原来是一位小伙,事实上我们有公孙离一号、公孙离二号。这个连线所展示的就是SenseMARS火星混合现实平台的一个能力,我们可以驱动虚拟形象去完成各式各样的交互和变化,通过这样的平台,可以做到千人一面,很多人可以在同样的客服界面上和外界进行对接。

商汤致力于搭建混合现实的基础设施。我们的SenseMARS可以适配各种终端,甚至可以支持小程序和浏览器连接


终端的层面还有哪些想象空间呢?再回到自行车行这张照片,我又发现这个招牌其实可以再用二十年。照片上的自行车可能二十年后没有了,但是细品“自行车”这三个字,不就是自己行走的车,不就是无人驾驶吗?所以小树林精二十年后可以继续修新时代的“自行车”。

今年,我们将SenseMARS火星混合现实平台与无人自动驾驶车结合,把车变成了现实和虚拟的叠加,商汤这台SenseAuto AR-Robobus 商汤绝影自动驾驶AR小巴也成为本届WAIC世界人工智能大会上的镇馆之宝


自动驾驶AR小巴车内所有玻璃都改装了增强现实的屏幕,可以把车外内容实时投射到屏幕上,让乘客有一种处在不同次元世界的感受。


SenseAuto AR-Robobus 商汤绝影自动驾驶AR小巴在WAIC大会场馆附近做了巡回演示,车上采用雷达+视觉感知的双路冗余方案,能够更安全地完全自动驾驶。
 
AR小巴可以为我们带来很多不一样的体验,包括将车外经过的实景进行实时风格化处理,叠加城市产业发展、经济规划、科技文化场景等视觉内容,整台车就变成了现实中的演示场。

今天,商汤致力于完整地连接虚拟世界与现实世界,通过AI大装置SenseCore和SenseFoundry/SenseFoundry Enterprise商汤方舟城市/企业开放平台等,把现实世界投射到虚拟数字世界中。同时,通过SenseMARS火星混合现实平台把虚拟世界照进现实,真正连通虚拟和现实,用人工智能打破次元壁,让现实世界联动虚拟世界的迭代,虚拟世界完成现实的增强。

谢谢大家!最后,为大家奉上公孙离一段美丽的舞蹈,请大家欣赏。