首页 >军事

新智元专访吴甘沙中国的Mobileye在2019iyiou

2019-05-14 20:03:26 | 来源: 军事

3月14日,北大AI公开课第四讲邀请到了驭势科技联合创始人CEO、原英特尔中国研究院院长、英特尔首席工程师吴甘沙老师亲临现场,与北大人工智能创新中心主任、百度七剑客之一、酷我音乐创始人雷鸣老师一起,就智能驾驶领域展开深入的讨论和交流。适逢英特尔斥资153亿美元买下以色列公司Mobileye。

新智元专访吴甘沙:中国的Mobileye在哪里?

3月13日,英特尔斥资153亿美元将以色列公司Mobileye买下,激起业界震动,一时间成为热议话题。

英特尔此番大手笔买下以辅助驾驶解决方案出名的Mobileye,标志着以自动驾驶为切入点的人工智能芯片市场争夺战真正进入“白热化”。

3月14日,北京大学,“人工智能前沿与产业趋势”公开课,驭势科技联合创始人CEO、原英特尔中国研究院院长、英特尔首席工程师吴甘沙与北大人工智能创新中心主任、百度七剑客之一、酷我音乐创始人雷鸣老师共同开讲。

课堂结束后,吴甘沙接受新智元的专访。一坐下来,吴甘沙先抛出一个消息:“坊间一直有传言高通要收购赛灵思(xilinx)。”

赛灵思是一家位于美国的可编程逻辑器件的生产商。该公司发明了现场可编程逻辑门阵列,并由此成名。吴甘沙对新智元介绍说,赛灵思正在基于FPGA做一些更好支持深度学习的SOC,而此前英特尔的Altera已经宣布有这方面的支持。

2016年,高通以470亿美元收购恩智浦(NXP),成为半导体业内的并购案。这被认为是高通为了进军新的行业,减少对智能市场的依赖的一大举措。毕竟,恩智浦在汽车电子、射频和身份识别与安全方面颇有建树。也是全球的汽车半导体公司。

吴甘沙对新智元说,恩智浦旗下的飞思卡尔(Freescale)也在往图像处理芯片这个方向走,但是目前对深度学习支持还不好。

所以,高通再进行收购也是常理之中的事,毕竟,PC时代过后是移动时代,这两个时代都已经接近尾声,而人工智能时代大幕将启,芯片厂商们谁也不想失去未来。

在自动驾驶领域,英特尔面临的竞争还是来自老对手:英伟达和高通。吴甘沙对新智元介绍说,对于芯片厂商,在自动驾驶领域有几种不同的商业模式:一种是卖芯片,第二种是卖系统,再往上就是算法。假如把系统卖给谷歌,谷歌在上面可以做自己的算法。把系统卖给车厂,而车厂做不了算法,芯片公司可以把带算法的系统卖给它。

从英特尔收购Mobileye,针对自动驾驶市场,吴甘沙对新智元分享了他的三点观察:

1、汽车零部件会越来越少,零部件组合化越来越明显,供应商的兼并已成趋势,去年已经有多起,今年这是起,但不会是一起。

2、汽车处理器从控制(Control)进入计算(Computing)时代,新三家(英特尔,英伟达,高通)崛起后面是汽车智能化和联化的必然,老五家(德州仪器,瑞萨,意法,英飞凌,恩智浦(已被高通吃下))必须改变几年一代产品的节奏,同时也可以期待他们发起并购,在计算上补课。

3、Mobileye原来是软件硬件化的封闭体系,英特尔向来是可编程、做生态的开放体系(英伟达也是),下面会走向开放吗?还缺一套语言和开发工具。

那么,作为原英特尔中国研究院院长,吴甘沙如何看待老东家的这笔收购?

他对新智元说:“(这笔收购)价钱确实不便宜,但是我觉得对英特尔来说,花150亿美金拿到一张进入自动驾驶汽车市场的门票,从长远来看,其实也并不为过,因为不然的话,这对英特尔来说会很艰难。因为高通已经收购了恩智浦。英特尔要从一家做PC和服务器的厂商,变成一个车的处理器的厂商,事实上,太难了。所以说,英特尔拿到了一张门票,而且这张门票是排在前面的门票。”

他补充说:“当然,这对英特尔的财务的影响也不小。毕竟150亿美金是不小的数字。”

英特尔此前已经收购多家公司,包括:专注为机器人和无人驾驶汽车开发芯片的意大利半导体制造商Yogitech、俄罗斯公司Itseez、深度学习初创公司Nervana Systems,主要致力于高性能处理器体系机构及计算机视觉芯片研发的Movidius。此番拿下Mobileye后,业界评论认为,英特尔已经形成芯片+算法的超级平台。

提到商业闭环,吴甘沙认为,其实英特尔没有必要去做业务闭环,它只要在生态链上下游几个重要的方面做布局就行了。

那么。英特尔为什么会在自动驾驶上倾注如此大的力量?

吴甘沙说,英特尔是PC时代的,在互联时代,他们抓住了云端,但是没有抓住移动端,从15到16年,英特尔做了一个艰难的决定,放弃移动端,开始抓物联。但是物联市场非常散,虽然从表面上看市场很大、有万亿美金。

他说:“物联这样其实非常碎片化的市场是不利于做通用芯片的,不适合英特尔,因为要针对不同的细分市场进行定制化。另外,物联绝大多数的芯片都是低功耗、低计算力的芯片,这不是英特尔擅长的。自动驾驶需要强大的计算力,这对英特尔是完美的市场。”

吴甘沙对新智元说,现在很多人认为Mobileye只是一家ADAS(驾驶辅助)或L2辅助驾驶公司,这其实是一种误读。在实验室里,Mobileye也储备了L4的技术,而且新的芯片设计已经不再拘泥于纯视觉,允许激光雷达,毫米波雷达,进行融合。

他说:”Mobileye其实不仅是ADAS,而是要转型做一个自动驾驶公司。ADAS代表的是它的过去,它现在要转型成为一个全自动驾驶公司,甚至是一个提供地图信息的公司。不过这个转型,其实并不是那么容易,因为作为一家在以色列的中小型公司,二级供应商其实往往不是直接跟车厂打交道的,要通过一级供应商,所以它跟英特尔是找到了一个强强合作,能力互补的机会。”

至于中国目前有没有可以对标Mobileye的创业企业,他也给出了自己的答案。吴甘沙对新智元说:”地平线就是想做这样的公司,这里是一个自由市场,只要大家觉得这个值得做,就一定会有公司去做。关键是能不能做得成,这里面有很多的因素,涉及天时地利人和。至少,地平线是这样一家公司,深鉴和寒武纪可能也会想做这样一家公司。另外,四维图新和联发科也在做类似芯片”。

他对新智元说:“我们也期待他们能够起来。”

英特尔的此番收购,对于纯视觉技术的创业公司来说,是一个该紧张的信号吗?吴甘沙对新智元说:“当巨头在这一块做得越来越好的时候,对于创业公司来说,如果它要做的比这些巨头一两个时代,它也有自己的存在价值。就像DeepMind做深度强化学习比别人一两个时代,那肯定有存在价值。另外一种可能,就只有合纵连横了。比如说,英特尔的竞争对手,如果没有很好的视觉解决方案,就只能选择跟它们合作,这就是合纵连横的一种活法。纯视觉算法的公司,终它可能会寄身于某一家大公司,它单独存活的能力是偏弱的,终还是要落地。”

吴甘沙:智能驾驶,有多少AI可以重来

雷鸣:吴甘沙和我也是很长时间的好朋友了。他以前是英特尔研究院的院长,带领整个英特尔研究院在中国的工作。一年多前,甘沙离开了英特尔中国研究院,创立了驭势科技,现在是创始人兼CEO。目前,无人驾驶在人工智能领域十分火热,可能是的,有前景的几个方向之一,在全球范围内也非常热。昨天,英特尔花了100多亿美金收购Mobileye。可见这一领域确实非常火热。而且,中间大家的竞争、合作、收购、创新、创业,非常的热闹。下面有请甘沙,跟我们分享一下这个领域的一系列干货。

吴甘沙:谢谢,非常荣幸今天能够在这个晚上跟大家一起共度,分享一下我们对于智能驾驶的一些看法。原来讲座的题目叫无智能,不驾驶。后来有人跟我说,你拿这东西去糊弄90后,肯定不行,所以就只能想了一个新的名字:有多少AI可以重来。其实大家看这个名字就清楚,过去十多年,智能驾驶已经发展出来了一套AI体系,而现在,我们觉得可以把其中的一些东西推翻重来。一开始有个免责声明,因为我知道今天有很多人在看,所以这里面涉及到一些第三方的图片,视频,当然也有一些我们自己的(图片、视频)。

为什么要做智能驾驶?在我们选择一个方向,选择一个职业的时候,要问这个问题,而且不止问一遍,要问好几遍。如果说你的答案是能够经得起数次的考问,那真的是值得做的。

为什么要做呢?我们今天在城市里面看到很多的问题,堵车导致交通事故,违规驾驶等。大家知道如今全世界每年,因为交通事故死亡140万人。那么,交通事故又会导致路更加堵,百公里的油耗产生废气,排放雾霾等一系列的问题。而另一方面,停车难,又是另一个问题。

给大家分享三个数据。,一辆车96%的时间是停着的,他而且需要两个停车位;第二,根据一个统计,在城市的商业中心CBD附近,35%的航行里程是与找停车位相关;第三,大城市15%以上的土地是用来停车的。所以大家可以想象,“房价贵”军功章里也有车的一半。因为房价会使得我们很多年轻人只能够生活在远离城市中心的郊区。

于是大家看到了睡城,上下班的潮汐效应。还有一个触目惊心的数据:中国一天可能因为上下班交通浪费在路上10亿个小时。而五六千年以前古埃及人建造一座大金字塔就花了这么点时间。因此,我们如今一天浪费这么多的生产力。我们有一些解决方案,无论是摇号、限行、交通拥堵费,还是约车,都没办法根本性上解决这些问题。我们认为系统性解决这个问题,要靠智能驾驶。

我们首先看今天为什么有那么多问题——本质上可能因为车太多。例如北京,有接近六百万私家车,而提供按需出行服务的出租车只有7万辆左右。对于我们绝大多数人来说,首先打车很难,其次打车很贵。还不如自己买辆车。这就是后面的逻辑。但是我们相信有了智能驾驶之后,在10年之后,北京的交通状况就不一样了。首先,城市里面车辆的总保有量可以减少一半,只有100万辆私家车,还有200万辆是出租车。而这些出租车是无人驾驶出租车。那么根据大数据的运算规律,我们可以根据全城人群的分布和出行的规律,把这200万辆车分布在城市的各个角落。保证每个人一叫车,两分钟之内就来车。而且,我们打车的费用可以降到今天的1/3。今天人力的成本(司机的成本)很高。

同时,未来新能源,每公里的成本又比今天的燃油要低。再加上,如今大量的油是浪费在空驶上,未来这个调度算法足够的好,没有空驶,那么这块的成本也省下了。因此,我们相信一定能够做到出租车费降下来。从此,城市的一系列的问题都可以解决。这个是国外某个大学的一个想象:未来城市里的车整整齐齐地开。大家看到,今天这么一小段距离可能只有两辆车,而在这个场景下呢,大家挨得紧紧的,这么短的距离可以容纳8辆车。道路的容量可以提升3倍。

此外,可以极大减少90%以上的交通事故。同时,当辆车档掉风阻,后面的车可以开得非常省力,能源的效率也得到提升。至于停车,这种模式对停车位的需求极大地降低。城市里面熙熙攘攘,这些车都不需要停下来,晚上可以停到郊区去。即使需要停下来,只需要一个小小的停车位。大家知道,今天停车位必须足够大,因为太多人手潮,是新手。

在未来,这样的场景就会出现,大家可以想象,城市里每一条道路都会变得更窄。大量的停车位可以释放出来,因此房价会下降。大家可以脑补一下,一系列的情况都会发生。这样一个场景,在商业上也是一个巨大机会。大家知道,如今,“滴滴出行”一天的峰值能够达到2100万单。这什么概念呢?阿里巴巴全品类的电商相加一天大约是万单。美团、大众点评吃喝玩乐住加起来一天大约1300万单。因此,出行是相当刚性的、高频的需求。但是,再往上走,其实很困难。因为受限于能够提供服务的车和人,再加上人力成本,其实今天快车比出租车也便宜不到哪里去。想再往上走,要突破这两个局限的,必须通过无人驾驶的出租车。

我相信未来滴滴一定是无人驾驶。一旦有无人驾驶,一天达到5亿单是完全没有问题的,这将成为电商所有品类当中的交易量。而且,未来的车可能长得不太像车,其交通工具的属性会降低,商业空间的属性会增加。大家再一次脑补,在里面放一台咖啡机,它就是移动星巴克;放一块大屏幕,它就是移动万达影城;放块小屏幕,它可以是移动的分众传媒;在里面放一套办公设备,它就移动的写字楼。未来你打车,可能就十来块钱,但喝杯咖啡需要二三十块钱,看场电影需要三四十块钱。因此,整套新的商业体系就会呈现出来,因此也给我们带来一个巨大的机会。

引用中国古人的一句话:时来天地皆同力,运去英雄不自由。看到这么一个大场面,大机会,我相信值得我们搭上未来20年。当然,因为一位老先生跟我说这个20年太长了,也许20年后大家都不用车,用飞行背包,用动力外骨骼,所以还是改成10年。也有人问,现在很多巨头在这里布局,目前进入是不是太晚了?其实并不晚,我给大家看一个数据。

今天谷歌代表了业界强水平,是无人驾驶5000英里需要一次人的干预;相较而言,特斯拉3英里需要一次人干预。但是,与人的驾驶相比起来还有差距。像美国平均驾驶员行驶105000英里,出现一次小的事故;行驶9000万英里出现一次死人的事故,所以差距不小。

再加上,技术发展非常快,大家经常听见一个名词叫“后发优势”。其实,谷歌大量的技术是从2007年,2009年开发的。虽然它不断地加入新东西,但是若你从零开始,可以把的AI的技术加进去,就是非线性的加速。所以,对于后来者,其实还是有机会。我们相信,未来10年是智能驾驶技术发展的黄金时代。

那下面就会真正的讲AI了。智能驾驶里面有一些什么样的AI技术?我认为,有三样非常重要,我把它分成3种司机:种,叫新司机。想象一下,刚刚从驾校里面考到了驾照,你懂得交通规则,能够保证不去撞车和撞人;第二阶段,你开着开着,变成了一个认路的司机,在任何情况下都不会迷路;第三个阶段,就变成老司机。老司机体现在3个方面:一、开车开得非常好;二、你不肉,这个很有竞争性;三、碰到一些新的情况,你也不慌。

其实,智能驾驶要达到这3个方面:一是感知和认知的理解部分;二是地图和定位;三是认知的决策部分。

先看感知和认知的理解,传统上无人驾驶,他是从“激光雷达”开始。激光雷达,向你呈现出来一个几何的世界。这个几何的世界是在你的记忆当中,你通过与这个几何世界互动,能够实现无人驾驶。大家可以看到,无论是树,草坪,车辆,房子等等,激光雷达都能够很准确地把模型建立出来。谷歌代、第二代、第三代无人驾驶车,上面有个激光雷达。这其中有个细节,近大家看到谷歌的声明,他说把激光雷达的成本降低了90%。

其实他在过去的某一个时间点,开始做自己的激光雷达。我认为他做了一个罩子,把激光雷达藏在里面,为了隐藏自己在做激光雷达的这么一个啊做法。百度的代、第二代车的顶上有激光雷达。两边和后面有3个小的激光雷达。顶上的激光雷达,在国内市价是70万人民币;3个小的激光雷达,每个大约是七八万人民币。这是钱堆出来的。我们做了一个低速车,上面其实也有一个激光雷达,就是七八万人民币。

那么显然,这东西很贵,自然而然会让大家去想我有没有其他的解决方案——就是基于视觉以及毫米波雷达,超声波等等这些辅助传感器啊。但是,重要的还是视觉,视觉构建的不是一个几何世界,是一个像素世界。基于一个像素世界,要去理解和预测,这是基于视觉的智能驾驶。

那么,我们拿在这一块商业化为成功的特斯拉为例。这辆特斯拉Model S上面就有一个单目摄像头,作为它的主要的传感器;下面保险杠前面正中,有一个毫米波雷达;车周周边一圈有12个超声波传感器。大家可以看到这些小圆口都是超声波传感器。它通过这3种传感器,能够很好地达到新司机的要求,去理解规则,去感知这个世界。大家看这是一个典型的特斯拉行驶的情况,在这条双向路上,有两车道,大家可以看到它通过视觉把这两车道都标识出来

。而且,车通过视觉,始终能够保持在车道中间开。他边上的超声波传感器,发现后面有车超车了。大家可以看到左边也有传感器,说明对面有来车。他现在打了右转,开到右边车道上,因为边上有栏杆,这时候超声波始终是在激发的状态。大家可以看到在整个的这个过程当中,视觉雷达和超声波都在发挥作用。

但是,这样一套方案事实上是有缺憾。这是在去年5月份发生了一起事故。当时,一辆大货车,在这个路口左拐横在了这条马路上,而一辆特斯拉的ModelS高速的开了过来。注意,像这样的一个辅助驾驶系统,驾驶员必须得全神贯注把注意力放在路上。而当时驾驶员在玩哈利波特。它的传感器没有发现这辆大货车。于是,他从车的下面钻了过去,之后驾驶员就当场身亡。这个悲剧的产生跟现在视觉方案的缺陷有关。

,视觉受到光照条件的影响。当时特斯拉的解释就是,当时车迎着晨曦,形成了强逆光,这对判断是有影响的;第二,这种算法,你可以把它归纳叫做的Detectionby Recognition,就是必须在你的数据库里面有这么一个障碍物,你要必须得recognize它,它才能够得detect。大家可以想象这个数据库必须得有足够的完备。因为,比如说在这边的高速上开,可能只有车;那在另外一条高速上开,他可能会有其他的动物,可能会出现了事故,会有人。所以,这个数据库必须得完备。非常遗憾的是,横着的车辆不在他的数据库里,所以他不能detect它,因此没有发现。

我们再看另外一个情况,比如说这辆特斯拉在开的时候,没有认出来栅栏,因为主要靠车道线。所以,像这样一些系统事实上是有缺陷。那怎么办呢?一种办法,就是重新回到几何世界,通过摄像头去构建一个几何的世界是。这是我们做的双目立体摄像头,无论是静态的障碍,我还是动态的障碍物,我都有一团点云来去标识它,点云呈现暖色调,代表离我们比较近;呈现冷色调,代表离我们比较远。当一辆车刚刚出现的时候,是暖色调,随着它渐行渐远的变成冷色调。这其实就是一种解决问题的办法,即不用再去recognize他是什么东西,但我必须得通过对这个几何世界的建模去了解这里有障碍。哪怕这个障碍物是不规则,虽然不能认得出来他,但是我知道这边有个障碍物,这是解决问题的一种办法。那么还有一种办法——通过更好的计算机视觉,即所谓的语音分割。通过更好的分割办法,去发现障碍物,找到可行驶区域。

大家注意刚才没有发现篱笆墙,其实他对可行驶区域判断出错。如果有一个很好的分割算法,这个障碍物上面没有紫色,那么只有可行驶的区域,才被涂上紫色。这时,汽车对环境的感知能力就提升了。就是将可行驶区域的检测和车辆检测结合在一起。比如说这边需要经过一个天桥,出天桥的时候,出现了过曝的情况。这时候你的视觉算法要足够的鲁棒,才能够保证不会遗漏掉障碍物。还有这个训练模型要鲁棒,大货车跟普通的车是不一样的,也要能够把它检测出来。刚才说的这些都是已经在使用的方法,还有很多可以去改进的地方,提几个点:,即使是用了深度学习,在一个复杂场景里面,对障碍物的识别率,比如对车辆的识别率可能只有90%出头,对自行车骑车者,只有百分之七八十。

有种办法是,通过更多的标注数据。今天我们一般训练可能拿10万张标注数据去训练。如果有能力去获得几十亿张,甚至是几百亿数据,那训练出来模型准确率会非常高,那么久存在如何去收集数据。

收集了数据之后,如何去对它进行标注。10万张这样级别,我还是可以去通过众包的方式请人去标注,但几百亿张级别肯定是没办法。这时候呢,大家在研究基于机器学习,做半自动的标注,先让机器学习去标注,还有就是通过预训练,预训练是迁移学习的一种表达。

比如,我先在IMAGE NET上面训练出来一个模型,然后再用这10万张图片再去训练。未来一个更好的一个办法,可能是通过学习,或者是自监督学习的方法。大家注意,我们的一个假设是没有标注数据。没有标注数据,要么就从其他领域迁移过来,要么就是学习,通过自监督学习进行标注。比如,你在开车的时候,绝大多数情况都开得很好,突然需要一次人的干预,那这时候机器就会发现,针对某一个处理得不好的场景,能不能进行一些标注。

还有一个,就是嵌入式的部署,因为汽车上面是一个嵌入式系统,而不是一个数据中心,要考虑实时性,模型的大小,计算量等。你可能要对图像进行压缩,无论是downsampling还是encoding。然后,对模型进行压缩,无论是通过定点化,量化等很多方法,通过级联算法,用计算量更高的,但是识别更好的卷积的方法。级联算法可以减少region proposal。

另一个就是多任务络。在一个层面,一个络可以检测人车,交通标志,车道线等;那另外一个层面,可以把检测分类和语义分割放在一个络里面,这样也有利于在汽车上面进行部署。这些都是非常值得探索的新的AI的方向。

第二步就是认路的司机该怎么去做,这里需要地图和定位,传统上,旺旺采用XJBD方法。大家熟悉这种篮球就知道啊,就是通过打乱仗的方法来去解决定位的问题。首先我可以用一个高精度定位的系统,叫RTK。这个系统依靠卫星,地面基站,多个天线做差分计算,去获得厘米级的定位精度。那大家可以看到,这是我们的车,这辆车上有两个蝶蝶形的天线。

通过这样一种天线,来获得定位。但是问题是在哪里?大家看这是这个车,这其实是我们拿着传感器,故意歪歪扭扭地走,绝大多数情况下定位非常好。到这里信号跳得非常厉害,因为这个建筑物比较高;换一个时间点,大家可以看到西边信号出现了很多的跳跃,那这意味着什么?光靠这个东西是不行的。

那么,XJBD就要用了,加上新的系统。RTK是提供了一个精密的系统。这里,我们加上视觉里程计,就是记录图像帧与帧之间视觉特征点发生的位移。比如,若是30帧每秒,在这个30毫秒中,特征点发生了位移。而这个位移其实就是你的车的摄像头,或者是整辆车姿态的变化。如果把这些位移记录,且积分,可以实现一个不错的视觉里程计。这一套系统其实在某些场景下是非常有用。

这是全宇宙复杂的立交桥——西直门立交桥,很多GPS是不工作的。若有这么一套系统,你可以做到相对的定位;还有一种场景,大家知道这个视觉特征点是希望在帧与帧之间是静态,即这个视觉特征点本身是不会动。但如果在园子里面,很多树叶它是会动,会导致你的累积误差变大。怎么办?在园子里,每过一点距离,就树两个牌子,其实它是一个视觉参考。这时候我其实已经偏离了道,通过这两个视觉参考物,类似于三角定位,可以重新去做一次定位。

还有一种情况,我们在环境里面贴了一些二维码啊,车辆在行驶时,会时时检测这个二维码来帮助进行定位。刚才我们这个园子里面要树两块牌子。如果我有二维码就非常有用。因为二维码本身它是encode的信息。而且二维码的形状和大小,能够帮助我们能够去了解相对的距离和角度,这个就是XJBD的做法。还有一种方法,就是通过SLAM(同步的建图和定位)。

这项技术,历史悠久,有名的无人车先驱塞班斯蒂安特隆,他早就是做机器人的SLAM。就是利用激光的点云做这么一个SLAM,就是能够同步建立地图,同时进行定位,这是我们的基于视觉的SLAM。刚才说激光雷达贵,我们做一套基于视觉的SLAM,在视觉的特征点非常丰富的情况下,他也能够工作得很好。在地下停车场没有GPS,你需要去导航啊,需要新的技术,我们做了这个基于是视觉的SLAM,基于激光雷达的SLAM,都工作得非常好,能够非常自如地进行行驶。当然了,如果能够把这两种技术结合在一起啊,那置信度就变得更高。我们未来要实现高度的自动驾驶,甚至是无人驾驶的话,是需要高精度地图。假

设百度或者是高德能够提供给你高精度地图?那你可以怎么办?

这个是国外一家公司叫Care,他做的高精度地图是什么样子是吧?有很多车道的信息,地面视觉信息以及三维空间里面各种交通标志,车道线,能够帮助他来进行定位,具体怎么做呢?这是我们在没有高精度地图的情况下做了一套实验系统,那他的做法就是在三维空间里检测。你看这个红色的就是检测到交通标志,然后在地图里存了交通标志以及它的位置这种映射。

于是,我不断去检测,检测的时候进行匹配,匹配不到,无所谓;一旦匹配到,我建立连线,就知道在什么位置。其实这就是一个假设,若有三维空间的高精度地图,可以利用这种方法进行定位。当然还有一种方法是通过地面的二维,地面上也有非常丰富的视觉特征,我能够把这些视觉特征啊变成一个类似于高精度地图的这样一个数据。这是我实际看到的场景,能够根据高精度地图进行匹配,能够帮助获得横向或者纵向10厘米的定位精度。

因此,利用这些地面的丰富的两维视觉特征可以进行定位。有时候,地面上有很多的阴影,只要你的算法足够的鲁棒,也可以定位。当然如果说是矢量化的高精度地图,那可能还要做一些事情,比如要把这个矢量重新渲染成为一个图片啊。然后,把你实际看到的东西跟这个图片,进行比较,定位。

在这一块我们认为未来还有很多的机会。

,SLAM技如何能够做到更加鲁棒?大家知道SLAM技术由于视觉质量技术,非常受限于在环境当中能够发现的这些特征点,比如说四处都是白墙,是很困难。

其次,多传感器要进行融合,在什么情况下,哪种传感器给出来的数据的可信度是更高,怎么能够把它们融合起来,或者用另外一种传感器来帮助这种传感器?这个融合算法其实也有很多的探索;还有,就是基于基础高精地图不断地对地图的更新和学习。因为四维也好,百度也好,他们可能全国只有100辆扫街的车,因此对于基础地图的更新是非常慢。如果每一辆车,不但具备定位的功能,也能够帮助地图进行更新,那用户始终会拿到的地图。这些都是值得去探索的方向。

第三,我们再看老司机要做什么。为大家看一下我们一个demo,是在一个真实的交通环境当中。上路前,我们在车顶上放了两样东西,打火机,盒子,然后在这个路上面开20多公里,加速、减速、换挡、超车,这几样东西还是稳稳地放在地上,这说明老司机的步拿到开得很稳,很舒适;二、是开的不肉,具有社会性和竞争性。这时,车不是呆呆的机器,与其他人类司机有互动,尤其在与很多如狼似虎的人类驾驶员竞争路权的时候,要有竞争性。

所以,做无人车就像咏春木人桩。大家都看过叶问吧,他就是跟一个静态的一个木人桩在练。但事实上你在路上开是在闯少林18铜人阵。因为驾驶员都会骗你,都会欺负你。这时候,你要更好地去判断路上的态势去评估这些可能是人或动态的物体,评估他的动机,预测他们的行为。然后,合理地获得路权。这时,传统的监督学习就不够。

监督学习是我给你一个状态啊,我能够对它进行一个预测,而这个预测,对外界环境是不会有影响的。但是,实际开车的时候,你不断跟环境互动。因此,需要新的学习方法,就是比较通用的强化学习的方法,来去实现跟环境的互动。当然了,这是一个比较广泛含义上的强化学习,这里面可能也包括像马尔可夫决策过程,循环神经络等。如果,前车上普通掉下来的东西,下面我这个车怎么办?那么它通过一个循环神经络会去做推理。

你看这个东西,在地上弹啊弹,机器就会知道这个东西是有弹性,且质量不会太重。这时,我的驾驶决策可能是轻微的减速,能避开就避开,但不要紧急刹车,或者是串到其他车道去了;而如果前车掉下来一个重家伙,你通过循环神经络是可以判断出来,你可能只能够紧急制动,对吧?这就是一种通过跟环境的互动方式,去推知其他物体的物理特性,预测他们的行为来去决定我该怎么样。

这是新加坡MIT做的一个工作。这有一辆无人车,在有很多行人的环境里,他就开得非常肉,因为他一看见有人动他就得制动。对吧,所以就开得非常不爽对吧?我们有个同事,当时做了一个工作啊,它其实基于的一个叫OnlinePOMDP,其实就POMDP,就是partiallyobserved的马尔可夫决策过程。他所谓的online只是让它变得更快。那么这时候呢?他会track每一个行人,他是怎么动,然后通过MDP马尔可夫决策过程,去预测下一步的行动轨迹,会不会跟这个车相交。如果不相交,那我就不用刹车了。

当然,其实这里面有一个理想化的假设,就是说每一个人的行为是符合马尔可夫过程特性的。所以马尔可夫是指,你是下一个状态完全取决于当前的状态和你这个action。但事实上,在开的时候,其实你的下一个状态取决于很多其他的司机,他是一个multi-agent的环境,这样,用简单的马尔代夫过程就不行了。

这时候就需要更好的强化学习。比如,汽车要环岛。那么大家可以看到它怎么做的?就是这辆车露出一个头,然后去试探这边的车,看他加速还是减速。加速的就是比较猛的司机,那我惹不起,就停下来。然后再往前凑一凑。这种深度强化学习,从某种意义上来说,AlphaGo下棋与开车是类似的。当他看到了整个盘面黑白局面,来决定下一步怎么下。那开车呢?其实也是根据对方司机的行为来决定我下一步怎么办。

那么老司机的第三部分呢?就是怎么去处理未知的情况,能够开得万无一失。这里面涉及到的是人工智能的鲁棒性。我们把人工智能分成这四象限,上面是虚拟世界,下面是实体世界,左面是非关键任务,右边是关键任务。大家看,这是李飞飞他们做的工作。这是一个小男孩拿着一个棒球棒,这很显然是识别错了。但是在虚拟世界非关键任务上问题不大,对吧?但是如果说,在虚拟世界的关键任务,比如金融这个领域,一旦出错,就会出现千亿美金市值突然消失这样一种场景,对吧?我们再看实体世界非关键任务,一个扫地机器人。它做得不好吗?线都缠在一起也没关系。但是,在实体世界的关键任务上,像自动驾驶一旦出错就问题很大。

那么汽车上面的可靠性和鲁棒性非常重要。大家知道吗,一辆奔驰S级轿车,上面的代码量是波音787梦想客机代码量的16倍。大家可以想见,要对一辆车进行很好的测试,要求非常高。但事实上,比代码更难的是数据和上面的随机算法机器学习。假设两辆车出厂的时候是一样的,一辆卖给了雷鸣一辆卖给了我,但开了一个月以后,这两辆车行为完全不一样

。机器学习意味着根据给它的训练集来学出一套东西,如果训练集给的不好,那是会出问题的。谷歌做了一个比较有趣的工作,它训练了一个神经络去识别哑铃,训练出来了以后它把这些特征可视化出来,结果发现它生成的哑铃都带着一条肉色的东西。研究人员百思不得其解,后来一看输入集,都是肉色的胳膊,所以它认为哑铃都是带着这条胳膊的。

又比如侠盗猎车手,这样一个赛车游戏,原来是人在开,现在呢?是用AI去开,去训练你的模型等等。另外,深度学习就是黑箱,不知道为什么,他就工作的那么好,但有时候,他就莫名其妙的会出错误,按照周志华老师的说法,他说我们人类犯错误的时候,一下子会从九段变成八段,而机器学习如果犯错误,一下子从九段就变成了零段。那么这时,事实上你不可能把你的生命交给这么一个东西。

我们再举一些例子,谷歌做过这么一个有趣的实验:左边那个图跟右边那个图我们人眼看上去是一模一样。事实上,它们在像素级别上有些差别,这些差别不足以让我们人眼做错误的判断。但是呢,机器学习能认出来这是校车,但认不出来,这个也是校车。现在我们把它叫做对抗。这些案例,能够帮助机器学习的引擎优化。人们会造出一些东西,来欺骗深度学习,比如说这个东西,我们肉眼看上去啥都不是,但是深度学习认为它是一个猎豹。而这个东西呢,深度学习把他认成了帝王棋了。

大家也开创出一些新的方法,比如说生成性的对抗络。一个是生成器,给你造出来一些假图片,另外一个是辨别器,他能够去分辨哪个是真哪个是假。所以,下一阶段,我们说今天我们的智能驾驶的人工智能都是weakAI,那么10年以后,我们也不指望它能够变成strong AI,或者是称为artificial general intelligence。只是希望它能变成stronger的weak AI。

比如说深度学习,尤其是端到端的深度学习,它学习出来的是一种车感。而这种车感不足以让你能够开好车。它有时候可能需要跟背景知识和常识结合起来,比如说我们人开车的时候看到那里有一个停车位,但我竟然没有把车停过去,深度学习系统是学不出来这个道理的,因为人的背景知识是,看到这个车位的两边一辆是宝马,一辆是奔驰,我还是离他们远一点好。所以这种深度学习需要跟背景知识和常识结合。还有,它需要跟迁移学习结合起来,举一反三,触类旁通。还有,比如说基于贝叶斯的逻辑因果推理,能够使得我们的自动驾驶系统变得更好。

还有,今天我们看自动驾驶的问题,往往是把一个视频拆成很多的帧,在每一帧上进行检测进行判断。那么,另外一种思路是从整个视频的连续过程的角度去看这个问题,能不能从这个连续的过程当中推导出动态、动机、因果关系等等知识。还有一个就是现在也很火的,大家知道YannLeCun,他原来把机器学习分成3类,强化学习、监督学习和无监督学习。然后他现在调整了一下,分成新的3类:强化学习、监督学习和预测学习。

他把预测学习作为无监督学习的一种重要的方法。事实上,现在已经出现了新的方法,通过预测视频当中下一帧长什么样来进行增加。其实我们人在做任何事情的时候,无时无刻都在做预测,比如说大家回家,肯定有这样的经验,你走进门,进电梯,按电梯到顶层,基本上都不太经过你的脑子。它不断的通过一个预测系统在工作。然后你出了电梯去开门,感觉抓空了,这时候预测失败。唉,这时候你发现原来提早出来了,对吧?所以说这种预测越来越重要。

想说一下穿过AI落地的迷雾。现在我们看到很多人工智能做出来,Demo非常好,但是它离真正落地,离部署其实有很长的道路。做demo的话,你100次当中有1次成功就行了,把成功的视频放在上,大家都觉得很牛,对吧?那么你真正部署了以后,100次当中有1次失败就完蛋了,对吧?而且,你拍demo时可以在车上装6个、9个激光雷达都无所谓,但是真正落地的话成本就变成了考量因素。

而且你不仅仅要考虑车,还要考虑基础设施,考虑整个运维的系统。另外,从算法能力到系统能力,你算法做好了,下一步要考虑鲁棒性和实施性,但更重要的是软硬件的垂直整合。我和雷鸣有一个共同的朋友叫李志飞,他一开始是在里面做了一个出门问问,是吧?一开始全是算法人员,结果他发现这个东西没办法变现。他说我还是做一个终端吧,于是做了一个手表,然后又做什么后视镜,结果慢慢地他公司里做算法、做人工智能只占一小部分了。

大部分的人都在做软硬件垂直整合。另外,就是对需求和场景的理解。大家知道,今天我们所有的人工智能都不是通用人工智能,都需要针对特定场景和需求去适配你的人工智能。

我想说的是,对于爱车的人也好,极客也好,算法系统的工程师也好,其实智能驾驶是一个非常非常sexy的工作。这也是为什么我们要去做这么一个工作的原因。我们希望能够建立一个非传统的经营合伙人公司,聚集全球的创业精英,能够为他们赋能,能放大他们的才华。

为11亿人交付安全舒适低成本的智能驾驶技术产品服务。我给大家看一下,早我们是从车库开始创业的,我觉得做智能驾驶,你一定得从车库开始创业。我们的工作环境当时是非常艰苦的,但是现在我们的环境就好多了,变成办公室了。当然,这里面有各种各样的车是吧?可以看到我们做了很多种车,像这样的一些低速的车,像这样一些高速的车,而我们的办公环境也非常有意思,你有各种各样的工具,我们的环境我们的办公室里面还有篮球场,然后你可以去动车。

我觉得这对于很多人是很有意思的,对吧?特别是男孩,小时候开始就有一个对汽车的热爱,所以你现在可以自己去动车了,让我们能够把我们的代码收到这个车里面,大家可以看到,这是我们在路上去测试我们的代码,那么我这个代码更新了以后放进去,你就会发现它开的更好了,这种成就感是非常强的。这套系统实现了100公里时速无人驾驶,它自己还有超车的功能。大家可以看到,如果前车开得太慢了,太肉了,它可以非常敏捷的拐到快车道上漂亮的操作,然后再回到中间车道上。

这是我们的另外一个研发基地,大家可以看到我们做的车,在这个研发基地里面整天的跑。这种车的使用场景非常简单,用把它叫来,告诉它去几号,它就把你送过去了。当你的代码,能够让这些车显示出来灵性的改变时,成就感非常大。这个小车也很有意思,我们直接买了一辆老年代步车,然后改装了它。在这辆车上,我们做了一个很有意思的功能,我们希望它们不仅无人驾驶,而且无人维护。所以,我们在这上面做了一个自动充电的东西,当它发现自己没电的时候呢,它会找到一个带有无线自动充电功能的停车位,以一种非常准确的姿态,停进去就开始充电。

然后,我们的下一步要往上走。我们想设计我们自己的车,早的灵感是从这张熊猫照片来的,然后我们就做出来了这个车的缩微模型。然后,我们就把真的车做出来了啊。大家知道,我们公司才成立了一年,就把这个车做出来了,大家可以看到它跟我们原来的车的不同之处在于外面看不到线,看不到露出的传感器,所有传感器都隐藏在车身里面,而且,车前面有一个led显示屏,负责跟行人跟环境当中的其他车辆进行交互。因为今天我们车这边有一个驾驶员,他可以跟行人进行交互,比如说挥挥手让你经过。

而现在呢,完全通过视觉语言来去做。这个车里面变得非常的简单,大家可以看到,里面是木地板,一个L型的半环形的沙发,后面有个红色的按钮,是紧急刹车,然后前面有一个大屏幕,大家传统上看到车里面的一些仪表盘、各种操控设备都没有了。

这是从车子后面往前看,我们还有一个摄像头,可以视频会议可以玩直播,对吧?现在直播很火。这是从侧面看进去。很多媒体给它取了名字,像什么移动包厢啊,移动吧台啊,确实挺像,是吧?

好,这是一页,我觉得引用一下咱们钱穆老先生的话:要认识你的时代,带领你的时代。我觉得真正要做到这一点是不容易的。一定不是一个人在战斗,一定是跟先行者同行,跟开创者共创。未来呢,也希望能跟在座的或者是线上的有些同学,一起去开创这么一个大场面。好,谢谢大家!

2013年重庆汽车出行企业
2017年南京上市企业
微软谷歌AI专家入职阿里实验室

猜你喜欢