机器视觉就是用机器代替人眼来做测量和判断。它是人工智能正在快速发展的一个分支。机器视觉正从平面2D迈向3D立体效果。3D较2D可识别图像更有深度更立体、精确,但对图像处理性能的要求更高,对软硬件提出更大挑战。在工业、汽车、医疗、消费电子等领域3D机器视觉前景广阔,其背后的架构体系以及人工智能也在走向新阶段。

汽车机器视觉:从英特尔收购Mobileye,到分布式架构驾起汽车的智慧

“在我看来,机器视觉现在是在自动驾驶中非常重要的组成部分,因为机器视觉实际上在整个自动驾驶中成本有所下降。” 英特尔无人驾驶事业部中国区市场总监徐伟杰说,现有的自动驾驶的方案,包括了机器视觉、激光雷达、雷达等。其中像谷歌、百度在激光雷达方案上用得多,但是激光雷达面临一个问题是成本无法达到真正的量产化和规模化。而机器视觉确实能弥补一部分,特别是像现在的单目或者双目。所以从某些角度来说,包括特斯拉现有的一些方案,机器视觉实际上会给当前自动驾驶提供一个主要的工具,这是前景。也是我们认为整个机器视觉在自动驾驶上很重要的一点。

市场状况来看,机器视觉有单目、双目的方案。因为汽车属于工业品,需要考虑量产成本,所以现在单目方案,很多公司都投入了大量的研发精力和大量的投资成本,希望在这上面有一个突破。 20170717-AI-1 机器视觉图像方案也是当前在可靠性和成本之间的平衡。从这个角度来说,单目、双目方案是非常重要的,也是市场可预见的。因为机器视觉更多涉及到这些图像的处理,很多人都在谈论的激光雷达,目前成本比较高,未来也不排除成本降下来的可能。但是无人驾驶要考虑很多场景,视觉的部分是必不可少的,尽管雷达可实现,但是视觉的处理也是一个重要问题。

英特尔不仅仅是收购Mobileye,在机器视觉上有两方面部署。第一是收购Mobileye,这是英特尔在机器视觉上一个巨大的投入。如今在机器视觉部分,Mobileye应该是全球做得非常领先的;第二块是英特尔自己也在设计做相应的机器视觉,因为英特尔提供的方案更多的是集成在底层的芯片和计算平台上。基于这两块,英特尔也在芯片级别和计算平台上开展研发工作,将来在自动驾驶领域也会有机器视觉方面的芯片和相应的计算平台。

Mobileye当前在机器视觉最大的优势在于它有足够多的数据,第二,Mobileye在机器视觉上的算法现在也是在行业内领先的。而英特尔实际上现有的所有内部的投资和方向是不涉及这两块的,我们主要是涉及在底层处理器的处理能力和上层的计算平台,从而辅助、加速处理。但加上Mobileye的数据与Mobileye的算法以后,就形成了一个完整的解决方案。

在无人驾驶汽车上实现3D机器视觉主要的挑战将来自于哪些方面?徐伟杰认为,现有的状态,3D机器视觉对比2D会多一维数据量的处理,数据量的处理不仅仅是多一维,从设计来说整个数据量会呈一个几何级的增加。英特尔当前更多的使用机器学习和深度学习的方式,应用于机器视觉。从计算方面会做相应的机器视觉形成我们的计算框架,而算法上,我们与商业伙伴共同合作,例如英特尔之前收购了Itseez和其他公司,将他们机器视觉算法应用到我们的计算框架和平台上。

机器视觉解决了看的问题,解析这些摄取到的图像有赖于智能化程度。3D机器视觉对人工智能带来新的挑战。机器视觉在“看”以后我们要去“想”,通过深度学习、神经网络的方式把它变成可学习的场景,同时这些场景我们可以把它彻底的泛化。徐伟杰分析,这样的过程面临着一个挑战,因为我们看到的场景非常多,深度学习对计算能力和计算时间提出更高要求。但是,自动驾驶方对实时性是有要求的,这跟后端的智能学习不一样。同时对于能效也有要求,如果功耗太大在车上很难实现。总而言之,在过程中面临的挑战,一是如何提高它的时效性、实时性。第二是如何提高它的能效比。第三,自动驾驶整个领域现在是新兴领域,所有的算法、方案,没有形成一个真正的工业标准,算法在三个月内会有一次更新,会有翻天覆地的变化。如何能够保证设计在这种变化中具有足够的灵活性,这也是我们要探讨的。

当前英特尔如何解决这三个问题。第一,如何解决实时性的问题。英特尔现在有一套端到端的解决方案,同时也有英特尔®GO™平台,从芯片级到软件、SDK,同时从系统架构设计来保证符合自动驾驶对于实时性的要求。第二,能效比,英特尔在自动驾驶方案上采用分布式体系结构,从而保证计算可以分布到不同的处理器上,并且每一个处理器都有它的特点,让算法在这个处理器上达到最优,也保证它的能耗最优。第三,英特尔收购了Altera,FPGA作为自动驾驶整个系统平台上一个辅助的加速器,是一个可拓展的产品,保证了在算法变化时,FPGA可做出相应的拓展。 FPGA现在从工业界来看,用来做深度学习等计算时,它的单位功耗是最好的。也就是说,同样的工作,做同样的计算处理时,它的功耗是比较低的。

处理大量实时数据需要密集的运算能力,要实现稳定的3D感测影像变得困难,分布式体系架构对于平衡性能和功耗起到关键作用。同时也在平衡算法需求。徐伟杰表示,在自动驾驶上,算法实际上是一种多样性的算法,有一些是深度学习的算法,它需要特别强的并行计算能力。有一些是类似于人脑逻辑的前期的预测判断性算法,这种判断性算法需要很强的逻辑推导和很强的传统CPU的计算能力。英特尔现在所做的工作就是采用一种分布式方式,把这些有特点的算法分布到对应的处理器上去,构建处理计算框架,来保证这种算法是对症下药,从而保证了它在性能和功耗上得到最大优化。

各大厂商都在积极布局无人驾驶,我们看到英特尔在处理器、5G、云计算等方面都有全面的部署。徐伟杰表示服务器端和汽车端均拥有一整套的解决方案,以及5G连接。在今年CES上英特尔发布GO™平台,提出一个端到端的解决方案。这个端到端的解决方案不是所说的进和出这样端到端,而是说明我们会在服务器阶段,从数据的采集、数据的存储到人工智能的训练,到整个自动驾驶方案的模型的形成,模型的仿真,到将来车端的工程化。同时在汽车端我们也有一整套的解决方案,从服务器端过来的模型支持从perception到sensing fusion到driving strategy到execution整个的过程中,我们也有一整套的芯片与计算平台的解决方案。再加上无延时的5G的连接,从而形成了自动驾驶从数据采集到最后自动驾驶上车,完整的端到端解决方案。

英特尔以前在机器视觉perception阶段,在汽车的数据和算法有相应的不足,收购Mobileye 实际上把这一块补足了。同时在服务器端,类似于人工智能英特尔也收购了Nervana,从而形成一个链状的整体解决方案。

无人驾驶汽车的机器视觉在体系架构中得到性能和智能提升,而这无时无刻不伴随着汽车安全性的考量。“英特尔非常重视安全性,安全涉及到两个方面,第一是function safety。第二是security safety。为此投入很大的人力物力,同时我们也建立了内部相应的流程。其中function safety方面需要认证流程,同时我们也收购了做OTA升级的公司,可以说,英特尔现在对安全方面做了系统的思考和补足。”

3D机器视觉全面走向众多应用领域,开放式的平台能集结更多合作伙伴。英特尔计算平台正以开放式,同时关注底层芯片的计算能力和计算框架,令更多的不同领域对这些计算框架不同级别的应用,比如工业自动化、机器人等,都有不同的合作伙伴。对英特尔来说更关注的是如何加速计算,如何方便客户应用,从这个角度规划开放式的计算平台。

移动市场应用带动3D视觉 与AI融合

随着产品制造要求高品质、高精度的需求变化,3D机器视觉已经由开发试用阶段发展成实际应用的状态,并且以惊人的速度在扩散至各个制造领域,甚至是生活消费领域。而目前推动3D机器视觉技术开发的主力市场,晶焱科技总经理姜信钦博士认为还是以汽车与制药行业为主。若就3D机器视觉的未来前景做预测,识别应用市场应该是最醒目的市场,它会让3D机器视觉技术同时开枝散叶到制造环境及生活环境中。 20170717-AI-2 现在,构建一个很好的3D视觉系统的必要技术似乎都已面世,但利用这些技术开发出完整、低功耗的集成方案的进展仍然缓慢。CEVA 多媒体产品市场总监Yair Siegel接受国际电子商情采访时表示,这一技术的成败仍然取决于移动市场的采纳与否,苹果自然是关键,谷歌(Project Tango)作为第二大驱动力量也很重要,他们能够带动3D视觉市场真正发展起来。而主要因素还是在于移动市场的规模经济效应。一旦得到移动市场采纳,3D视觉就能够拓展到其它市场,比如消费电子、机器人和企业级应用等市场。此外,像亚马逊的ECHO等家用设备也会推动3D视觉的发展。AR/VR可穿戴设备市场已经有大量投资进入,这也会促进3D视觉的发展,因为它是更好地融合现实和虚拟物体的关键器件。

3D较2D可识别图像更有深度更立体、精确,但对图像处理性能的要求更高,对软硬件提出更大挑战。要想获得很好的3D用户体验,需要结合各方面的技术,比如好的传感器、算法、实时边缘处理,以及低功耗以确保很好的电池续航能力。现今市场上有很多不同的3D方案,比如Time-of-Flight或Lidar、Structured-light、被动立体成像、主动立体成像等。每种技术都有其优缺点,主要挑战是如何能够淡化弱点,以合理的成本向市场推出集成方案一个比较好的选择是集成几种技术,这要求比较强的处理能力。CEVA的视觉平台是一种可编程DSP,可以在设备端实现低功耗视觉处理。因此,视觉平台可以帮助市场达到这个目标,让3D视觉技术快速进入大批量生产阶段。

“精密“是3D机器视觉技术主要的挑战,精密的识别、精密的控制、可持续维持精密识别与控制的能力,这些都是智慧型制造产线所需要的功能。为满足这些精密要求,目前3D机器视觉技术的开发还是着重在硬体的开发上,譬如高功能电路板、摄像头、信号处理器、光学元件、照明元件、图像辨识元件等,这些组件必须要很可靠地互相连结、互相沟通、互相协作,要对环境杂讯有高抗受能力。基于此,姜信钦表示晶焱在提高3D机器视觉系统对环境杂讯的高抗受能力有一系列完整有效的IC零组件方案提供,包括抗静电杂讯、抗浪涌杂讯、抗过电压杂讯、以及过电源电压保护元件等。 20170717-AI-3 仅仅有视觉显然不够,深度学习是AI和智能设备的起点。姜信钦分析,深度学习所面临的挑战莫过于即时的大数据处理能力,因为接收到的数据就是超大量的数据,而要处理这些数据的数学模型就会越趋複杂,衍生出来的训练模型也是很复杂,并且导引出付的模型设定参数,这都增加了运算速度的压力。为了达成即时的大数据处理能力,硬体的提升是必要的,增加一切动作的运算速度唯有硬体能解决,至于软体的发展则著重在平台的开发,这需要大量新的演算法被开发出来。

“现在的问题是大部分深度学习发展都还处于实验室阶段,要将这些算法应用于嵌入式摄像头是一项复杂的任务,而现有的处理引擎又不适合这些算法。深度学习网络中的存储带宽也很快成为瓶颈。”Yair Siegel表示,CEVA的视觉处理器可以支持繁重的深度学习算法,使其适用于低功耗运行的嵌入式设备。CEVA很早就涉足这一领域,并且已经开发出一种软件工具包,可以“一键式”简便地从实验室网络迁移到嵌入式适用的网络,实现性能和存储带宽的优化。过去一年我们也赢得很好的市场认可,预计近期就会有一批新的设备使用我们的技术,可以让深度学习在设备端单独运行,或与3D视觉及其它成像技术结合使用。

虽然3D成像和机器视觉技术的难题是独特的,但它们与其它嵌入式功能,比如CEVA已经开发多年的蜂窝基带,也有很多内在的共性。CEVA的视觉IP平台专注于为低功耗设备提供高性能可编程引擎,并且提供一系列开发工具和IP库,从而可以让合作伙伴缩短开发周期,提早进入批量生产。CEVA用于简化运算的一些技术包括有效使用定点运算的方法,以及快速将重度图像处理负荷从通用引擎转移到专用视觉处理器。

当下最热门的3D技术莫过于由iPhone 7 plus带动的立体摄影成像。在这支手机中,3D视觉获取的信息可以实现背景虚化 (Bokeh) 效果,从而将物体与其背景分开。CEVA的视觉DSP可以在设备端以高分辨率运行背景虚化处理,同时保持手机的电池续航能力。此外,也可以实现其它利用这类深度信息的功能。一个实际的设备是Asus ZenFone 3 zoom,这支手机包含一个由CEVA客户设计的SoC芯片,可以在手机上实现上述功能。另一个例子是实现类似Tango的3D体验,这种AR技术可以构建一个虚拟的3D物体,将其融入现实世界的场景,看起来栩栩如生。CEVA的视觉DSP还可以实现复杂的多种技术融合,在一个设备上同时运行3D视觉、本地化、映像以及物体识别。

目前3D视觉向智能手机等终端设备导入,例如联想支持Tango技术的手机Phab2Pro,据称苹果新一代手机前置摄像头也将采用3D传感器。工业自动化、智能驾驶、机器人也是热门领域。实际上这是不同市场的科技公司已经铺排好的路径,这意味着IC供应商必须使用专用视觉处理器来完成这些复杂的任务,而不是使用CPU和GPU等通用型引擎,因为它们不是专门为此任务设计的,处理效率不够高。

这也要求软件算法开发团队进一步提升这些产品的质量。传感器和模块开发商也需要将传感器与IC和计算模块进一步集成,无论是以堆叠裸片的形式还是仅仅紧凑排列,这样才能实现高效和低成本的快速处理方案。因此,我们将看到更加智能、集成度更高,而且成本更有效的摄像头。

3D视觉会有大量的摄像头,这些摄像头会暴露在高杂讯的工作环境中,性能的要求已被应用端所决定,并没有太大的妥协空间存在,因此开发低功耗的硬体零组件与系统及变成重点。要实现一个低功耗的系统的方式,就是大量采用IC零组件。而当大量低功耗、高性能的IC零组件聚在一起工作,工作环境的杂讯会是一大杀手,因此这样的低功耗系统,抗环境杂讯防护设计就变成是必须的。

面对复杂的3D机器视觉技术需求,单独的强势无法造就出完善好用的3D机器视觉系统产品。晶焱的规划即是与3D机器视觉系统产品的硬体开发商维持密切的合作联盟关系,对抗环境杂讯防护设计做最深入的研究与开发,以提出最符合软硬体所需要的抗环境杂讯能力的防护设计。

CEVA与供应生态链中的不同供应商合作,不断改进处理引擎,扩展生态系统和可用算法以配合这种智能摄像头的发展。这将是容纳数十亿计设备的市场机遇,在未来几个月以至未来数年,配备有这种改善的图像传感器的新式智能设备将大量涌现,实现3D视觉与AI功能的融合。

支持原创,版权所有

2017-ESM-1