制造一辆自动驾驶汽车应该不难,但这需要一段时间。多年来,自动驾驶汽车一直是头条新闻,但我们中很少有人坐过,甚至没人见过。我们知道驾驶飞机比驾驶汽车要困难得多,但几十年来,飞行员们一直享受着自动驾驶的乐趣。到底发生了什么事?
答案是清晰的,或者更准确地说,清晰的愿景。几十年来,飞行员一直在晴朗开阔的天空中使用自动驾驶仪。道路更加复杂。
操作车辆的实际机制(加速,制动,转向等)都是很好的理解和可编程的。大多数驾驶规则和逻辑也是可编程的。但是理解和指导视觉是非常复杂的。好消息是,我们正在取得令人难以置信的进展,这项技术将产生深远的影响。
人工视觉的复杂挑战
当史蒂夫·乔布斯想让Mac给人留下深刻印象时,他在1984年的发布会上安排Mac向人们问好。然而,尽管计算机已经“说话”了30多年,我们仍然没有掌握人工视觉。
视觉本身是一种强大的感官,它与味觉和听觉等其他感官相辅相成。视觉远比我们的其他感官复杂,因为它与大脑紧密相连,负责解释我们所看到的图像。我们会反射性地远离热的东西以避免烧伤,但理解视觉威胁通常需要认知处理。
+也在网络世界:有个足球雷竞技app人工智能在企业中的应用:已经开始+
汽车和计算设备经常配备温度、速度和其他传感器,但对视觉的最好描述是一匹不同颜色的马。尽管自动驾驶汽车配备了20多个摄像头和复杂的激光雷达系统,但它们仍然难以看清对人类来说显而易见的东西。几个例子说明了这是多么复杂。例如,在一个特斯拉自动驾驶的不幸事故,汽车无法区分卡车拖车的侧面和阴天。
深度学习教电脑看东西
数码摄影已经走过了很长的一段路,但理解图像中的内容还是一件新鲜事。用程序定义来教计算机“看”是不实际的。相对于机器学习,计算机视觉最好通过深度学习来完成。深度学习是人工智能(AI)的一种形式,它模仿我们从例子中学习的方式。由于计算机没有眼睛,视觉“体验”来自数十亿张照片。
最近在计算机视觉上的突破利用因特网来创建巨大的编目图像资料库。在2015年,ImageNet在167个国家雇佣了5万名工人,对近10亿张图像进行清洗、分类和标记,以便计算机学习识别。
10亿张图片可能看起来很多,但与人类童年时期看到的相比,这根本算不了什么。儿童可以通过视觉体验区分猫和狗,而不是定义。为了复制从经验中积累的知识,ImageNet的照片有详细的描述。结果呢?使用数据库的计算机可以一致地区分猫和狗的图像。
这一发展听起来微不足道,直到你想到猫可能出现的所有不同大小和颜色,以及猫可能进入的位置和情境——更不用说可能被误认为是猫的诱饵,如玩偶和枕头。计算机视觉有史以来第一次成为现实。
开发更复杂的人工智能愿景
自动驾驶汽车不仅需要识别物品,还必须预测操作。当信号灯变绿时,汽车、摩托车、自行车和行人都有不同的预期动作。
我们被计算机和相机包围,很容易忘记计算机视觉有多么有限。我们为视力受损的机器创造了完整的变通方案。例如,我们的钱有隐形代码,所以我们可以支付机器。我们进入停车场要买票,因为计算机无法通过其他方式跟踪我们的车的进出。我们把条形码贴在所有产品上,这样电脑就能“看到”番茄酱和芥末酱的区别,而这种条形码对人类来说是毫无视觉意义的。
计算机现在可以识别不同的汽车制造商和型号。这导致了一个大数据分析的宝库,揭示了汽车类型(和价值)与周围犯罪率、房地产价格甚至选举结果之间的关系。
很久以前,当我在大学里停车时,我在镜子上挂了一张大的(昂贵的)停车证,让停车管理员看到。我儿子的学校就不介意。相反,他们驾驶一辆装有摄像头的车辆在停车场周围,根据付费停车许可证数据库检查车牌。既然电脑可以很容易地读取车牌,为什么还要费力地使用标签呢?
未来的人工智能愿景
计算机视觉正受益于一些正在经历快速创新的技术,包括人工智能、大数据、生物识别和数字成像。当电脑学会看的时候,我们要给它们更多的看的东西。
例如,在东京,我看到NEC杂货店的结账系统,当收银员把它放在秤上时,它可以准确地识别不同类型的农产品。它甚至可以区分不同类型的红苹果——可能比许多人类收银员还要好。
视觉的最大优点是它是被动的。考虑一下带有雷达和雷达探测器的速度捕捉器的猫鼠游戏。未来的测速器可以简单地使用两个摄像机位置来确定速度,而不用雷达。摄像头还可以确定司机和车牌——所有这些都是用被动视觉而不是主动无线电信号。
随着计算机变得有能力,它们将开始发挥除驾驶以外的全新作用。考虑:
- 电脑辅助救生员可以分辨出一个孩子是否在游泳池里溅水或溺水
- 监视计算机识别可疑人员的场所
- 视频软件,当它看到一个干扰或医疗情况,或当排队太长,需要打开一个额外的寄存器警报管理
- 森林火灾监测计算机甚至可以监测偏远地区的野火迹象
除了指纹,视频生物识别技术还包括面部识别。公共安全显然是一个机会。不久之后,城市里的摄像头将自动完成这一工作,而不是根据每个案件来检查想要的东西和搜查令。许多国家现在在人们通过护照检查进入时拍照。
与会员卡相比,计算机视觉也将改变零售研究。摄像头还可以取代购物卡,直观地追踪顾客的忠诚度。相机可以确定谁(年龄、性别、种族)在购买什么产品,他们花了多长时间做出决定,甚至他/她是否阅读了标签或认为是竞争产品。
反欺诈核查也出现了新的机会。万事达卡已经使用自拍打击诈骗.优步最近增加了自拍功能对其驱动程序登录过程进行额外的验证措施。
在过去,尽管计算机几乎是看不到的,但它已经渗透到我们社会的几乎每个部分。当他们模仿视觉的能力增强时,你(和他们)还没有看到任何东西。