计算机已经可以识别你的形象,但他们可以看到一个视频或真实世界的物体,并告诉到底发生了什么呢?
研究人员正试图让计算机视频识别成为现实,而他们使用的是一些图像识别技术来实现这一目标。
谷歌大脑团队的张力流工程总监Rajat Monga说,谷歌内外的研究人员在视频识别方面取得了进展,但仍有挑战需要克服在Quora上提问和答问大会本星期。
视频识别的好处是巨大的。例如,计算机将能够识别一个人的活动、一个事件或一个位置。视频识别也将使自动驾驶汽车更可行。
视频识别有到机器人,那么这可能是能经常做家务事像洗衣给数字眼中的潜力。
图像识别现在很常见,但视频识别涉及到对一串相关的图像进行分析,这些图像按顺序聚在一起。视频识别类似于人类视觉,我们看到一系列相关图像,立即识别物体,并确定我们周围发生了什么。
在视频识别许多收益都来了,多亏进步的深学习模型驱动图像识别。
“随着每一个都彼此相关的视频帧序列,它提供了真实世界的更丰富的视角,使模型创造世界的3D视图,而不一定需要立体视觉,”艋舺,说谁通向TensorFlow,从谷歌的开源机器学习软件堆栈。
在深度学习的情况下,也有相关的图像识别挑战。计算机能够识别图像中的一些项目,但不是万能的。这是一个缺点,当谈到就像给人类般的眼光机器人的目标。
通过视频识别真正的人的愿景是“还很遥远,”艋舺说。
计算机需要通过训练来识别在深学习模型图像,并有可以在图片被用来交叉引用对象的大型资料库。像ImageNet,其中有大约14万张图片,大型数据集,增进了视觉识别。但是,仍需要更大的数据集,艋舺说。
在谷歌研究人员正在努力提高视频识别。该公司的研究人员正在研究深学习如何帮助与手眼协调能力的机器人,并通过预测视频学习。
谷歌正在AI其云业务的重要组成部分,并使用机器学习为谷歌现在,街道地图和其他服务。谷歌之外的,深度学习也正在使用自动驾驶汽车巡航街道安全。公司还利用人工智能摆脱在代码中的错误的。
深度学习 - 训练和推理 - 与更快的计算,算法和数据集越来越好,但仍有很多改进的余地,艋舺说。
更快的硬件和定制芯片像谷歌的机器学习张量处理单元的上升有助于推动深度学习。在GPU上低级别的计算今天开车最深处的学习模式,但速度更快的硬件将会使学习和推理更快。
“这仍然是即使我们正在定制芯片是一个挑战,还有更多的[计算],持续需求”艋舺说。
还有一个需要更大的数据集和更多的算法,提供基本的公式进行深学习操作。
训练神经网络,训练深学习模型“是辛苦没有足够大的数据集,”艋舺说。
机器学习正在快速增长,许多企业都采用谷歌的工具。谷歌的TensorFlow的变体已经被像Nvidia和Movidius公司(这是由英特尔收购)用于服务器和嵌入式设备开发。
谷歌、亚马逊、Facebook、微软和IBM本周也成立了人工智能合作组织,以建立最佳人工智能实践。出资人埃隆·马斯克、彼得·泰尔、萨姆·奥特曼和杰西卡·利文斯顿已承诺向快速发展的开放人工智能项目投资10亿美元,该项目正成为IT行业人工智能活动的神经中心。