本周IBM表示,它的语音识别系统设置了一个5.5%字错误率的行业记录,这是一个百分比,让计算机理解人类谈话几乎以及普通人所做的。
根据IBM的说法,人的平等性被认为是5.9%的错误率,但IBM与语音和技术服务提供商Appen合作,重新评估了行业基准,确定人的平等性比任何人达到的都要低:5.1%。
+更多网络世界:有个足球雷竞技appGartner:大网络变化核心的人工智能,算法和智能软件+
“达到人类平等——即错误率达到两个人说话的水平——一直是该行业的终极目标。”业内的其他公司也在追赶这一里程碑,有些公司最近宣称,5.9%的增长率相当于人类的平均水平,但我们还没有开香槟庆祝。作为我们达到今天这一里程碑的过程的一部分,我们确定人类的平等性实际上比任何人所达到的都要低——5.1%。博客就此主题而言。
然而,重新评估可能会像羽毛一样褶皱十月微软人工智能和研究小组表示它的语音识别系统已经达到“人类奇偶校验”,而不是人类职业转录师的误差。
“专业转录员的错误率为数据的交换机部分为5.9%,其中新熟悉的人对讨论了一个指定的主题,而且为朋友和家庭成员具有开放式对话的呼叫组合的11.3%。在这两种情况下,我们的自动化系统建立了一种新的最先进的,并通过人的基准。这个标志着人类奇偶校验是为了对话演讲,“研究人员写在他们的纸。切换器是用于语音识别测试中使用的标准的会话语音和文本集。
5.9%的错误率大约是等于被要求转录同一对话的人,并且它是曾经录制的最低记录,以违反业界标准交换机语音识别任务,微软在它的网站上写道。
IBM的Saon写道:“我们也意识到在整个行业中找到了人类奇偶校验的标准测量比似乎更复杂。除了交换机之外,另一个名为“Callhome”的行业语料库,提供了一个可以测试的不同语言数据,这些数据是从家庭成员之间的更多口语对话而非预先固定的主题创建的。来自Call Home数据的对话对于转录的机器比来自交换机的机器更具挑战性,使得突破性地实现突破。(关于这个语料库,我们实现了10.3%的单词错误率 - 另一个行业记录 - 但同样,随着Appen的帮助,在同样的情况下测量人类性能为6.8%)。“
此外,IBM博客,哥伦比亚大学计算机科学系教授和主席Julia Hirschberg评论了语音识别的挑战:
“认识讲话和人类的能力是一个持续的挑战,因为人类言论,特别是在自发的谈话中,非常复杂。定义人类表现也很困难,因为人类也有所不同,因为他们理解他人的讲话的能力。当我们对人类表现的自动识别进行比较时,将这两件事情考虑起来非常重要:识别器的表现以及估计同一演讲的性能方面的表现,“她分享。
语音识别的突破是经过数十年的研究语音识别,开始于20世纪70年代初美国国防部高级研究计划局Microsoft写道。随着时间的推移,大多数主要技术公司和许多研究组织开发了语音识别技术,包括BBN,Google,Microsoft,Hewlett Packard和IBM。
看看其他的热门故事:
Cisco Talos警告新的Cryptolocker Ransomware竞选活动
Extreme Grabs Avaya的网络业务以1000万美元