语义网:可以使用的工具

想要开始使用语义技术吗?这里有一些产品和服务,你可以看看。

文斯。菲奥拉蒙蒂在2001年有过一次顿悟。他认识到宝贵的投资资料越来越多地出现在网络上,而且越来越多的供应商正在提供软件,以便根据这些资料的重要性和相关性来捕捉和解释这些资料。

“我已经有一支分析师阅读并试图在公司上摘要财务新闻,”哈特福德,康福德的投资公司阿尔法股权管理公司Fioramonti,合作伙伴和高级国际产品组合分析师。但这个过程太慢,结果往往是主观和不一致的。

次年,菲奥拉蒙蒂获得了执照Autonomy Corp.的语义平台、智能数据操作层(IDOL),自动处理各种形式的数字信息。然而,部署遇到了一个障碍:IDOL只提供了一般的语义算法。Fioramonti说,Alpha Equity将不得不指派一个由程序员和金融分析师组成的团队来开发与金融相关的算法和元数据。由于造价太高,管理部门取消了这个项目。

有关语义技术(包括搜索)的更多信息,请参见本文的第1部分。语义Web涉及到业务”)。

阿尔法股权的突破出现在2008年,当时该公司签署了这一协议Thomson Reuters的机器可读新闻。该服务收集并分析来自3000名路透社记者的在线新闻,以及来自网络报纸和博客等第三方来源的新闻。然后分析和打分材料情绪(公众对一个公司或产品的感觉)、相关性和新颖性。

结果将其流向客户,包括公共关系和营销专业人员,股票交易员进行自动化黑匣子交易和投资组合经理,他们将这些数据纳入长期投资决策。

Fioramonti说,每月订阅这项服务并不便宜。根据一项估计(汤森路透不愿置评),实时数据更新的成本在每月1.5万至5万美元之间。但Fioramonti表示,这项服务的价值足以证明Alpha Equity为此支付的价格是合理的。他表示,这些信息帮助提升了该公司投资组合的业绩,并使Alpha Equity得以超过竞争对手。他表示:“汤森路透(Thomson Reuters)为我们提供新闻和分析,因此我们作为定量从业者能够继续增长。”

Alpha Equity的经历并不是独一无二的。无论一家企业是决定建立自己的公司还是雇佣服务提供商,它通常都要付出高昂的代价才能充分利用语义网技术。如果搜索和分析的信息包含特定于特定业务域的术语,概念和首字母缩略词,则尤其如此。

这里概述了可以帮助企业部署和利用语义Web基础设施的内容,以及该技术要实现其潜力还需要哪些内容。

关键标准

在核心Tim Berners-Lee尚未实现的愿景语义网的特点是联合搜索。这将使搜索引擎、自动代理或应用程序能够查询Web上成百上千的信息源,发现并语义上分析相关内容,并准确地检索用户正在寻找的产品、答案或信息。

虽然联邦搜索正在捕捉 - 最符合在Windows 7中它支持将其作为一种特性——它距离Webwide现象还有很长的路要走。

为了帮助联合搜索获得吸引力,万维网联盟(W3C)已经开发几个关键标准定义基础设施的基本语义基础架构。它们包括以下内容:

简单的协议和RDF查询语言(SPARQL),它定义了用于查询和访问数据的标准语言。

资源描述框架(RDF)和RDF架构(RDFS)描述了如何在语义本体中表示和结构的信息(也称为词汇)。

Web本体语言(OWL),它提供了对本体更丰富的描述,还包括一些RDFS元素。

这些标准的最终版本由领先的语义网平台供应商提供支持,如Cambridge Semantics、Expert System、Revelytix、Endeca、Lexalytics、Autonomy和Topquadrant。

主要的网络搜索引擎,包括谷歌,雅虎微软必应(Bing)开始使用语义元数据对搜索进行优先排序,并支持RDF等W3C标准。

企业软件供应商,如Oracle,SAS Institute和IBM也在船上跳跃。他们的产品包括Oracle Database 11g语义技术,SAS本体管理IBM的InfoSphere BigInsights

语义基础知识

语义软件使用各种技术来分析和描述数据对象的意义及其相互关系。其中包括通用的、通常是特定于行业的术语定义词典,以及语法和上下文分析,以解决语言的歧义,比如具有多重含义的单词。

解决语言歧义的目的是帮助确保使用“二手红色汽车”等诸如“二手红色汽车”等顾问的购物者将从使用略有不同的含义,例如“前- “而不是”使用“和”汽车“而不是”汽车“。

有关语义技术(包括搜索)的更多信息,请参见本故事的第1部分。语义Web涉及到业务。“它探讨了该技术的潜在用途和回报,并具有真正的业务案例,包括涉及的业务案例情感分析的运用。它还为任何计划的沟渠提供了一些最佳实践和提示,或者至少考虑部署。

W3C标准旨在解决各种组织组织,描述,当前和结构信息的方式中的不一致,从而为跨域语义查询和联合搜索铺平道路。

为了说明使用这些标准的优势,Revelytix中首席执行官迈克尔•朗火花,bethesda ontology-management工具制造商提供了下面的场景:如果200年在线消费电子产品零售商使用语义Web标准,如RDF开发本体描述他们的产品目录,Revelytix中软件可以使信息通过SPARQL查询点。然后,朗说,网上购物者可以使用与w3c兼容的产品浏览器在这些网站上搜索产品的工具,使用诸如:“显示所有42-52英寸的平板电视,并根据价格对结果进行排名。”

搜索引擎和一些第三方购物网站提供产品比较,但这些比较往往限于给定搜索所涵盖的属性范围。此外,购物者经常会发现第三方购物来源提供的数据是过时的,或者是不正确的,或者是有误导性的——例如,它可能没有关于某一特定尺寸或颜色的可用性的准确信息。通过商家自己的网站进行基于标准的查询,将使购物者能够比较商家自己提供的更丰富、更最新的信息。

W3C SPARQL工作组目前正在开发一个SPARQL服务描述设计标准化SPARQL端点或信息来源,如何展示他们的数据,与特定的标准,他们是如何描述的类型和数量的数据,技术副总裁Lee费根鲍姆说剑桥语义和W3C SPARQL工作组的联合主席。

构建模块和软件工具

可以使用工具、平台、预先编写的组件和服务来帮助语义部署减少时间、技术复杂性和(或多或少)成本。下面简要介绍一些选项。

耶拿是一个用于构建语义Web应用程序的开源Java框架。它包括用于RDF,RDF和OWL,SPARQL查询引擎和基于规则的推理引擎的API。另一个平台,芝麻,是一个用于存储,推断和查询RDF数据的开源框架。

大多数领先的语义Web平台都有知识库库,描述一般术语,概念和首字母缩略词,为用户提供创建本体中的运行开始。“客户需求相互冲突:让平台能够以精确的答案从框中返回,并将其量身定制于他们的业务领域,”lexalytics产品管理副总裁Seth Redmore说。

为了解决这个难题,Lexalytics主要把它的语义平台卖给服务提供商的合作伙伴,然后由他们针对特定的业务领域和应用程序对其进行微调。汤森路透(Thomson Reuters)的机器可读新闻服务就是一个例子。

其他平台供应商一直在推出特定于业务的解决方案。例如,Endeca提供应用程序开发工具包对于电子商务和企业语义应用,包括电子商务和电子商务的特定产品。

还有工具可以将语义元数据和W3C标准自动合并到现有的信息体中。例如,Revelytix中世爵的公用事业根据LANG,自动将结构化和非结构化数据变换为RDF。然后,它会呈现或“广告”,Web上的信息作为符合SPARQL兼容浏览器可以访问的SPARQL端点。

一个名为的开源工具D2RQ可以将选定的数据库内容映射到RDF和OWL本体,使符合sparql的应用程序可以访问这些数据。

Revelytix销售一种兼容w3c的知识建模工具,称为knoodl.com.,这是一个基于wiki的框架,旨在帮助从技术专家、主题专家到业务用户的所有人协作开发语义词汇表,用于描述和映射驻留在多个Web站点上的特定于领域的信息。根据Lang的说法,感兴趣的社区可以使用Knoodl.com来访问、分享和改进这些知识。

例如,咨询Dachis集团开发了所谓的社会企业设计架构,它的目的是帮助用户合作,分享想法,然后缩小和“公开和理解”数据在业务组织或其他社区相关的个人,如客户或合作伙伴,Lee说科比,公司的欧洲业务的董事总经理。

这样的产品可以显著地减轻开发语义基础设施的任务。例如,Bouygues Construction使用了Sinequa的语义平台,上下文引擎根据Bouygues电子服务和知识管理主管Eric Juin的说法,只需要大约6个月就完成了定位内部专业知识的语义系统的初步实现。

Juin说,自从开发了一个关于知识工作者的语义搜索应用程序,帮助知识工作者能够快速查找驻留在内部系统或网上的信息。

他说,上下文引擎对50万份文档中人物和概念的相关性进行了索引和计算,这些文档包括会议纪要、产品情况说明书、培训材料和项目文档。据Juin介绍,该平台包括一个包含常用词和术语的“通用语义词典”,可以在各种语言之间进行翻译。例如,法国员工可以搜索用德语编写的文档。

Juin说,必须手动增加某些特定于经营的特定缩略语和条款 - 这是一个需要语义专家与商业用户合作的持续进程。然而,随着时间的推移,他的小组一直在增加了更少的关键字定义,因为语义引擎可以使用其他相关词来确定与特定主题的术语相关性。

SaaS选项

缺乏构建自己的语义Web基础架构的内部资源的公司可以遵循Alpha Equity的领导,并使用第三方提供的语义服务。

一个这样的提供者是汤森路透社,除了它的机器可读新闻服务外,还提供了一个名为的服务Opencalais.通过它为客户提交的内容创建了语义元数据。Chomson Reuters的副总裁Thomas Tague表示,客户可以部署用于搜索,新闻聚合,博客,目录和其他应用程序的标记内容。

OpenCalais还包括一个免费的工具包,客户可以使用它来创建自己的语义基础设施和元数据,并建立与其他Web提供商的链接。据塔格说,该服务现在每天处理超过500万份文件。

DNA13(现在的部分CNW集团),锂技术(现在是Scout Labs的所有者)和Cymfony都是语义服务提供商,它们查询、收集和分析基于web的新闻和社会媒体,着眼于在品牌和声誉管理、客户关系管理和市场营销等领域帮助客户。

什么时候语义网才真正重要?

在一个2010年皮尤研究调查在大约895名语义技术专家和利益相关者中,47%的受访者认为到2020年,Berners-Lee的语义Web愿景不会实现,也不会对终端用户产生重大影响。另一方面,41%的受访者预测会这样。其余的人没有回答这个问题。

相关:
12 第1页
第1页共2页
IT薪水调查:结果在