你有没有接受过不必要的目录?或来自同一公司的多个目录?嗯,有一个很酷的新网站,可以帮助您消除不需要的目录,以简化您的生活,并节省自然资源。听起来不错?这里是http://www.catalogchoice.org/。但是为什么我们从同一家公司获得多个目录?甚至想要的......答案是:这些公司没有使用“模糊”技术。SQL Server Integration Services(SSIS)有几个新的转换,称为模糊查找和可能有所帮助的模糊分组。
SSIS是来自Microsoft的新ETL(提取,转换和加载)工具,取代了使用SQL Server 7.0和SQL Server 2000提供的上一个DTS工具。如前一个博客条目所讨论的,SSIS具有新的复杂程度,这意味着它可以与昂贵的第三方ETL工具竞争。它包括一个新的查找变换,允许您在现有客户列表中进行完全匹配。但如果我们没有完全匹配,怎么办?例如,该公司可能会收集来自各种来源的潜在客户信息,如市场调查,推荐或合作伙伴网站。我们可能已经完成了一种形式,中间名和另一个表格。或许我们在我们的地址上使用了“Street”这个词,然后是“圣”另外一个。或者在数据条目期间也许只有拼写错误。结果可以是同一个人的多个条目和邮件中的多个目录。
模糊查找转换将匹配输入数据源和参考表之间的一个或多个列,然后将基于数据匹配的关闭方式提供“相似性”分数。此内部算法将在0到1之间提供1之间的分数,1是完全匹配的1。然后它只是决定使用条件分割变换接受阈值的问题。例如,您可以将.70定义为相似阈值。具有相似性分数的行为.70或更大的行将被视为重复项,因此确定了我们示例中的现有客户。少于.70将被判断为新客户。例如,“111百老汇”和“111百老汇Ave”的示例地址列值给出了0.77的相似度得分。
但是,如果我们想在单个输入数据源中删除重复项,该怎么办?这就是模糊分组转变接管的地方。使用相同的算法,可以比较多列,并且再次,条件分裂将基于阈值去除重复项。在我们的示例中,它将删除新客户的重复条目。
最终结果:邮件中没有更重复的目录。但是,由你来阻止首先来的目录......
干杯
布莱恩
最近的帖子: