通过Brian Egler.那有个足球雷竞技app |

关于|

Brian Egler McSe / MCT是全球知识的Microsoft SQL Server课程总监。他拥有超过15年的SQL Server经验。每年他每年都在培训波士顿马拉松癌症研究。

邮件中的目录太多了？模糊查找可能有所帮助！

你有没有接受过不必要的目录？或来自同一公司的多个目录？嗯，有一个很酷的新网站，可以帮助您消除不需要的目录，以简化您的生活，并节省自然资源。听起来不错？这里是http://www.catalogchoice.org/。但是为什么我们从同一家公司获得多个目录？甚至想要的......答案是：这些公司没有使用“模糊”技术。SQL Server Integration Services（SSIS）有几个新的转换，称为模糊查找和可能有所帮助的模糊分组。

SSIS是来自Microsoft的新ETL（提取，转换和加载）工具，取代了使用SQL Server 7.0和SQL Server 2000提供的上一个DTS工具。如前一个博客条目所讨论的，SSIS具有新的复杂程度，这意味着它可以与昂贵的第三方ETL工具竞争。它包括一个新的查找变换，允许您在现有客户列表中进行完全匹配。但如果我们没有完全匹配，怎么办？例如，该公司可能会收集来自各种来源的潜在客户信息，如市场调查，推荐或合作伙伴网站。我们可能已经完成了一种形式，中间名和另一个表格。或许我们在我们的地址上使用了“Street”这个词，然后是“圣”另外一个。或者在数据条目期间也许只有拼写错误。结果可以是同一个人的多个条目和邮件中的多个目录。

模糊查找转换将匹配输入数据源和参考表之间的一个或多个列，然后将基于数据匹配的关闭方式提供“相似性”分数。此内部算法将在0到1之间提供1之间的分数，1是完全匹配的1。然后它只是决定使用条件分割变换接受阈值的问题。例如，您可以将.70定义为相似阈值。具有相似性分数的行为.70或更大的行将被视为重复项，因此确定了我们示例中的现有客户。少于.70将被判断为新客户。例如，“111百老汇”和“111百老汇Ave”的示例地址列值给出了0.77的相似度得分。

但是，如果我们想在单个输入数据源中删除重复项，该怎么办？这就是模糊分组转变接管的地方。使用相同的算法，可以比较多列，并且再次，条件分裂将基于阈值去除重复项。在我们的示例中，它将删除新客户的重复条目。

最终结果：邮件中没有更重复的目录。但是，由你来阻止首先来的目录......

干杯

布莱恩

最近的帖子：

2008年报告设计师教授旧狗的新技巧

不要通过这些会议！

需要改变吗？试试katmai！

加入网络世界社区有个足球雷竞技appFacebook.和linkedin评论是最重要的主题。

微软

IT薪水调查：结果是