热门标签 | HotTags
当前位置:  开发笔记 > 数据库 > 正文

匹配来自两个表的人口统计信息,没有唯一标识符

如何解决《匹配来自两个表的人口统计信息,没有唯一标识符》经验,为你挑选了1个好方法。

我具有表A和表B,其中包含以下示例人口统计数据和列。

表A:

F_Name  S_Name  DOB         SSN
David   Sam     1/1/1980    123-45-6789
David   Lieser  10/7/1940   987-65-4321
John    Doe     12/31/2001  500-00-0000

表B:

F_Name  S_Name  DOB      SSN
Dave    Sammy   1/2/1980 223-45-6789

没有可能用于连接两个表的唯一标识符。

通过查看上述样本数据,我想将David Sam 1/1/1980 123-45-6789(来自表A)和Dave Sammy 1/2/1980 223-455-6789(来自表B)返回为可能是同一个人–理由是DOB,SSN距离足够近,只有一位或几位数字掉了,这可能是由于人为数据输入错误造成的,而且名称听起来相似或相似或相似。我该如何实现?

F_Name S_Name DOB      SSN          F_Name_1 S_Name_1  DOB_1    SSN_1
David  Sam    1/1/1980 123-45-6789  Dave     Sammy     1/2/1980 223-455-6789

Littlefoot.. 5

Jaro-Winkler的相似性可能会有所帮助。看下面的例子:

SQL> with
  2  table_a (fname, sname, dob, ssn) as
  3    (select 'David', 'Sam'   , date '1980-01-01', '123-45-6789' from dual union all
  4     select 'David', 'Lieser', date '1940-10-07', '987-65-4321' from dual union all
  5     select 'John' , 'Doe'   , date '2001-12-31', '500-00-0000' from dual
  6    ),
  7  table_b (fname, sname, dob, ssn) as
  8    (select 'Dave', 'Sammy'  , date '1980-01-02', '223-45-6789' from dual
  9    )
 10  select a.fname, a.sname, a.dob, a.ssn,
 11         b.fname, b.sname, b.dob, b.ssn,
 12    utl_match.jaro_winkler_similarity(a.fname, b.fname) jws_fname,
 13    utl_match.jaro_winkler_similarity(a.sname, b.sname) jws_sname,
 14    utl_match.jaro_winkler_similarity(to_char(a.dob, 'yyyymmdd'), to_char(b.dob, 'yyyymmdd')) jws_dob,
 15    utl_match.jaro_winkler_similarity(a.ssn, b.ssn) jws_ssn
 16  from table_a a cross join table_b b
 17  where
 18        utl_match.jaro_winkler_similarity(a.fname, b.fname) >= 80
 19    and utl_match.jaro_winkler_similarity(a.sname, b.sname) >= 80
 20    and utl_match.jaro_winkler_similarity(to_char(a.dob, 'yyyymmdd'), to_char(b.dob, 'yyyymmdd')) >= 80
 21    and utl_match.jaro_winkler_similarity(a.ssn, b.ssn) >= 80;

FNAME SNAME  DOB      SSN         FNAM SNAME DOB      SSN          JWS_FNAME  JWS_SNAME    JWS_DOB    JWS_SSN
----- ------ -------- ----------- ---- ----- -------- ----------- ---------- ---------- ---------- ----------
David Sam    01.01.80 123-45-6789 Dave Sammy 02.01.80 223-45-6789         84         90         95      93

SQL>

我将限制设置为80,但您可能会做出不同的决定。删除该WHERE子句(第17-21行)并检查返回的结果,然后您将对所发生的事情有一个更清晰的了解。



1> Littlefoot..:

Jaro-Winkler的相似性可能会有所帮助。看下面的例子:

SQL> with
  2  table_a (fname, sname, dob, ssn) as
  3    (select 'David', 'Sam'   , date '1980-01-01', '123-45-6789' from dual union all
  4     select 'David', 'Lieser', date '1940-10-07', '987-65-4321' from dual union all
  5     select 'John' , 'Doe'   , date '2001-12-31', '500-00-0000' from dual
  6    ),
  7  table_b (fname, sname, dob, ssn) as
  8    (select 'Dave', 'Sammy'  , date '1980-01-02', '223-45-6789' from dual
  9    )
 10  select a.fname, a.sname, a.dob, a.ssn,
 11         b.fname, b.sname, b.dob, b.ssn,
 12    utl_match.jaro_winkler_similarity(a.fname, b.fname) jws_fname,
 13    utl_match.jaro_winkler_similarity(a.sname, b.sname) jws_sname,
 14    utl_match.jaro_winkler_similarity(to_char(a.dob, 'yyyymmdd'), to_char(b.dob, 'yyyymmdd')) jws_dob,
 15    utl_match.jaro_winkler_similarity(a.ssn, b.ssn) jws_ssn
 16  from table_a a cross join table_b b
 17  where
 18        utl_match.jaro_winkler_similarity(a.fname, b.fname) >= 80
 19    and utl_match.jaro_winkler_similarity(a.sname, b.sname) >= 80
 20    and utl_match.jaro_winkler_similarity(to_char(a.dob, 'yyyymmdd'), to_char(b.dob, 'yyyymmdd')) >= 80
 21    and utl_match.jaro_winkler_similarity(a.ssn, b.ssn) >= 80;

FNAME SNAME  DOB      SSN         FNAM SNAME DOB      SSN          JWS_FNAME  JWS_SNAME    JWS_DOB    JWS_SSN
----- ------ -------- ----------- ---- ----- -------- ----------- ---------- ---------- ---------- ----------
David Sam    01.01.80 123-45-6789 Dave Sammy 02.01.80 223-45-6789         84         90         95      93

SQL>

我将限制设置为80,但您可能会做出不同的决定。删除该WHERE子句(第17-21行)并检查返回的结果,然后您将对所发生的事情有一个更清晰的了解。


推荐阅读
  • 方法:1 配置数据库basediros.path.abspath(os.path.dirname(__file__))  #获取当前文件的绝对路径appFlask(__name__ ... [详细]
  • Netflix利用Druid实现高效实时数据分析
    本文探讨了全球领先的在线娱乐公司Netflix如何通过采用Apache Druid,实现了高效的数据采集、处理和实时分析,从而显著提升了用户体验和业务决策的准确性。文章详细介绍了Netflix在系统架构、数据摄取、管理和查询方面的实践,并展示了Druid在大规模数据处理中的卓越性能。 ... [详细]
  • 福克斯新闻数据库配置失误导致1300万条敏感记录泄露
    由于数据库配置错误,福克斯新闻暴露了一个58GB的未受保护数据库,其中包含约1300万条网络内容管理记录。任何互联网用户都可以访问这些数据,引发了严重的安全风险。 ... [详细]
  • JavaScript 中创建对象的多种方法
    本文详细介绍了 JavaScript 中创建对象的几种常见方式,包括对象字面量、构造函数和 Object.create 方法,并提供了示例代码和属性描述符的解释。 ... [详细]
  • 本文详细介绍了优化DB2数据库性能的多种方法,涵盖统计信息更新、缓冲池调整、日志缓冲区配置、应用程序堆大小设置、排序堆参数调整、代理程序管理、锁机制优化、活动应用程序限制、页清除程序配置、I/O服务器数量设定以及编入组提交数调整等方面。通过这些技术手段,可以显著提升数据库的运行效率和响应速度。 ... [详细]
  • 本文介绍如何使用SAS根据输入数据集自动生成并执行SQL查询,其中CASE语句依据另一个数据集中的观测值动态调整。 ... [详细]
  • 本文深入探讨了SQL数据库中常见的面试问题,包括如何获取自增字段的当前值、防止SQL注入的方法、游标的作用与使用、索引的形式及其优缺点,以及事务和存储过程的概念。通过详细的解答和示例,帮助读者更好地理解和应对这些技术问题。 ... [详细]
  • Oracle中NULL、空字符串和空格的处理与区别
    本文探讨了在Oracle数据库中使用NULL、空字符串('')和空格('_')时可能遇到的问题及解决方案。重点解释了它们之间的区别,以及在查询和函数中的行为。 ... [详细]
  • Oracle 数据导出为 SQL 脚本的详细步骤
    本文介绍如何使用 PL/SQL Developer 工具将 Oracle 数据库中的数据导出为 SQL 脚本,包括详细的步骤和注意事项。 ... [详细]
  • 简化报表生成:EasyReport工具的全面解析
    本文详细介绍了EasyReport,一个易于使用的开源Web报表工具。该工具支持Hadoop、HBase及多种关系型数据库,能够将SQL查询结果转换为HTML表格,并提供Excel导出、图表显示和表头冻结等功能。 ... [详细]
  • 1.介绍有时候我们需要一些模拟数据来进行测试,今天简单记录下如何用存储过程生成一些随机数据。2.建表我们新建一张学生表和教师表如下:CREATETABLEstudent(idINT ... [详细]
  • 1.执行sqlsever存储过程,消息:SQLServer阻止了对组件“AdHocDistributedQueries”的STATEMENT“OpenRowsetOpenDatas ... [详细]
  • 在Fedora 31上部署PostgreSQL 12
    本文详细介绍如何在Fedora 31操作系统上安装和配置PostgreSQL 12数据库。包括环境准备、安装步骤、配置优化以及安全设置,确保数据库能够稳定运行并提供高效的性能。 ... [详细]
  • 本文介绍了解决在Windows操作系统或SQL Server Management Studio (SSMS) 中遇到的“microsoft.ACE.oledb.12.0”提供程序未注册问题的方法,特别针对Access Database Engine组件的安装。 ... [详细]
  • PostgreSQL 最新动态 —— 2022年4月6日
    了解 PostgreSQL 社区的最新进展和技术分享 ... [详细]
author-avatar
益林代表_610
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有