获取与百分比匹配的字符串

Question

我有以下数据细节：

表1：Table1在few records附近的尺寸很小。

表2：Table2有50 millions行。

要求：我需要将table1中的任何字符串列与table2匹配，例如name列到name，并获得匹配百分比（注释列可以是任何，可能是地址或任何字符串列，在单个单元格中有多个单词）。

样本数据：

create table table1(id int, name varchar(100), address varchar(200));

insert into table1 values(1,'Mario Speedwagon','H No 10 High Street USA');
insert into table1 values(2,'Petey Cruiser Jack','#1 Church Street UK');
insert into table1 values(3,'Anna B Sthesia','#101 No 1 B Block UAE');    
insert into table1 values(4,'Paul A Molive','Main Road 12th Cross H No 2 USA');
insert into table1 values(5,'Bob Frapples','H No 20 High Street USA');    

create table table2(name varchar(100), address varchar(200), email varchar(100));

insert into table2 values('Speedwagon Mario ','USA, H No 10 High Street','[email protected]');
insert into table2 values('Cruiser Petey Jack','UK #1 Church Street','[email protected]');
insert into table2 values('Sthesia Anna','UAE #101 No 1 B Block','[email protected]');    
insert into table2 values('Molive Paul','USA Main Road 12th Cross H No 2','[email protected]');
insert into table2 values('Frapples Bob ','USA H No 20 High Street','[email protected]');

预期结果：

    tbl1_Name               tbl2_Name           Percentage  
--------------------------------------------------------
Mario Speedwagon        Speedwagon Mario    100
Petey Cruiser Jack      Cruiser Petey Jack  100
Anna B Sthesia          Sthesia Anna        around 80+
Paul A Molive           Molive Paul         around 80+
Bob Frapples            Frapples Bob        100

注意：上面给出的只是要了解的样本数据，我在few records中有table1，在50 millions中有table2。

我的尝试：

第1步：正如Shnugo所建议的那样，规范化数据并存储在同一个表中。

对于table1：

ALTER TABLE table1 ADD Name_Normal VARCHAR(1000);
GO

--00:00:00 (5 row(s) affected)
UPDATE table1 
SET Name_Normal=CAST('<x>' + REPLACE((SELECT LOWER(name) AS [*] FOR XML PATH('')),' ','</x><x>') + '</x>' AS XML)
                .query(N'
                        for $fragment in distinct-values(/x/text())
                        order by $fragment
                        return $fragment
                        ').value('.','nvarchar(1000)');           
GO

对于table2：

ALTER TABLE table2 ADD Name_Normal VARCHAR(1000);
GO

--01:59:03 (50000000 row(s) affected)
UPDATE table2 
SET Name_Normal=CAST('<x>' + REPLACE((SELECT LOWER(name) AS [*] FOR XML PATH('')),' ','</x><x>') + '</x>' AS XML)
                .query(N'
                        for $fragment in distinct-values(/x/text())
                        order by $fragment
                        return $fragment
                        ').value('.','nvarchar(1000)');           
GO

第2步：使用Levenshtein distance in Microsoft Sql Server创建百分比计算功能

第3步：查询以获取匹配百分比。

--00:00:33 (23456 row(s) affected)
SELECT t.name AS [tbl1_Name],t1.name AS [tbl2_Name],
       dbo.ufn_Levenshtein(t.Name_Normal,t1.Name_Normal) percentage 
       into #TempTable
FROM table2 t
INNER JOIN table1 t1 
ON CHARINDEX(SOUNDEX(t.Name_Normal),SOUNDEX(t1.Name_Normal))>0 

--00:00:00 (23456 row(s) affected)
SELECT * 
FROM #TempTable 
WHERE percentage >= 50
order by percentage desc;

结论：获得预期的结果，但它正在使用2 hours来规范化table2，如上述查询中的评论所述。有什么建议在step 1为table2更好地优化？

Answer 1

您是否尝试过研究DQS（数据质量服务）？取决于您的SQL版本，它附带安装文件。 https://docs.microsoft.com/en-us/sql/data-quality-services/data-matching?view=sql-server-2017

获取与百分比匹配的字符串

问题描述投票：1回答：1

1个回答

最新问题

获取与百分比匹配的字符串

问题描述 投票：1回答：1

1个回答

最新问题

问题描述投票：1回答：1