识别电话号码,然后匹配国家/地区代码,然后在列中指定正确的名称

问题描述 投票:-2回答:1

我有一个数据框“CDR”(呼叫详细记录),电话号码的前5位数字和另一个名为“CC”的数据框,包含国家代码和国家/地区名称。

PhoneNumber <- c("52431", "44781", "N/A") #18 million rows of data
CDR <- data.frame(PhoneNumber)               
CDR

CountryCode <- c("52", "44")
CountryName <- c("Mexico", "UK")
cc <- data.frame(CountryName, CountryCode)
cc

#The output I desire
C_CountryName <- c("Mexico", "UK", "N/A")
CDR <- data.frame(PhoneNumber, C_CountryName)
CDR

我这样想过:

x <- 1
for(x == 2)
{index of y <- cc$CountryCode where (cc$CountryCode == x) (assigns country 
code to y)
y is then matched in all rows of CDR$PhoneNumber and returns index of 
CDR$PhoneNumbers where y is a partial match of CDR$PhoneNumber.
y <- cc$CountryName where (cc$CountryName == x)
x++
}

因此,在循环结束时x递增,直到所有国家都匹配,然后我可以将y变为df1。

我已尝试过几种组合尝试,替换,匹配,grepl,str_detect,但我无法获得所需的输出。

我希望你能引导我朝着正确的方向前进。

r dataframe data-science data-cleansing
1个回答
0
投票

在1800万行数据上运行一组正则表达式模式将是非常低效的,并且正如其他评论者已经指出的那样,国家/地区的呼叫代码可能多于或少于2位,因此您可能会遇到其他重大问题。话虽这么说,您可以使用apply系列函数之一通过grep函数系列之一运行每一行数据,以匹配任意长的开头数字,如下所示......

PhoneNumber <- c("52431", "44781", "1512234", "21234567", "N/A")
CountryCode <- c("52", "44", "1", "212")
CountryName <- c("Mexico", "UK", "USA", "Morocco")

regex <- paste0("^", CountryCode)

matchname <- 
  sapply(PhoneNumber, USE.NAMES = FALSE, function(x) {
    matches <- sapply(regex, function(y) grepl(y, x))
    if (any(matches)) {
      CountryName[matches]
    } else {
      NA_character_
    }
  })

data.frame(PhoneNumber, matchname)
#   PhoneNumber matchname
# 1       52431    Mexico
# 2       44781        UK
# 3     1512234       USA
# 4    21234567   Morocco
# 5         N/A      <NA>

如果一个国家/地区呼叫代码加上电话号码的第一个数字与另一个国家/地区的呼叫代码匹配,则可能会遇到问题,但据我所知,国家/地区呼叫代码和区号通常是为了避免这种情况而设计的。

我建议先寻找一种强有力的方法,将国家/地区的国家/地区呼叫代码与您的电话号码分开,然后根据您所在国家/地区的级别调整代码矢量进行精确匹配,以提高其效率。

© www.soinside.com 2019 - 2024. All rights reserved.