我正在尝试找到数据帧的相关系数并完美地工作。
使用cor()从数据帧中找到相关系数是否存在问题,或者对大型数据实施此代码是否很好?
cc = function(input, output = NULL){
cc.map = function(., v)
{
data <- v[-1,]
data[,1:length(data)] = lapply(data[,1:length(data)], as.numeric)
keyval("korelasi",data)
}
cc.reduce =function(k, v )
{
keyval(k, cor(v))
}
mapreduce(
input = input ,
output = output,
input.format = make.input.format("csv",sep=",",fill = TRUE,stringsAsFactors=FALSE),
map = cc.map,
reduce = cc.reduce,
combine = T)}
cor
是在R中的矩阵中计算相关性的标准方法。您已经在reduce函数中进行了此操作,因此hadoop可以处理大型数据集。