百分比pandas与scala的对比,bug在哪里?

问题描述 投票:1回答:1

对于一个数字列表

val numbers = Seq(0.0817381355303346, 0.08907955219917718, 0.10581384008994665, 0.10970915785902469, 0.1530743353025532, 0.16728932033107657, 0.181932212814931, 0.23200826752868853, 0.2339654613723784, 0.2581657775305527, 0.3481071101229365, 0.5010850992326521, 0.6153244818101578, 0.6233250409474894, 0.6797744231690304, 0.6923891392381571, 0.7440316016776881, 0.7593186414698002, 0.8028091068764153, 0.8780699052482807, 0.8966649331194205)

蟒蛇 pandas 计算以下百分比。

25%     0.167289
50%     0.348107
75%     0.692389

然而,scala的结果是:

calcPercentiles(Seq(.25, .5, .75), sortedNumber.toArray)

25% 0.1601818278168149
50% 0.3481071101229365
75% 0.7182103704579226

这两个数字几乎是匹配的,但是不同。我怎样才能消除这种差异(并且很可能修复我的 scala 代码中的一个错误?

val sortedNumber = numbers.sorted

import scala.collection.mutable
case class PercentileResult(percentile:Double, value:Double)

// https://github.com/scalanlp/breeze/blob/master/math/src/main/scala/breeze/stats/DescriptiveStats.scala#L537
def calculatePercentile(arr: Array[Double], p: Double)={
    // +1 so that the .5 == mean for even number of elements.
    val f = (arr.length + 1) * p
    val i = f.toInt
    if (i == 0) arr.head
    else if (i >= arr.length) arr.last
    else {
      arr(i - 1) + (f - i) * (arr(i) - arr(i - 1))
    }
  }

 def calcPercentiles(percentiles:Seq[Double], arr: Array[Double]):Array[PercentileResult] = {
    val results = new mutable.ListBuffer[PercentileResult]
    percentiles.foreach(p => {
      val r = PercentileResult(percentile = p, value = calculatePercentile(arr, p))
      results.append(r)
    })
    results.toArray
  }

python:

 import pandas as pd

df = pd.DataFrame({'foo':[0.0817381355303346, 0.08907955219917718, 0.10581384008994665, 0.10970915785902469, 0.1530743353025532, 0.16728932033107657, 0.181932212814931, 0.23200826752868853, 0.2339654613723784, 0.2581657775305527, 0.3481071101229365, 0.5010850992326521, 0.6153244818101578, 0.6233250409474894, 0.6797744231690304, 0.6923891392381571, 0.7440316016776881, 0.7593186414698002, 0.8028091068764153, 0.8780699052482807, 0.8966649331194205]})
display(df.head())
df.describe()
python pandas scala numpy percentile
1个回答
1
投票

经过一番试错,我写了这段代码,返回的结果和熊猫一样(使用线性插值,因为这是熊猫的默认值)。

def calculatePercentile(numbers: Seq[Double], p: Double): Double = {
  // interpolate only - no special handling of the case when rank is integer
  val rank = (numbers.size - 1) * p
  val i = numbers(math.floor(rank).toInt)
  val j = numbers(math.ceil(rank).toInt)
  val fraction = rank - math.floor(rank)
  i + (j - i) * fraction
}

从这一点来看,我认为错误出在这里。

(arr.length + 1) * p

0的百分位数应该是0, 100%的百分位数应该是一个最大的指数.

所以对于 numbers (.size == 21),将是指数 020. 然而,对于100%的情况,你会得到22的索引值--比数组的大小还要大。如果没有这些保护子句,你会得到错误,你会怀疑有问题。

else if (i >= arr.length) arr.last

你会得到错误信息,你会怀疑有问题。也许代码的作者,使用了不同的百分位数定义。

https://github.com/scalanlp/breeze/blob/master/math/src/main/scala/breeze/stats/DescriptiveStats.scala#L537

使用了不同的百分位数定义... ... (?)或者他们可能只是有一个错误。我无法判断。

另外:这个。

def calcPercentiles(percentiles:Seq[Double], arr: Array[Double]): Array[PercentileResult]

可以更容易写成这样

def calcPercentiles(percentiles:Seq[Double], numbers: Seq[Double]): Seq[PercentileResult] =
  percentiles.map { p =>
    PercentileResult(p, calculatePercentile(numbers, p))
  }
© www.soinside.com 2019 - 2024. All rights reserved.