以下数据表示2个给定的直方图分为13个区间:
key 0 1-9 10-18 19-27 28-36 37-45 46-54 55-63 64-72 73-81 82-90 91-99 100
A 1.274580708 2.466224824 5.045757621 7.413716262 8.958855646 10.41325305 11.14150951 10.91949012 11.29095648 10.95054297 10.10976255 8.128781795 1.886568472
B 0 1.700493692 4.059243006 5.320899616 6.747120132 7.899067471 9.434997257 11.24520022 12.94569391 12.83598464 12.6165661 10.80636314 4.388370817
我试图跟随this article以计算这两个直方图之间的交集,使用这种方法:
def histogram_intersection(h1, h2, bins):
bins = numpy.diff(bins)
sm = 0
for i in range(len(bins)):
sm += min(bins[i]*h1[i], bins[i]*h2[i])
return sm
由于我的数据已经计算为直方图,我不能使用numpy内置函数,所以我无法为函数提供必要的数据。
如何处理我的数据以适应算法?
由于您可以使用两个直方图的相同面包:
def histogram_intersection(h1, h2):
sm = 0
for i in range(13):
sm += min(h1[i], h2[i])
return sm
首先要注意的一点是:在您的数据箱中是范围,在算法中它们是数字。你必须重新定义垃圾箱。
此外,min(bins[i]*h1[i], bins[i]*h2[i])
是bins[i]*min(h1[i], h2[i])
,因此结果可以通过以下方式获得:
hists=pandas.read_clipboard(index_col=0) # your data
bins=arange(-4,112,9) # try for bins but edges are different here
mins=hists.min('rows')
intersection=dot(mins,bins)