我目前正在做一个小项目,我想比较两个时间序列。相似性度量确实很模糊,如果两个时间序列的形状大致相同,则它们被视为相似。
所以我心想:“好吧,只要它们具有相同的形状,我就比较两个时间序列的峰,如果峰在相同位置,那么时间序列肯定会相似”
我现在的问题是为峰值检测找到一个好的算法。我用过google,但只想出了论文Simple Algorithms for Peak Detection in Time-Series。问题是,本文描述的算法在真正的极端峰和稀疏峰上都能很好地工作,但是在大多数情况下,我的time-series具有相当平坦的峰,因此无法检测到。
有人知道我在哪里可以找到或搜索可以检测下图所示峰的算法吗?
您似乎只是在寻找斜率反转(从正到负,反之亦然)。可以使用粗略的Java算法(未经测试):
List<Point> points = ... //all the points in your curve
List<Point> extremes = new ArrayList<Point> ();
double previous = null;
double previousSlope = 0;
for (Point p : points) {
if (previous == null) { previous = p; continue; }
double slope = p.getValue() - previous.getValue();
if (slope * previousSlope < 0) { //look for sign changes
extremes.add(previous);
}
previousSlope = slope;
previous = p;
}
最后,衡量相似性的一种好方法是相关性。在您的情况下,我将查看%移动相关性(换句话说,您希望两个系列同时上升或下降)-这通常是在财务中完成的,例如,计算两个资产收益之间的相关性:
您可以阅读有关returns correlations here for example的更多信息。总之,如果您的值是:
Series 1 Series 2
100 50
98 49
100 52
102 54
“返回”系列将是:
Series 1 Series 2
-2.00% -2.00%
+2.04% +6.12%
+2.00% +3.85%
然后您计算这两个收益系列的相关性(在此示例中为0.96),以衡量这两条曲线的相似程度。您可能需要调整结果的方差(例如,一种形状的范围比另一种范围大)。
您可以使用非常简单的局部极限检测器:
// those are your points:
double[] f = {1, 2, 3, 4, 5, 6, 5, 4, 7, 8, 9, 3, 1, 4, 6, 8, 9, 7, 4, 1};
List<Integer> ext = new ArrayList<Integer> ();
for (int i = 0; i<f.length-2; i++) {
if ((f[i+1]-f[i])*(f[i+2]-f[i+1]) <= 0) { // changed sign?
ext.add(i+1);
}
}
// now you have the indices of the extremes in your list `ext`
这将适用于平滑系列。如果您的数据有一定差异,则应首先将其通过低通滤波器。低通滤波器的一个非常简单的实现是移动平均值(每个点都由最接近的k值的平均值代替,其中k为窗口大小)。
Eli Billauer提出的peakdet算法效果很好,易于实现:
http://www.billauer.co.il/peakdet.html
当使用一阶导数的方法失败时,该算法特别适用于嘈杂的信号。
我不确定时间序列或特定峰值检测算法之间的相关性,但这是我编写的一些最大峰值检测算法。它不会检测到最小峰值,但可以通过反转for循环中的操作轻松地进行扩展。
List<XYDataItem> maxPoints = ... //list to store the maximums XYDataItem leftPeakPoint = new XYDataItem(0, 0); int leftPeakPointIndex = 0; XYDataItem rightPeakPoint = new XYDataItem(0, 0); boolean first = true; int index = -1; List<XYDataItem> pointList = (List<XYDataItem>) lrpSeries.getItems(); for (XYDataItem point : pointList) { index++; if (first) { //initialize the first point leftPeakPoint = point; leftPeakPointIndex = index; first = false; continue; } if (leftPeakPoint.getYValue() < point.getYValue()) { leftPeakPoint = point; leftPeakPointIndex = index; rightPeakPoint = point; } else if (leftPeakPoint.getYValue() == point.getYValue()) { rightPeakPoint = point; } else { //determine if we are coming down off of a peak by looking at the Y value of the point before the //left most point that was detected as a part of a peak if (leftPeakPointIndex > 0) { XYDataItem prev = pointList.get(leftPeakPointIndex - 1); //if two points back has a Y value that is less than or equal to the left peak point //then we have found the end of the peak and we can process as such if (prev.getYValue() <= leftPeakPoint.getYValue()) { double peakx = rightPeakPoint.getXValue() - ((rightPeakPoint.getXValue() - leftPeakPoint.getXValue()) / 2D); maxPoints.add(new XYDataItem(peakx, leftPeakPoint.getYValue())); } } leftPeakPoint = point; leftPeakPointIndex = index; rightPeakPoint = point; } }
结果将使检测到的峰居中连续数据点的Y值相同的平坦部分。 XYDataItem只是一个包含X和Y值作为双精度值的类。可以很容易地用等效的东西代替。
该问题的最新答案,但动态时间规整(DTW)算法是解决此类问题的正确选择。基本上有两个时间序列,其中一个是模板,另一个是样本。我建议检查Smile库DynamicTimeWarping类的源代码。