我试图在一个庞大的销售交易数据集中(超过100万个观测值)发现异常,其中有成千上万的独特客户。同一客户可以在同一日期多次购买。数据集包含随机交易和季节性交易的混合。下面是我的数据的一个虚拟样本。
Date CustomerID TransactionType CompanyAccountNum Amount
01.01.19 1 Sales 111xxx 100
01.01.19 1 Credit 111xxx -3100
01.01.19 4 Sales 111xxx 100
02.01.19 3 Sales 311xxx 100
02.01.19 1 Refund 211xxx -2100
03.01.19 4 Sales 211xxx 3100
哪种算法最适合这个问题?我已经尝试了一个多变量的FBprophet模型(在python上),到目前为止,收到了不太满意的结果。
您可以尝试以下方法 pyod
包,方法如隔离林或HBOS。
它被宣传为 "用于检测多变量数据中的离群对象的全面和可扩展的Python工具包",但你的性能可能会有所不同,所以首先检查一下他们的 基准.