如果事务由两行或更多行表示,是否有办法使用python对事务(日志)数据进行集群?

问题描述 投票:0回答:1

在会计中,表示交易的数据集称为“总帐”,并采用以下形式:

请注意,“日记”即交易包含两个订单项。例如。交易(期刊编号)1有两行。收到现金和收入。公司也可以有交易(期刊),可以包括3个项目甚至更多。

我是否首先需要清理数据,每个日记只有一个订单项?即将上面的8行清理成4行。

有没有任何python机器学习算法,这将允许我聚集上述数据而无需进一步操作?

这样做的目的是检测交易数据中的异常。我不知道异常是什么样的,所以这需要无人监督学习。

python machine-learning cluster-analysis unsupervised-learning accounting
1个回答
0
投票

在数据的每个维度上使用高斯来确定什么是异常。每个维度都会撤消均值和方差,如果该维度上的新数据点的值低于阈值,则将其视为异常值。这会在每个维度上创建一个高斯。您可以在此处使用某些特征工程,而不仅仅是在原始数据上使用高斯。

如果要素看起来不是高斯(绘制直方图),请使用log(x)或sqrt(x)等数据转换来更改它们,直到它们看起来更好。

如果没有监督学习,或者如果你想找到新的,以前看不见的异常(例如发电厂的故障,或者有人怀疑而不是某人是男/女),请使用异常检测

错误分析:但是,如果p(x),一个例子不是异常的概率,对所有例子来说都很大么?添加另一个维度,并希望它有助于显示异常。您可以通过组合其他一些来创建此维度。

为了使高斯更适合您的数据形状,您可以使其变为多变量。然后它采用矩阵均值和方差,您可以改变参数以改变其形状。如果您的功能并非全部独立,它还将显示功能关联。

https://stats.stackexchange.com/questions/368618/multivariate-gaussian-distribution

© www.soinside.com 2019 - 2024. All rights reserved.