如何使用Python基于时间戳出现构建序列?

问题描述 投票:1回答:1

我主要在数据库上使用Python,拥有17.000.000个记录,用于2.800.000个唯一ID。每个ID代表一个发货流程的事件,所有实例都具有:ID,EVENT,TIMESTAMP(日期时间)。有一个事件通常但不总是启动序列,并有多个结果,即交付,返回等。

我的目标是找到每个ID所采用的最常见路径,这意味着发生的事件的顺序是什么,并在此过程中遇到瓶颈。

有没有可以使用Python的可视化工具,它内置了这种结构?你会如何推荐我解决这个问题?

谢谢

python pandas process data-visualization analysis
1个回答
1
投票

这不是Python的答案,但考虑到这个问题,我认为有更好的方法来执行此类分析。

我不知道您是否听说过Process Mining。但我认为在你的情况下使用它是完美的。基本上,流程挖掘包括分析流程的流程。我使用过不同的工具,其中一些是:

  • 磁盘
  • ProM(开源)
  • Celoni

基本上,您需要做的就是定义什么是ID(您已经拥有它),然后选择哪些列代表时间戳(您已经拥有它)和事件的名称(您也拥有它)。

任何这些工具都能够为您提供完美的流量分析。哪个是最常见的路径,每个事件的平均时间等。如果添加更多属性,它甚至可以返回基于这些属性遵循一个或另一个路径的原因。

© www.soinside.com 2019 - 2024. All rights reserved.