泡菜文件的计算熵

问题描述 投票:1回答:1

我正在研究ISCXVPN2016 dataset,它由一些pcap文件组成(每个pcap捕获的是特定应用程序(例如skype,youtube等)的流量,我已经将它们转换为pickle文件,然后将其写入使用以下代码的文本文件:

pkl = open("AIMchat2.pcapng.pickle", "rb")
with open('file.txt', 'w') as f:
    for Item in pkl:
        f.write('%s\n' %Item)

file.txt:

b'\ x80 \ x03] q \ x00(cnumpy.core.multiarray \ n'b'_reconstruct \ n'b'q \ x01cnumpy \ n'b'ndarray \ n'b'q \ x02K \ x00 \ x85q \ x03C \ x01bq \ x04 \ x87q \ x05Rq \ x06(K \ x01K \ x9d \ x85q \ x07cumpy \ n'b'dtype \ n'b'q \ x08X \ x02 \ x00 \ x00 \ x00u1q \ tK \ x00K \ x01 \ x87q \ n'b'Rq \ x0b(K \ x03X \ x01 \ x00 \ x00 \ x00 | q \ x0cNNNJ \ xff \ xff \ xff \ xffJ \ xff \ xff \ xff \ xffK \ x00tq \ rb \ x89C \ x9dE \ x00 \ x00 \ x9dU \ xbc @ \ x00 \ x80 \ x06 \ xd7 \ xc9 \ x83 \ xca \ xf0W @ \ x0c \ x18 \ xa74I \ x01 \ xbb \ t]。\ xc8 \ xf3 * \ xc51P \ x18 \ xfa [)j \ x00 \ x00 \ x17 \ x03 \ x02 \ x00p \ x14 \ x90 \ xccY | \ xa3 \ x7f \ xd1 \ x12 \ xe2 \ xb4.U9)\ xf20 \ xf1 {\ xbd \ x1d \ xa3W \ x0c \ x19 \ xc2 \ xf0 \ x8c \ x0b \ x8c \ x86 \ x16 \ x99 \ xd8:\ x19 \ xb0G \ xe7 \ xb2 \ xf4 \ x9d \ x82 \ x8e&a \ x04 \ xf2 \ xa2 \ x8e \ xce \ xa4b \ xcc \ xfb \ xe4 \ xd0 \ xde \ x89eUU] \ x1e \ xfeF \ x9bv \ x88 \ xf4 \ xf3 \ xdc \ x8f \ xde \ xa6Kk1q` \ x94] \ x13 \ xd7 | \ xa3 \ x16 \ xce \ xcc \ x1b \ xa7 \ x10 \ xc5 \ xbd \ x00 \ xe8M \ x8b \ x05v \ x95 \ xa3 \ x8c \ xd0 \ x83 \ xc1 \ xf1 \ x12 \ xee \ x9f \ xefmq \ x0etq \ x0fbh \ x01h \ x02K \ x00 \ x85q x04 \ x87q \ x11Rq \ x12(K \ x01K。\ x85q \ x13h \ x0b \ x89C.E \ x00 \ x00

我的问题是如何计算每个泡菜文件的熵?

((我已经更新了问题)

python pickle entropy
1个回答
0
投票

天真的解决方案是gzip / tar文件。通过计算(压缩大小/ tar文件)/(原始大小)来确定熵,以衡量随机性。由于gzip和tar都不是“理想的”压缩程序,因此此结果并不准确,但是随着文件大小的增加,结果将更加准确。

© www.soinside.com 2019 - 2024. All rights reserved.