使用vaex绘制大数据

问题描述 投票:1回答:1

我一直在努力创建具有数百万行的csv图。我正在尝试使用vaex模块,但卡住了。

import vaex

# converts and reads large csv into hdf5 format
df = vaex.open("mydir/cov2.csv",  convert='hdf5')
df.head()

输出

#   chr     pos cov index    
<i style='opacity: 0.6'>0</i>   NC_024468.2 1.34986e+08 6   0     
<i style='opacity: 0.6'>1</i>   NC_024468.2 1.34986e+08 6   1       
<i style='opacity: 0.6'>2</i>   NC_024468.2 1.34986e+08 6   2

csv转换为hdf5并加载,但是现在有2个索引,其中1个具有怪异的HTML格式。当我尝试像在documentation中绘制它,并在此thread中建立基准的解决方案时:

df.plot_widget(df.pos, df.cov)    

我收到值错误。

ValueError: <bound method DataFrame.cov of      
#          chr          pos        cov    index      
0          NC_024468.2  134986302  6      0       
1          NC_024468.2  134986303  6      1      
...        ...          ...        ...    ...      
2,704,117  NC_024468.2  137690419  0      2704117        
2,704,118  NC_024468.2  137690420  0      2704118 > is not of string or Expression type, but <class 'method'>

解决方案是更改为df.col.cov或df [“ cov”]。不过,现在我从plot_widget方法中得到了一个空输出:

  PlotTemplate(components={'main-widget': VBox(children=(VBox(children=(Figure(axes=[Axis(color='#666', grid_col…

  Plot2dDefault(w=None, what='count(*)', x='pos', y='cov', z=None)

有人可以帮我吗?

亲切的问候,里卡多

编辑

csv数据的示例。列pos每行增加1(1.37亿),并且cov几乎始终为0,但在某些区域变为1-400:

chr,pos,cov
NC_024468.2,1,0
NC_024468.2,2,0
NC_024468.2,3,0
.....
NC_024468.2,137690418,7
NC_024468.2,137690419,6
NC_024468.2,137690420,6

我一直在努力创建具有数百万行的csv图。我试图使用vaex模块,但卡住了.. import vaex#将大的csv转换并读取为hdf5格式df = vaex.open(“ ...

python hdf5 large-data vaex
1个回答
1
投票

这里有很多问题:

© www.soinside.com 2019 - 2024. All rights reserved.