我一直在努力创建具有数百万行的csv图。我正在尝试使用vaex模块,但卡住了。
import vaex # converts and reads large csv into hdf5 format df = vaex.open("mydir/cov2.csv", convert='hdf5') df.head()
输出
# chr pos cov index <i style='opacity: 0.6'>0</i> NC_024468.2 1.34986e+08 6 0 <i style='opacity: 0.6'>1</i> NC_024468.2 1.34986e+08 6 1 <i style='opacity: 0.6'>2</i> NC_024468.2 1.34986e+08 6 2
csv转换为hdf5并加载,但是现在有2个索引,其中1个具有怪异的HTML格式。当我尝试像在documentation中绘制它,并在此thread中建立基准的解决方案时:
df.plot_widget(df.pos, df.cov)
我收到值错误。
ValueError: <bound method DataFrame.cov of # chr pos cov index 0 NC_024468.2 134986302 6 0 1 NC_024468.2 134986303 6 1 ... ... ... ... ... 2,704,117 NC_024468.2 137690419 0 2704117 2,704,118 NC_024468.2 137690420 0 2704118 > is not of string or Expression type, but <class 'method'>
解决方案是更改为df.col.cov或df [“ cov”]。不过,现在我从plot_widget方法中得到了一个空输出:
PlotTemplate(components={'main-widget': VBox(children=(VBox(children=(Figure(axes=[Axis(color='#666', grid_col… Plot2dDefault(w=None, what='count(*)', x='pos', y='cov', z=None)
有人可以帮我吗?
亲切的问候,里卡多
csv数据的示例。列pos每行增加1(1.37亿),并且cov几乎始终为0,但在某些区域变为1-400:
chr,pos,cov
NC_024468.2,1,0
NC_024468.2,2,0
NC_024468.2,3,0
.....
NC_024468.2,137690418,7
NC_024468.2,137690419,6
NC_024468.2,137690420,6
我一直在努力创建具有数百万行的csv图。我试图使用vaex模块,但卡住了.. import vaex#将大的csv转换并读取为hdf5格式df = vaex.open(“ ...
这里有很多问题: