large-files 相关问题

即使对于有经验的程序员来说,大文件(无论是二进制文件还是文本文件)有时也会出现问如果出现与在文本编辑器中打开和/或写入大文件,管理运行到千兆字节的资源或大量数据的战略决策相关的问题,则应使用此标记。

旧版代码不适用于新的大型CSV文件

我有熊猫的遗留代码编写。现在,新数据变得非常大(采用CSV格式),并且很难用新文件read_csv(文件大小约为7.8GB,将来还会更大)。 ...

回答 1 投票 0

在php中读取大约40-50MB的大型PDF文件

我被困在一个项目中,在该项目中,我必须从PDF文件中读取文本并搜索一些特定术语。我使用了pdfparser,但是它在某些pdf版本上失败了,它也无法处理大型PDF文件,并且无法给出...

回答 1 投票 -1

ftello函数未声明

我正在尝试获取32位OS上超过2GB的文件的当前位置。我定义了LARGEFILE_SOURCE和FILE_OFFSET_BITS = 64选项,如下所示。 APP_CFLAGS:= -D_LARGEFILE_SOURCE -D_FILE_OFFSET_BITS = 64 ...

回答 1 投票 1

计算一行的重复列,打印所有行及其计数

[我想要:$ cat file ABCDEFG,XXX ABCDEFG,YYY ABCDEFG,ZZZ AAAAAAA,XZY BBBBBBB,XYZ CCCCCCC,YXZ DDDDDDD,YZX CDEFGHI,ZYX CDEFGHI,XZY $ cat file |魔术3 ABCDEFG,XXX 3 ABCDEFG,YYY 3 ABCDEFG,...

回答 1 投票 0

使用Perl6处理大文本文件,速度太慢。(2014-09)

https://github.com/yeahnoob/perl6-perf中的代码托管,如下所示:使用v6;我的$ file = open“ wordpairs.txt”,:r;我的%dict;我的$ line;重复{$ line = $ file.get;我的($ p1,$ p2)= $ line.split(''); ...

回答 2 投票 5

增加Tornado中BaseIOStream的max_buffer_size限制

Tornado Websocket服务器用于与可能发送大量有效负载的客户端进行双向通信。我已经使用以下方法增加了套接字消息的大小:tornado.web.Application(...

回答 1 投票 1

在python中更改巨大的HDF5数组的数据类型

我有4个HDF5文件,每个文件的大小约为15GB。每个格式均为N_i x 2048 x 7 x7。每个格式均为float64格式。我想将它们合并为float32类型的单个N x 2048 x 7 x 7数据集。我...

回答 1 投票 0

如何在大量列表中使用MultiLabelBinarizer

[我正在尝试训练OneVsRest算法,在该算法中它会得到具有以下形状的tf-idf矩阵(称为x_train):<3323504x900282稀疏类型为”的稀疏矩阵,其中119378243存储的元素在...中]]

回答 1 投票 0

使用NodeJS在大文件中合并几行或几句话的最佳方法是什么?

我将不胜感激,任何提出使用Node.js从1MB到200MB范围内编辑大型文件的最佳或更好解决方案的人都可以提出建议。我们的流程需要将行合并到现有的...

回答 2 投票 0

带有大文件的lxml:根据属性过滤出子树

我要解决的高级问题是我有一个1.5 GB的SMS数据转储,并且我试图过滤文件以仅保留往返于单个联系人的消息。我在Python中使用lxml ...

回答 1 投票 0

读取文本行超过130000的大文本文件

如何将大文本文件读入我的应用程序?这是我的代码,但是不起作用。我的代码必须读取一个名为list.txt的文件。该代码仅适用于只有10.000行的文件。可以...

回答 1 投票 0

gitignore按文件大小?

我正在尝试实现Git来管理创意资产(Photoshop,Illustrator,Maya等),我想根据文件大小而不是扩展名,位置等从Git中排除文件。例如,。 ..

回答 2 投票 43

为什么LFS git的git push要求输入密码3次?

我正在LFS模式下使用标准github.com回购,并且工作正常...但是,总之,当我推送时,会发生此3xLogin:git push'https://github.com'的用户名:xpto的密码的“https:// xpto @ ...

回答 1 投票 1

如何有效地写在后台线程大文件到磁盘(SWIFT)

更新我已经解决了,并删除分散注意力的错误。请阅读全文后,并随时发表评论,如果有任何疑问依然存在。背景我试图写比较大...

回答 3 投票 33

为什么dill.dump的字典(81000000个字节)的列表的需要永远?

我公司生产的810万个字节字典的列表,与9000000个+元素。每个元件具有32对值和密钥的字典,虽然相同的密钥的集合中的每个元素被使用。一世 ...

回答 1 投票 0

将包含1024列以上的csv文件导入新的SQL Server表

我正在尝试将数据从CSV文件上传到SQL Server,其大小为2GB,列数超过10000。请告诉我如何在SQL Server中加载超过1024列的数据。我试过了 ...

回答 2 投票 2

如何在C#中高效下载,读取和处理CSV

我正在开发一种服务,它将从在线资源中收集大型CSV文件,然后在下载时,读取这些行(最好是分批),然后将它们发送到数据库。这不应该用......

回答 2 投票 0

读取大文本文件,直到确定的字符串

我有一个大的字符串分隔文本文件(不是用单字符分隔),如下所示:第一个数据[STRING-SEPERATOR]第二个数据[STRING-SEPERATOR] ...我不想将整个文件加载到内存中...

回答 4 投票 2

如何使用echo tail创建大文件的子集[duplicate]

我想打开一个大的错误日志文件(有数百万行)。为了调查,我只需要查看最近的日志。所以我想将大文件的“尾部”结果复制到一个新文件中。怎么样 ...

回答 1 投票 0

fseeko的表现(FILE * stream,off_t offset,int whence)

我的问题:我有一个大约4GB的文件。我从来没有使用过fseeko / ftello,而且我对磁盘上文件的组织方式也不太熟悉。如果我打开一个文件,然后让fseeko跳...

回答 2 投票 -1

© www.soinside.com 2019 - 2024. All rights reserved.