使用标准C库将文件读取到内存-Windows会过早识别EOF,但可在Mac,Linux上运行

问题描述 投票:0回答:1

这感觉像是[[最愚蠢问题,但希望有人可以提供帮助。抱歉,帖子太长了,但是我想提供足够的细节,以使人们不要建议我已经尝试过的事情。

我已经隔离了我编写的C程序的问题,该问题应该在Mac,Linux和Windows上提供。该程序无法在Windows上运行,但可以在Mac和Linux上正常运行,并且在最近更改之前曾经在Windows上运行。

失败的直接原因与将文件读取到内存块中有关-因此我仅将该代码隔离到一个自包含程序中,并使用一些示例数据对其进行了测试,这些示例数据在Windows上可靠地运行并且在Mac和Linux上可以正常运行。

应注意,在Windows上,我正在使用Visual Studio 2019(版本16.5.5)。我正在64位戴尔笔记本电脑上使用Windows 10企业版对其进行测试。在Linux上,我使用的是gcc(我正在使用Ubuntu 20.04对其进行测试)。在Mac上,我使用clang对其进行了编译。该程序旨在可移植(至少在这三个平台之间)。

加载文件的基本策略是使用fopen()打开文件,然后使用fseek()将文件标记移到文件末尾,然后使用ftell()获取文件中的位置来测量文件,然后fseek()返回到开头,然后使用ftell()获取文件开头的位置(实际上通常为零,但不能保证),然后从结尾减去起始位置确定文件大小的位置。实际上,这种“测量文件”代码似乎可以可靠地在我关心的三个平台上测量文件。

然后,我调用malloc()分配一块足以容纳文件的内存块。这总是可以的。我正在使用的文件大约为200K,它们都是二进制文件-但是出于隔离的目的,我能够使其可靠地以271字节的文件失败。原始代码只是使用了从0到文件大小的for循环,并反复调用getc(fileptr),然后将每个字节分配给内存缓冲区。然后它关闭了文件。该代码在Mac和Linux上运行良好,但在Windows上则无法运行。我观察到的是,我将获得文件的第一部分(在某些情况下为文件的大部分),然后开始从getc(fileptr)调用中读取“ ff”,这将填满其余的内存-显然是错误的。

因此,我调查了getc()和fgetc()之间的区别,显然getc()有时可以是一个对事物进行多次评估的宏。这似乎不是一个明显的罪魁祸首,但是无论如何我都改成了fgetc(),它什么也没改变。我还将malloc()调用更改为calloc(),以便可以从全零开始,并使其更容易使用调试器查看正在读取的文件(即查看内存缓冲区并查看其写入状态)。

我使用Hex编辑器创建了一个文件,该文件中包含以下数据,以便可以将其用于更系统的测试。该文件包含271个字节。前256个字节是所有可能的字节值:00 01 02 03 ... fc fd fe ff。最后十六个字节是00 01 02 03 04 05 06 07 08 09 0a 0b 0c 0d 0e 0f。这样,我可以查看问题是否是由于尝试读取某些特定字节值引起的,并且我可以让它继续经过所有可能的字节值,然后再以相同的方式执行另外16个字节,以取得良好的效果,并且我可以轻松地查看是否最后一个字节是0f。

[我做的下一件事是我使用预处理器#if 0 /#if 1切换,以在使用fgetc()的文件读取版本与使用fread()的版本之间进行切换。这是我得到的关于可能发生的事情的第一个有趣线索。

在Mac / Linux上,此程序的两个版本均正确打印我期望的值。但是,在Windows上,fread()版本读取前26个字节,之后所有字节均为00(因为calloc将整个块的值设置为00,而fread()仅设置前26个字节)。读取的文件的getc()版本正确读取前26个字节,然后所有后续字节均为ff。

前26个字节为:0x00 0x01 0x02 0x03 0x04 0x05 0x06 0x07 0x08 0x09 0x0a 0x0b 0x0c 0x0d 0x0e 0x0f 0x10 0x11 0x12 0x13 0x14 0x15 0x16 0x17 0x18 0x18 0x18

在Mac上该程序的完整(正确)输出是:

szFile:271读取271个字节load_ggx_file:00x00 0x01 0x02 0x03 0x04 0x05 0x06 0x07 0x08 0x09 0x0a 0x0b 0x0c 0x0d 0x0e 0x0f 0x10 0x11 0x12 0x130x14 0x15 0x16 0x17 0x18 0x19 0x1a 0x1b 0x1c 0x1d 0x1e 0x1f 0x20 0x21 0x22 0x23 0x24 0x25 0x26 0x270x28 0x29 0x2a 0x2b 0x2c 0x2d 0x2e 0x2f 0x30 0x31 0x32 0x33 0x34 0x35 0x36 0x37 0x38 0x39 0x3a 0x3b0x3c 0x3d 0x3e 0x3f 0x40 0x41 0x42 0x43 0x44 0x45 0x46 0x47 0x48 0x49 0x4a 0x4b 0x4c 0x4d 0x4e 0x4f0x50 0x51 0x52 0x53 0x54 0x55 0x56 0x57 0x58 0x59 0x5a 0x5b 0x5c 0x5d 0x5e 0x5f 0x60 0x61 0x62 0x630x64 0x65 0x66 0x67 0x68 0x69 0x6a 0x6b 0x6c 0x6d 0x6f 0x70 0x71 0x72 0x73 0x74 0x75 0x76 0x77 0x780x79 0x7a 0x7b 0x7c 0x7d 0x7e 0x7f 0x80 0x81 0x82 0x83 0x84 0x85 0x86 0x87 0x88 0x89 0x8a 0x8b 0x8c0x8d 0x8e 0x8f 0x90 0x91 0x92 0x93 0x94 0x95 0x96 0x97 0x98 0x99 0x9a 0x9b 0x9c 0x9d 0x9e 0x9f 0xa00xa1 0xa2 0xa3 0xa4 0xa5 0xa6 0xa7 0xa8 0xa9 0xaa 0xab 0xac 0xad 0xae 0xaf 0xb0 0xb1 0xb2 0xb3 0xb40xb5 0xb6 0xb7 0xb8 0xb9 0xba 0xbb 0xbc 0xbd 0xbe 0xbf 0xc0 0xc1 0xc2 0xc3 0xc4 0xc5 0xc6 0xc7 0xc80xc9 0xca 0xcb 0xcc 0xcd 0xce 0xcf 0xd0 0xd1 0xd2 0xd3 0xd4 0xd5 0xd6 0xd7 0xd8 0xd9 0xda 0xdb 0xdc0xdd 0xde 0xdf 0xe0 0xe1 0xe2 0xe3 0xe4 0xe5 0xe6 0xe7 0xe8 0xe9 0xea 0xeb 0xec 0xed 0xee 0xef 0xf00xf1 0xf2 0xf3 0xf4 0xf5 0xf6 0xf7 0xf8 0xf9 0xfa 0xfb 0xfc 0xfd 0xfe 0xff 0x00 0x01 0x02 0x03 0x040x05 0x06 0x07 0x08 0x09 0x0a 0x0b 0x0c 0x0d 0x0e 0x0f

在窗口上使用它打印的fread()版本:

szFile:271恐怖:0feof:1读取26个字节load_ggx_file:00x00 0x01 0x02 0x03 0x04 0x05 0x06 0x07 0x08 0x09 0x0a 0x0b 0x0c 0x0d 0x0e 0x0f 0x10 0x11 0x12 0x130x14 0x15 0x16 0x17 0x18 0x19 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x000x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x000x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x000x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x000x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x000x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x000x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x000x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x000x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x000x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x000x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x000x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x000x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00

在Windows上,当fread返回的值低于您要求的值(即本例中的第三个参数)时,您应该检查ferror()和feof()。我发现ferror()返回0,feof()返回1。因此问题似乎是Windows认为它已经到达文件末尾。问题是,为什么会这样呢?考虑到我的限制,什么是合理的替代选择? (即我只想使用标准库编写可移植的C代码-而不是一堆特定于平台的代码)。

我确实检查过问题是否仅是由于0x20字符引起的。我尝试使用HEX编辑器在测试文件中的0x01之后插入0x20,结果是它读取并打印了该字符的表示形式,只是文件而在0x19字符之后仍然停止。似乎没有任何特定的字符总是使它窒息。

这里是完整的测试程序:

#include <stdio.h> #include <stdlib.h> #include <assert.h> typedef struct { long long szFile; unsigned char* ggx_file; } ggx_t; int load_ggx_file(const char* ggx_file_path, ggx_t* outGGX) { int rc; FILE* ggx_file; unsigned char c; long long szFile; long fend_offset; long fstart_offset; ggx_file = fopen(ggx_file_path, "r"); if (!ggx_file || NULL == outGGX) { return -1; } rc = fseek(ggx_file, 0, SEEK_END); assert(0 == rc); fend_offset = ftell(ggx_file); rc = fseek(ggx_file, 0, SEEK_SET); assert(0 == rc); fstart_offset = ftell(ggx_file); szFile = fend_offset - fstart_offset; printf("szFile: %lld\r\n", szFile); outGGX->szFile = szFile; outGGX->ggx_file = (unsigned char*)calloc(szFile, 1); int i = 0; #if 0 for (; i < szFile; ++i) { c = fgetc(ggx_file); outGGX->ggx_file[i] = c; } #else i = fread(outGGX->ggx_file, 1, szFile, ggx_file); if (i < szFile) { int rc2; rc2 = ferror(ggx_file); printf("ferror: %d\r\n", rc2); rc2 = feof(ggx_file); printf("feof: %d\r\n", rc2); } #endif printf("Read %d bytes\r\n", i); fclose(ggx_file); return 0; } int main(int argc, const char* argv[]) { const char * ggx_file_path = argv[argc - 1]; ggx_t ggx_file; int rc = load_ggx_file(ggx_file_path, &ggx_file); printf("load_ggx_file: %d\r\n", rc); for (int i = 0; i < ggx_file.szFile; ++i) { printf("0x%02x ", ggx_file.ggx_file[i]); if (0 == ((i+1) % 20)) { printf("\r\n"); } } printf("\r\n"); return 0; }

这似乎是最愚蠢的问题,但希望有人能提供帮助。抱歉,帖子太长了,但是我想提供足够的细节,以使人们不要建议我已经尝试过的事情。我有...
c windows visual-studio-2019 stdio c-standard-library
1个回答
0
投票
您想以

二进制模式

© www.soinside.com 2019 - 2024. All rights reserved.