计数文件中的字母时出现意外结果

Question

因此，当我面对异常行为时，我正在编写一个用于静态密码分析的程序。

首先，我写了字符计数器，这就是问题所在。

我有文件：

//alphabet.txt
abcdefghijklmnopqrstuvwxyz

并且当我尝试计算字母频率时，得到了一些有趣的结果！（不要注意第一行，它只是说ifstream是打开的）

D:\Workspaces\EclipseWS\StaticAnalysis\src>g++ main.cpp

D:\Workspaces\EclipseWS\StaticAnalysis\src>a.exe
1!
a       1
b       1
c       1
d       1
e       1
f       1
g       1
h       1
i       1
j       1
k       1
l       1
m       1
n       1
o       1
p       1
q       1
r       1
s       1
t       1
u       1
v       1
w       1
x       1
y       1
z       2

您可以看到，程序说'z'在文本中出现了2次，但没有出现。

现在，到技术细节。

Operating System: Windows 10 Enterprise LTSC
System Type: 64bit
C++ compiler: MinGW
alphabet.txt File encoding: ANSI

代码，我使用以下文件解析文件：

#include <fstream>
#include <iostream>
#include <map>
#include <string>

using namespace std;

#define encrypted_fname "D:\\Workspaces\\EclipseWS\\StaticAnalysis\\src\\alphabet.txt"

void printMap(const map<char,int>& m){
    for (const auto& p : m){
        cout<<p.first<<'\t'<<p.second<<endl;
    }
}

int main(){
    ifstream ifs(encrypted_fname);
    cout << ifs.is_open() << "!\n";
    map<char,int> letterCount;

    char buffer;

    while(ifs){
        ifs >> buffer;
        letterCount[buffer]+=1;
    }

    printMap(letterCount);

}

我尝试将文件编码更改为UTF-8

.. Unicode big endian \ unicode ..

但是如您所见，输出在每种情况下都有些la脚！

如果您需要，我可以提供更多信息，请告诉我如何获取。

我的主要问题是：为什么会发生？我的代码有误吗？如何解决？

Answer 1

 while (1) {
        ifs >> buffer;
        if (! ifs) break;
        letterCount[buffer]+=1;
    } ;

应该这样做。如果最后一次读取成功，则“ ifs”不会为假，仅当尝试读取超出其范围的内容时，它将被评估为“假”。但是在那一点上，“ z”作为最后一个字母不是被任何东西覆盖，并被计算两次。

这种读取文件的语法是对它的一次尝试。被创建为具有用于文本阅读的“漂亮界面”。我想说它不能击败通过文件调用read(ifs, &buffer, 1)。

您的其他奇怪结果是由于您总是从文件中读取字节，并且从不尝试将这些字节解码为文本-因此BOM标记和2字节编码的额外字节称为“ unicode big endian”（正确的名称为“ utf-16 big endian”），其所有字节都被视为字符。

计数文件中的字母时出现意外结果

问题描述投票：0回答：1

1个回答

最新问题

计数文件中的字母时出现意外结果

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1