因此,当我面对异常行为时,我正在编写一个用于静态密码分析的程序。
首先,我写了字符计数器,这就是问题所在。
我有文件:
//alphabet.txt
abcdefghijklmnopqrstuvwxyz
并且当我尝试计算字母频率时,得到了一些有趣的结果! (不要注意第一行,它只是说ifstream是打开的)
D:\Workspaces\EclipseWS\StaticAnalysis\src>g++ main.cpp
D:\Workspaces\EclipseWS\StaticAnalysis\src>a.exe
1!
a 1
b 1
c 1
d 1
e 1
f 1
g 1
h 1
i 1
j 1
k 1
l 1
m 1
n 1
o 1
p 1
q 1
r 1
s 1
t 1
u 1
v 1
w 1
x 1
y 1
z 2
您可以看到,程序说'z'在文本中出现了2次,但没有出现。
现在,到技术细节。
Operating System: Windows 10 Enterprise LTSC
System Type: 64bit
C++ compiler: MinGW
alphabet.txt File encoding: ANSI
代码,我使用以下文件解析文件:
#include <fstream>
#include <iostream>
#include <map>
#include <string>
using namespace std;
#define encrypted_fname "D:\\Workspaces\\EclipseWS\\StaticAnalysis\\src\\alphabet.txt"
void printMap(const map<char,int>& m){
for (const auto& p : m){
cout<<p.first<<'\t'<<p.second<<endl;
}
}
int main(){
ifstream ifs(encrypted_fname);
cout << ifs.is_open() << "!\n";
map<char,int> letterCount;
char buffer;
while(ifs){
ifs >> buffer;
letterCount[buffer]+=1;
}
printMap(letterCount);
}
我尝试将文件编码更改为UTF-8
1!
» 1
¿ 1
ï 1
a 1
b 1
c 1
d 1
e 1
f 1
g 1
h 1
i 1
j 1
k 1
l 1
m 1
n 1
o 1
p 1
q 1
r 1
s 1
t 1
u 1
v 1
w 1
x 1
y 1
z 2
.. Unicode big endian \ unicode ..
1!
þ 1
ÿ 1
28
a 1
b 1
c 1
d 1
e 1
f 1
g 1
h 1
i 1
j 1
k 1
l 1
m 1
n 1
o 1
p 1
q 1
r 1
s 1
t 1
u 1
v 1
w 1
x 1
y 1
z 1
但是如您所见,输出在每种情况下都有些la脚!
如果您需要,我可以提供更多信息,请告诉我如何获取。
我的主要问题是:为什么会发生?我的代码有误吗?如何解决?
while (1) {
ifs >> buffer;
if (! ifs) break;
letterCount[buffer]+=1;
} ;
应该这样做。如果最后一次读取成功,则“ ifs”不会为假,仅当尝试读取超出其范围的内容时,它将被评估为“假”。但是在那一点上,“ z”作为最后一个字母不是被任何东西覆盖,并被计算两次。
这种读取文件的语法是对它的一次尝试。被创建为具有用于文本阅读的“漂亮界面”。我想说它不能击败通过文件调用read(ifs, &buffer, 1)
。
您的其他奇怪结果是由于您总是从文件中读取字节,并且从不尝试将这些字节解码为文本-因此BOM标记和2字节编码的额外字节称为“ unicode big endian”(正确的名称为“ utf-16 big endian”),其所有字节都被视为字符。