是否有100%可靠且可行的方式来查找文件的编码。我尝试了BOM,但是有时会失败,是否还有其他完美的方法,或者完全不可能?
编号几乎任何字节的随机累积在大多数单字节编码(例如ISO-8859等)中都是有效的。它可能会产生无意义的字符,但它是valid。尝试不同的单字节编码会产生different废话,但就编码而言,全部都是valid。因此,您接下来要进入自然语言处理领域,以找出某种废话序列是否比另一种废话更有意义,然后开始使用置信度指数对猜测进行评分。从定义上讲,这不是100%可靠的方式,这是猜测。
唯一可以确定的事情是rule out某些具有更严格规则的编码;例如并非每个字节序列都在UTF-8中有效。如果尝试将其解码为UTF-8并且解码器抱怨,则可以排除该编码。仅剩下数百名其他候选人...