有没有找到文本或csv文件编码的100%可靠且可行的方法

问题描述 投票:0回答:1

是否有100%可靠且可行的方式来查找文件的编码。我尝试了BOM,但是有时会失败,是否还有其他完美的方法,或者完全不可能?

file csv encoding utf-8
1个回答
0
投票

编号几乎任何字节的随机累积在大多数单字节编码(例如ISO-8859等)中都是有效的。它可能会产生无意义的字符,但它是valid。尝试不同的单字节编码会产生different废话,但就编码而言,全部都是valid。因此,您接下来要进入自然语言处理领域,以找出某种废话序列是否比另一种废话更有意义,然后开始使用置信度指数对猜测进行评分。从定义上讲,这不是100%可靠的方式,这是猜测。

唯一可以确定的事情是rule out某些具有更严格规则的编码;例如并非每个字节序列都在UTF-8中有效。如果尝试将其解码为UTF-8并且解码器抱怨,则可以排除该编码。仅剩下数百名其他候选人...

© www.soinside.com 2019 - 2024. All rights reserved.