我在git文件中遇到了一个令人讨厌的CRLF LF冲突,可能是从Windows机器上提交的。有没有一种跨平台的方法(最好是在Python中)来检测文件中哪种类型的换行符是主要的?
我有这样的代码 (基于来自于 https:/stackoverflow.coma10562258239247):
import sys
if not sys.argv[1:]:
sys.exit('usage: %s <filename>' % sys.argv[0])
with open(sys.argv[1],"rb") as f:
d = f.read()
crlf, lfcr = d.count('\r\n'), d.count('\n\r')
cr, lf = d.count('\r'), d.count('\n')
print('crlf: %s' % crlf)
print('lfcr: %s' % lfcr)
print('cr: %s' % cr)
print('lf: %s' % lf)
print('\ncr-crlf-lfcr: %s' % (cr - crlf - lfcr))
print('lf-crlf-lfcr: %s' % (lf - crlf - lfcr))
print('\ntotal (lf+cr-2*crlf-2*lfcr): %s\n' % (lf + cr - 2*crlf - 2*lfcr))
但它给出的统计数字是错误的(对于 本文件):
crlf: 1123
lfcr: 58
cr: 1123
lf: 1123
cr-crlf-lfcr: -58
lf-crlf-lfcr: -58
total (lf+cr-2*crlf-2*lfcr): -116
import sys
def calculate_line_endings(path):
# order matters!
endings = [
b'\r\n',
b'\n\r',
b'\n',
b'\r',
]
counts = dict.fromkeys(endings, 0)
with open(path, 'rb') as fp:
for line in fp:
for x in endings:
if line.endswith(x):
counts[x] += 1
break
print(counts)
if __name__ == '__main__':
if len(sys.argv) == 2:
calculate_line_endings(sys.argv[1])
sys.exit('usage: %s <filepath>' % sys.argv[0])
给你的文件输出
crlf: 1123
lfcr: 0
cr: 0
lf: 0
足够吗?
在git中处理行尾的最好方法是使用git配置。你可以定义在全局范围内,在特定的仓库中,或者针对特定的文件,到底必须对行结尾做什么处理。在 .gitattributes
文件,您可以定义某些文件必须在每次结账时转换为系统的原生行尾,并在结账时转换回来。请看 GitHub 行结束帮助 的详细描述。
根据我所看到的情况,我建议检查一下你是否有以下情况。\r\n\r\n\r\n
. 按照你的代码,这将算作以下情况。
crlf: 3 -- [\r\n][\r\n][\r\n]
lfcr: 2 -- \r[\n\r][\n\r]\n
cr: 3 -- [\r]\n[\r]\n[\r]\n
lf: 3 -- \r[\n]\r[\n]\r[\n]
cr-crlf-lfcr: -2
lf-crlf-lfcr: -2
total (lf+cr-2*crlf-2*lfcr): -4
你可以看到一些 \n
的和一些 \r
's被计算两次 crlf
和 lfcr
. 相反,你可以逐行阅读,并计算行尾的数量。line.endswith()
. 要获得准确的统计数据,请点击 cr
和 lf
便可 \r\n
和 \n\r
为 cr+1 和 lf+1。
发布的代码不能正常工作,因为Counter是计算文件中的字符--它没有寻找像下面这样的字符对。\r\n
和 \n\r
.
下面是一些Python 2.6的代码,它可以找到4个EOL标记的每一次出现。\r\n
, \n\r
, \r
和 \n
使用一个regex。诀窍是寻找 \r\n
和 \n\r
对,然后再寻找单字符EOL标记。
为了测试的目的,它会创建一些随机的文本数据;在我注意到你的测试文件链接之前,我写了这个。
#!/usr/bin/env python
''' Find and count various line ending character combinations
From http://stackoverflow.com/q/29695861/4014959
Written by PM 2Ring 2015.04.17
'''
import random
import re
from itertools import groupby
random.seed(42)
#Make a random text string containing various EOL combinations
tokens = list(2*'ABCDEFGHIJK ' + '\r\n') + ['\r\n', '\n\r']
datasize = 300
data = ''.join([random.choice(tokens) for _ in range(datasize)])
print repr(data), '\n'
#regex to find various EOL combinations
pat = re.compile(r'\r\n|\n\r|\r|\n')
eols = pat.findall(data)
print eols, '\n'
grouped = [(len(list(group)), key) for key, group in groupby(sorted(eols))]
print sorted(grouped, reverse=True)
输出
'FAHGIG\rC AGCAFGDGEKAKHJE\r\nJCC EKID\n\rKD F\rEHBGICGCHFKKFH\r\nGFEIEK\n\rFDH JGAIHF\r\n\rIG \nAHGDHE\n G\n\rCCBDFK BK\n\rC\n\r\rAIHDHFDAA\r\n\rHCF\n\rIFFEJDJCAJA\r\n\r IB\r\r\nCBBJJDBDH\r FDIFI\n\rGACDGJEGGBFG\n\rBGGFD\r\nDBJKFCA BIG\n\rC J\rGFA HG\nA\rDB\n\r \n\r\n EBF BK\n\rHJA \r\n\n\rDIEI\n\rEDIBEC E\r\nCFEGGD\rGEF EC\r\nFIG GIIJCA\n\r\n\rCFH\r\n\r\rKE HF\n\rGAKIG\r\nDDCDHEIFFHB\n C HAJFHID AC\r'
['\r', '\r\n', '\n\r', '\r', '\r\n', '\n\r', '\r\n', '\r', '\n', '\n', '\n\r', '\n\r', '\n\r', '\r', '\r\n', '\r', '\n\r', '\r\n', '\r', '\r', '\r\n', '\r', '\n\r', '\n\r', '\r\n', '\n\r', '\r', '\n', '\r', '\n\r', '\n\r', '\n', '\n\r', '\r\n', '\n\r', '\n\r', '\r\n', '\r', '\r\n', '\n\r', '\n\r', '\r\n', '\r', '\r', '\n\r', '\r\n', '\n', '\r']
[(17, '\n\r'), (14, '\r'), (12, '\r\n'), (5, '\n')]
这是一个从命名文件中读取数据的版本,按照问题中的代码模式。
import re
from itertools import groupby
import sys
if not sys.argv[1:]:
exit('usage: %s <filename>' % sys.argv[0])
with open(sys.argv[1], 'rb') as f:
data = f.read()
print repr(data), '\n'
#regex to find various EOL combinations
pat = re.compile(r'\r\n|\n\r|\r|\n')
eols = pat.findall(data)
print eols, '\n'
grouped = [(len(list(group)), key) for key, group in groupby(sorted(eols))]
print sorted(grouped, reverse=True)