如何从python中的两个文件中找到常用的模式集?

问题描述 投票:1回答:3

我有file1列为:

- 
er
we
ds,e3,kj
uy,mn
po
qw
pi
pi,f

File2列为:

- 
df
we
wr
f,pi
ds,kj,e3
rt,uy
qw
po

我尝试了以下代码,但它没有按预期工作: -

my_set1 = set(x.strip() for x in (open('file1').readlines()))
print(my_set1)
my_set2 = set(x.strip() for x in (open('file2').readlines()))
print(my_set2)

my_list=list((set(my_set1).intersection(set(my_set2))))
print(my_list,"\n")

with open('common_signals','w') as file3:
    for signal in my_list:
        file3.write("%s\n" %signal)

我得到的常见信号输出是:qazxsw poi。

它有NEGLECTED - po ,we ,qwds , kj

有人可以帮忙吗?

python file signals
3个回答
0
投票

这是因为字符串“ds,e3,kj”和“ds,kj,e3”的含义不相等。如果你需要对这种类型的模式进行处理,那么将它们作为字符串处理,然后尝试对它们进行ferst并在之后进行比较。

e3 ,uy,pi,f

0
投票

您需要将行拆分为子字符串。 ('ds,kj,e3'为例)

尝试使用方法'get_set_of_words'。

该方法返回一个可用于交集的集合。

if ',' in line:
    line = ','.join(sorted(line.split(',')))

0
投票

稍微修改的代码版本将产生所需的结果:

def get_set_of_words(file_name):
    result = set()
    with open(file_name) as f:
        lines = [w.strip() for w in f.readlines()]
        for line in lines:
            words = line.split(',')
            for word in words:
                result.add(word) 
    return result

你需要拆分每个列表元素然后使用my_set1 = sum([x.strip().split(',') for x in open('file1').readlines()],[]) print(my_set1) my_set2 = sum([x.strip().split(',') for x in open('file2').readlines()],[]) print(my_set2) my_list=list((set(my_set1).intersection(set(my_set2)))) print(my_list,"\n") with open('common_signals','w') as file3: for signal in my_list: file3.write("%s\n" %signal) 你可以sum列表。

结果:

flatten
© www.soinside.com 2019 - 2024. All rights reserved.