如何从python中的两个文件中找到常用的模式集？

Question

我有file1列为：

- 
er
we
ds,e3,kj
uy,mn
po
qw
pi
pi,f

File2列为：

- 
df
we
wr
f,pi
ds,kj,e3
rt,uy
qw
po

我尝试了以下代码，但它没有按预期工作： -

my_set1 = set(x.strip() for x in (open('file1').readlines()))
print(my_set1)
my_set2 = set(x.strip() for x in (open('file2').readlines()))
print(my_set2)

my_list=list((set(my_set1).intersection(set(my_set2))))
print(my_list,"\n")

with open('common_signals','w') as file3:
    for signal in my_list:
        file3.write("%s\n" %signal)

我得到的常见信号输出是：qazxsw poi。

它有NEGLECTED - po ,we ,qw和ds , kj。

有人可以帮忙吗？

Answer 1

这是因为字符串“ds，e3，kj”和“ds，kj，e3”的含义不相等。如果你需要对这种类型的模式进行处理，那么将它们作为字符串处理，然后尝试对它们进行ferst并在之后进行比较。

e3 ,uy,pi,f

Answer 2

您需要将行拆分为子字符串。（'ds，kj，e3'为例）

尝试使用方法'get_set_of_words'。

该方法返回一个可用于交集的集合。

if ',' in line:
    line = ','.join(sorted(line.split(',')))

Answer 3

稍微修改的代码版本将产生所需的结果：

def get_set_of_words(file_name):
    result = set()
    with open(file_name) as f:
        lines = [w.strip() for w in f.readlines()]
        for line in lines:
            words = line.split(',')
            for word in words:
                result.add(word) 
    return result

你需要拆分每个列表元素然后使用my_set1 = sum([x.strip().split(',') for x in open('file1').readlines()],[]) print(my_set1) my_set2 = sum([x.strip().split(',') for x in open('file2').readlines()],[]) print(my_set2) my_list=list((set(my_set1).intersection(set(my_set2)))) print(my_list,"\n") with open('common_signals','w') as file3: for signal in my_list: file3.write("%s\n" %signal)你可以sum列表。

结果：

flatten

如何从python中的两个文件中找到常用的模式集？

问题描述投票：1回答：3

3个回答

最新问题

如何从python中的两个文件中找到常用的模式集？

问题描述 投票：1回答：3

3个回答

最新问题

问题描述投票：1回答：3