[在Python3和熊猫中,我想用分隔符“;”打开CSV文件。以及拉丁文1。这是一个没有列名的文件。可以看到该文件here
但是,在文本编辑器中,我注意到文件的某些行中的字符为“;”。在内容或引号中间
然后生成的数据框为空:
import pandas as pd kwargs = {'sep': ';', 'dtype': str, 'encoding': 'latin-1'} teste_2016 = pd.read_csv("/home/reinaldo/Documentos/Code/e_sic_federal/2016/20200215_Pedidos_csv_2016.csv", **kwargs) teste_2016.info() <class 'pandas.core.frame.DataFrame'> RangeIndex: 167286 entries, 0 to 167285 Data columns (total 21 columns): ÿþ3 0 non-null object Unnamed: 1 0 non-null object Unnamed: 2 0 non-null object Unnamed: 3 0 non-null object Unnamed: 4 0 non-null object Unnamed: 5 0 non-null object Unnamed: 6 0 non-null object Unnamed: 7 0 non-null object Unnamed: 8 0 non-null object Unnamed: 9 0 non-null object Unnamed: 10 0 non-null object Unnamed: 11 0 non-null object Unnamed: 12 0 non-null object Unnamed: 13 0 non-null object Unnamed: 14 0 non-null object Unnamed: 15 0 non-null object Unnamed: 16 0 non-null object Unnamed: 17 0 non-null object Unnamed: 18 0 non-null object Unnamed: 19 0 non-null object Unnamed: 20 0 non-null object dtypes: object(21) memory usage: 26.8+ MB
我认识到它是格式错误的CSV,但是很遗憾,它是我现在从事的项目中唯一的信息源。这是一个公共机构CSV
请,有人知道从这样的文件创建正确的数据框的策略吗?
[在Python3和熊猫中,我想用分隔符“;”打开CSV文件。以及拉丁文1。这是一个没有列名的文件。可以在此处看到该文件。但是,在文本编辑器中,我注意到......>
您可以将两个分隔符与delimiter=",|;"
一起使用
import pandas as pd
kwargs = {'sep': ';|\";\"', 'dtype': str, 'encoding': 'latin-1'}
teste_2016 = pd.read_csv("/home/reinaldo/Documentos/Code/e_sic_federal/2016/20200215_Pedidos_csv_2016.csv", **kwargs)
teste_2016.info()