我在s3中得到了2Gb csv文件(管道分隔),
在其上运行粘合爬虫,创建新表。
当从aws-athena运行查询时,它发现零记录(即使它正确地返回列)没有应用任何分区,只是尽可能默认运行爬虫。有什么建议吗?
note - 用于所有操作的aws控制台
查询未返回数据的可能性是
如果在添加爬网程序时在存储桶名称中指定了文件名。
Let's say your bucket name is testbucket and the csv file is test.csv,
so while adding the crawler you need to specify your bucket name as s3://testbucket/
and not s3://testbucket/test.csv
此外,如果字段由管道分隔,则它们将仅显示在单列下,因为文件扩展名为.csv(逗号分隔)。理想情况下,字段应以逗号分隔,以便获取正确的输出。
因此,请尝试如上所述指定存储桶名称。希望这会返回数据。
如果仍未返回数据,请尝试创建新的爬网程序,并在创建新爬网程序时不要使用现有的IAM角色。创建一个新角色。有时,IAM策略在获取数据时会出现故障。