我的任务是将一些数据上传到Solr,然后将其用于分析。
我知道Solr可以用xlsx文件格式索引数据。
在Solr的练习2中,以json,xml和csv的顺序索引以下文件:
bin/post -c films example/films/films.json
bin/post -c films example/films/films.xml
bin/post -c films example/films/films.csv -params "f.genre.split=true&f.directed_by.split=true&f.genre.separator=|&f.directed_by.separator=|"
我遇到的问题是虽然我索引了我的xlsx文件,它只在查询中显示一条记录,这意味着该文件可能被错误地编入索引,即它可能需要参数,例如csv文件所需的参数。谁能告诉我如何在不必将xlsx文件转换为csv文件的情况下完成索引?
您可以使用Apacha Tika在SOLR中索引这些格式。它将解析数据并执行索引。
参考链接:https://lucidworks.com/2009/09/02/content-extraction-with-tika/