information-retrieval 相关问题

信息检索是一个研究领域,涉及从非结构化或半结构化数据集合中检索文档,信息或元数据。

像pinecone这样的托管向量数据库可以支持MMR吗

为了获得搜索结果的多样性,我想为此使用最大边际相关性。 我想从类似于问题的向量数据库中获取 N 个文档,然后我想获取其中的文档...

回答 1 投票 0

使用as_retriever search_kwargs参数过滤langchain矢量数据库

如何使用 as_retriever 函数中的 search_kwargs 参数过滤 langchain 矢量数据库? 这是一个例子来说明我想做的事情: # 假设我有以下向量

回答 1 投票 0

沃尔玛价格标签上的代码代表什么(“VEN”、“AR”、“AS”、“WR”等)?

我正在编写一个程序来读取本地商店的不同定价标签(这些贴纸通常位于产品下方并显示价格)。在沃尔玛标签上,有一些我...

回答 2 投票 0

Chromadb + Langchain 与 SentenceTransformerEmbeddingFunction 抛出 sqlite3 >= 3.35.0 错误,尽管 sqlite3 3.43.0 可用

我一直在尝试使用 Chromadb 版本 0.4.8 Langchain版本0.0.276 使用 SentenceTransformerEmbeddingFunction,如下面的代码片段所示。 从 langchain.vectorstores 导入 Chroma 来自

回答 1 投票 0

矢量搜索如何能够匹配精确的关键字,即使是随机生成且没有意义的单词?

我正在为我的基于 LLM 的项目做一些 POC,为此我使用矢量数据库进行文档检索 (IR)。 最近,我看到了一些来自一些最著名的矢量数据库的博客......

回答 2 投票 0

一元词和二元词

编写代码来循环遍历语料库并创建一个包含每个文档中的一元和二元标记的倒排索引。 导入操作系统 进口再 从集合导入defaultdict 导入时间

回答 1 投票 0

矢量搜索如何能够匹配精确的关键字(即使是随机生成且没有意义的单词)

我正在为我的基于 LLM 的项目做一些 POC,为此我使用矢量数据库进行文档检索 (IR)。 最近,我看到了一些来自一些最著名的矢量数据库的博客......

回答 1 投票 0

使用 ConversationalRetrievalChain、Stuff 和 Chailit UI 获取源文档并评分

我在尝试从此代码导出源文档和分数时遇到问题。我尝试了很多东西,但无法检索它。我最多能做的就是将我的需求传递给提示,这样......

回答 1 投票 0

使用 Langchain 的检索与 .from_llm 或定义 LLMChain 有什么区别?

在文档中,我看到了两种构造模式,我对两者之间的区别有点困惑。我不知道是否有任何实际差异,或者差异是否相同......

回答 1 投票 0

计算词频权重和IDF、逆文档频率时为什么要用log?

IDF 的公式是 log( N / df t ) 而不是 N / df t 。 其中 N = 集合中的文档总数,df t = 术语 t 的文档频率。 据说使用原木是因为它“抑制”了

回答 5 投票 0

Chromadb + Langchain + SentenceTransformerEmbeddingFunction 抛出“SentenceTransformerEmbeddingFunction”对象没有属性“embed_documents”

我一直在尝试使用 Chromadb 版本 0.4.8 Langchain版本0.0.276 使用 SentenceTransformerEmbeddingFunction,如下面的代码片段所示。 从 langchain.vectorstores 导入 Chroma 来自

回答 1 投票 0

使用 URL 或服务嵌入 Huggingface 教练

目前我使用 Astro Airflow 将文档插入数据库向量。问题是当我想调用instructor-xl时,总是出错: 正在下载 (…)7f436/tokenizer.json: 100%|##########| 2.4...

回答 1 投票 0

矢量数据库和全文搜索有什么区别?

我目前正在为我的个人文档构建一个信息搜索系统,并且我一直在阅读向量数据库(关于LangChain之类的东西)和全文

回答 1 投票 0

拆分查询还是使用原始查询在矢量数据库中搜索?

例如我有一个查询“纽约的中餐馆” 我希望查询结果中出现更多不同的单词,越多越好 拆分查询 ["chinese", "resturan...

回答 0 投票 0

基于嵌入的搜索

我正在尝试在文档中创建基于嵌入的搜索,其中包括标题、标题和内容。 这样我们就有了包含标题、标题和内容的数据框。 工作流程: 检索 k pa...

回答 1 投票 0

如何对文档动态派生属性的弹性查询结果进行评分

我有一个关于信息检索模式的问题。 我的搜索集群中有近 1000 万份这样的文档 { “id”:“7ftCdTQAAAAJ”, “作者”:[ ...

回答 0 投票 0

如何从linkedin搜索和获取用户和公司的数据?

我想构建一个可以从 linkedin 抓取信息的软件。就像 (seamless.ai) 如果用户搜索用户名或公司名称,该软件将显示该用户或 com 的详细信息......

回答 0 投票 0

R 中的函数/代码是 colnames() 的 class() 变体

我正在比较 R 中的多个数据框,每个数据框都有多个列,这些列应该具有相同的名称和相同的数据类型。我知道如何在检查匹配时简单地编码 TRUE/FALSE 结果

回答 1 投票 0

具有中等训练数据大小的简历解析最佳模型

目前我正在为突尼斯简历构建一个简历解析器,它将是英语和法语我开始研究我发现太多模型,现在我缩小了使用 SpaCy cust 的范围......

回答 0 投票 0

为 LTR 上传训练模型时出现 APACHE SOLR 错误

我训练了一个排名模型,但无法将 json 文件上传到 SOLR。 我收到以下错误: “msg”:“org.apache.solr.ltr.model.ModelException:...的输出矩阵

回答 0 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.