如何在受限环境中在 llama-index 中运行本地开源 LLM？

Question

我有一个问题，关于如何在相对受限的环境中为 RAG 最好地运行带有 llama-index 的本地 LLM（全开源）（绝对没有 API 调用，没有从外部 GitRepos 安装，也没有 Ollama 或 vLLM - 基本上涵盖了我迄今为止所经历的一切以及我遇到的所有例子......）

我现在的做法是用AWQ加载量化模型，然后将其传递给query_engine，但是HuggingfaceLLM似乎不支持本地存储的模型？

我的具体问题是，如果我加载这样的模型：

from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer

model_name_or_path = "local path to folder/model"

# Load model
model = AutoAWQForCausalLM.from_quantized(model_name_or_path, fuse_layers=True,trust_remote_code=False, safetensors=True)

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, trust_remote_code=False)

那么我该如何进一步将其集成到 llama-index 中？我需要编写自定义 LLM 课程吗？

还有其他选择可以实现这一目标吗？硬件不会成为问题，我的问题是包含模型的最佳方法。

提前致谢！

Answer 1

我的建议是使用 ollama 并熟悉它，您可以获取已经可用的 LLM，或者在您只需检查他们的图书馆和他们的指南这里添加一个 LLM，这是他们的存储库https://github.com/ollama/ollama，网站 https://ollama.com/ 以及 llama3 的 Ollama 示例 llamaIndex 页面 https://docs.llamaindex.ai/en/stable/examples/llm/ollama/

如何在受限环境中在 llama-index 中运行本地开源 LLM？

问题描述投票：0回答：1

1个回答

最新问题

如何在受限环境中在 llama-index 中运行本地开源 LLM？

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1