如何在受限环境中在 llama-index 中运行本地开源 LLM?

问题描述 投票:0回答:1

我有一个问题,关于如何在相对受限的环境中为 RAG 最好地运行带有 llama-index 的本地 LLM(全开源)(绝对没有 API 调用,没有从外部 GitRepos 安装,也没有 Ollama 或 vLLM - 基本上涵盖了我迄今为止所经历的一切以及我遇到的所有例子......)

我现在的做法是用AWQ加载量化模型,然后将其传递给query_engine,但是HuggingfaceLLM似乎不支持本地存储的模型?

我的具体问题是,如果我加载这样的模型:

from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer

model_name_or_path = "local path to folder/model"

# Load model
model = AutoAWQForCausalLM.from_quantized(model_name_or_path, fuse_layers=True,trust_remote_code=False, safetensors=True)

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, trust_remote_code=False)

那么我该如何进一步将其集成到 llama-index 中?我需要编写自定义 LLM 课程吗?

还有其他选择可以实现这一目标吗?硬件不会成为问题,我的问题是包含模型的最佳方法。

提前致谢!

large-language-model huggingface llama-index retrieval-augmented-generation
1个回答
0
投票

我的建议是使用 ollama 并熟悉它,您可以获取已经可用的 LLM,或者在您只需检查他们的图书馆和他们的指南这里添加一个 LLM,这是他们的存储库https://github.com/ollama/ollama,网站 https://ollama.com/ 以及 llama3 的 Ollama 示例 llamaIndex 页面 https://docs.llamaindex.ai/en/stable/examples/llm/ollama/

© www.soinside.com 2019 - 2024. All rights reserved.