我有一个问题,关于如何在相对受限的环境中为 RAG 最好地运行带有 llama-index 的本地 LLM(全开源)(绝对没有 API 调用,没有从外部 GitRepos 安装,也没有 Ollama 或 vLLM - 基本上涵盖了我迄今为止所经历的一切以及我遇到的所有例子......)
我现在的做法是用AWQ加载量化模型,然后将其传递给query_engine,但是HuggingfaceLLM似乎不支持本地存储的模型?
我的具体问题是,如果我加载这样的模型:
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer
model_name_or_path = "local path to folder/model"
# Load model
model = AutoAWQForCausalLM.from_quantized(model_name_or_path, fuse_layers=True,trust_remote_code=False, safetensors=True)
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, trust_remote_code=False)
那么我该如何进一步将其集成到 llama-index 中?我需要编写自定义 LLM 课程吗?
还有其他选择可以实现这一目标吗?硬件不会成为问题,我的问题是包含模型的最佳方法。
提前致谢!
我的建议是使用 ollama 并熟悉它,您可以获取已经可用的 LLM,或者在您只需检查他们的图书馆和他们的指南这里添加一个 LLM,这是他们的存储库https://github.com/ollama/ollama,网站 https://ollama.com/ 以及 llama3 的 Ollama 示例 llamaIndex 页面 https://docs.llamaindex.ai/en/stable/examples/llm/ollama/