尝试找出最适合我的应用程序的LLM选项

问题描述 投票:0回答:1

我一直在努力了解现代 llms 的现状,但我不知道我一直在开发的应用程序应该采取什么方向,甚至我所有的选择是什么。我相信我们想要自己的托管模型,因为如果我们要获得用户,我们不希望受到限制或限制,并且我们将不得不进行大量端点调用。在某些情况下能够控制温度和数据源也很好。然而,我们确实没有多少钱,并且希望寻求最便宜的选择,并且可以在没有许可限制的情况下进行扩展(因为它将是一个商业应用程序)。我什至不确定在我设置的这些限制下这是否可能。

我们已经计划在 AKS 上托管我们的后端。因此,我们认为在那里托管一个模型也是有意义的,但根据我的研究,这样做的价格似乎是天文数字,我们必须在某些时期关闭该模型才能使其完全可行。另一种选择似乎是使用任意规模,或者将其托管在我自己的硬件上(尽管如果我们需要扩展,这似乎会带来问题)。

我一直认为开源模型是可行的方法,因为它具有灵活性、不受限制且没有许可证限制。但是,我开始认为私有端点最终可能是最便宜且最容易使用的。有人可以帮助我了解我当前的选择吗?我非常感谢任何指导和帮助。

azure-devops deployment nlp hosting large-language-model
1个回答
0
投票

我建议您开始通过 Azure 或 OpenAI 直接使用 OpenAIs GPT 3.5T,您可以控制所有这些事情的温度,并且您将拥有每分钟 240k 令牌 (Azure) 的令牌限制,这足以满足大多数用例。轻松适用于大多数实时聊天机器人。 这些模型的延迟和价格也很难匹配:https://openai.com/pricing 如果您有更长的提示,每个请求可能会消耗大约 500 个令牌,如果您执行一些 RAG,可能会消耗更多。

计算您可能期望有多少请求。即使是便宜的 GPU 每小时的成本也相当高:https://huggingface.co/pricing#endpoints 因此,托管开源模型只会给您带来真正开始拥有大量流量的优势。因为即使使用一块便宜的 GPU,您的吞吐量也是有限的。因此,一旦您需要超过 200-400k 代币限制,使用 TGI 或 VLLM 托管某些模型可能会变得有意义。他们提供相同的 OpenAI 规范,因此一旦您达到该规范,它就可以成为替代品,在此之前我不会自己托管模型。

© www.soinside.com 2019 - 2024. All rights reserved.