尝试找出最适合我的应用程序的LLM选项

我一直在努力了解现代 llms 的现状，但我不知道我一直在开发的应用程序应该采取什么方向，甚至我所有的选择是什么。我相信我们想要自己的托管模型，因为如果我们要获得用户，我们不希望受到限制或限制，并且我们将不得不进行大量端点调用。在某些情况下能够控制温度和数据源也很好。然而，我们确实没有多少钱，并且希望寻求最便宜的选择，并且可以在没有许可限制的情况下进行扩展（因为它将是一个商业应用程序）。我什至不确定在我设置的这些限制下这是否可能。

我们已经计划在 AKS 上托管我们的后端。因此，我们认为在那里托管一个模型也是有意义的，但根据我的研究，这样做的价格似乎是天文数字，我们必须在某些时期关闭该模型才能使其完全可行。另一种选择似乎是使用任意规模，或者将其托管在我自己的硬件上（尽管如果我们需要扩展，这似乎会带来问题）。

我一直认为开源模型是可行的方法，因为它具有灵活性、不受限制且没有许可证限制。但是，我开始认为私有端点最终可能是最便宜且最容易使用的。有人可以帮助我了解我当前的选择吗？我非常感谢任何指导和帮助。

0
投票

我建议您开始通过 Azure 或 OpenAI 直接使用 OpenAIs GPT 3.5T，您可以控制所有这些事情的温度，并且您将拥有每分钟 240k 令牌 (Azure) 的令牌限制，这足以满足大多数用例。轻松适用于大多数实时聊天机器人。这些模型的延迟和价格也很难匹配：https://openai.com/pricing 如果您有更长的提示，每个请求可能会消耗大约 500 个令牌，如果您执行一些 RAG，可能会消耗更多。

计算您可能期望有多少请求。即使是便宜的 GPU 每小时的成本也相当高：https://huggingface.co/pricing#endpoints 因此，托管开源模型只会给您带来真正开始拥有大量流量的优势。因为即使使用一块便宜的 GPU，您的吞吐量也是有限的。因此，一旦您需要超过 200-400k 代币限制，使用 TGI 或 VLLM 托管某些模型可能会变得有意义。他们提供相同的 OpenAI 规范，因此一旦您达到该规范，它就可以成为替代品，在此之前我不会自己托管模型。

问题描述投票：0回答：1

1个回答

最新问题

尝试找出最适合我的应用程序的LLM选项

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1