AI大模型，怎样才能不被GPU“卡脖子”？

admin · 2024-4-30 15:47:57

引言

大型语言模型（LLM）已经在多个领域得到应用，其重要性不言而喻。然而，随着这些模型变得越来越普遍，对GPU资源的需求也随之激增，导致了资源的紧缺。这种紧缺主要源于以下几个方面的原因：

技术发展需求：随着人工智能技术的快速发展，特别是在深度学习和大型语言模型领域，对GPU的需求急剧增加。这些模型需要大量的计算资源进行训练和推理，而GPU因其并行处理能力成为首选硬件。

市场供应限制：GPU的市场供应受到多种因素的限制，包括生产能力、原材料成本、市场需求等。此外，加密货币挖矿的需求也对GPU的供应造成了压力。

研发成本回收：GPU作为高技术含量的产品，其研发和生产成本较高。为了回收成本并实现盈利，GPU的价格也随之上涨。

国际形势影响：国际贸易政策和政治形势的变化也可能影响GPU的供应链，进一步加剧资源紧缺的状况。

显存碎片化问题

显存碎片化指的是显存中存在许多零散的小块空闲空间，这些空间无法被利用来分配较大的连续内存块，从而降低了显存的使用效率。由于GPU资源受限，通过高效地使用显存可以相较而言，更好地提升大模型的推理和训练效果。

显存碎片化主要由动态内存分配、多任务运行和不同内存需求造成。在模型推理或训练过程中，程序会频繁申请和释放显存，导致显存中留下许多无法被重新利用的小块空间。在共享的GPU环境中，多个任务可能会同时运行，每个任务都有自己的显存需求，这可能导致显存分配不均，进一步产生碎片。此外，不同的模型或模型的不同部分可能需要不同大小的显存块，使得难以找到合适的连续空间来满足某些大块内存需求。

这种显存碎片化会降低显存的整体使用率，使得实际可用的显存可能不足以支持大模型的运行，从而会增加模型的推理或训练时间，并限制了可以加载到显存中的模型大小，因为大模型需要连续的大块显存空间。这些因素共同影响了大模型推理或训练的效率和可行性。

为了应对这些挑战，业界和学术界正在探索多种解决方案，包括优化模型结构以减少资源需求、改进显存管理策略、使用专用硬件和软件工具来提高GPU利用率等。通过这些努力来缓解GPU资源紧缺的压力，更有效地利用计算资源从而提升大型模型推理的效率和可行性。

vLLM加速推理框架

vLLM是一种解决当前GPU资源限制的方案，它是一个快速且易于使用的LLM推理和服务库。它在服务吞吐量方面是最先进的框架，同时开创性地使用PagedAttention高效管理注意力键和值内存，并且支持多种量化模型等，不仅如此它还与Hugging Face模型无缝衔接，对分布式推理并行支持兼容OpenAI的API服务器，还支持了上百种开源模型。

vLLM由加州大学伯克利分校开发，2023年期间在Chatbot Arena和Vicuna Demo进行了部署。即使像LMSYS这样的小型研究团队计算资源有限，也能负担得起LLM服务的核心技术。随后Koala和 LLaMA等越来越多受欢迎的模型都开始使用vLLM提供服务。

vLLM采用了分页注意力算法（PagedAttention），这是一个新型注意力算法，可有效管理注意力键和值。配备分页注意力算法的vLLM重新定义了LLM服务的新技术水平：它的吞吐量比HuggingFace Transformers高出24倍，而且无需更改任何模型架构。