找回密码
 立即注册
搜索

AI大模型,怎样才能不被GPU“卡脖子”?

admin 2024-4-30 15:47:57 阅读 3298
引言

大型语言模型(LLM)已经在多个领域得到应用,其重要性不言而喻。然而,随着这些模型变得越来越普遍,对GPU资源的需求也随之激增,导致了资源的紧缺。这种紧缺主要源于以下几个方面的原因:

技术发展需求:随着人工智能技术的快速发展,特别是在深度学习和大型语言模型领域,对GPU的需求急剧增加。这些模型需要大量的计算资源进行训练和推理,而GPU因其并行处理能力成为首选硬件。

市场供应限制:GPU的市场供应受到多种因素的限制,包括生产能力、原材料成本、市场需求等。此外,加密货币挖矿的需求也对GPU的供应造成了压力。

研发成本回收:GPU作为高技术含量的产品,其研发和生产成本较高。为了回收成本并实现盈利,GPU的价格也随之上涨。

国际形势影响:国际贸易政策和政治形势的变化也可能影响GPU的供应链,进一步加剧资源紧缺的状况。

显存碎片化问题

显存碎片化指的是显存中存在许多零散的小块空闲空间,这些空间无法被利用来分配较大的连续内存块,从而降低了显存的使用效率。由于GPU资源受限,通过高效地使用显存可以相较而言,更好地提升大模型的推理和训练效果。

显存碎片化主要由动态内存分配、多任务运行和不同内存需求造成。在模型推理或训练过程中,程序会频繁申请和释放显存,导致显存中留下许多无法被重新利用的小块空间。在共享的GPU环境中,多个任务可能会同时运行,每个任务都有自己的显存需求,这可能导致显存分配不均,进一步产生碎片。此外,不同的模型或模型的不同部分可能需要不同大小的显存块,使得难以找到合适的连续空间来满足某些大块内存需求。

这种显存碎片化会降低显存的整体使用率,使得实际可用的显存可能不足以支持大模型的运行,从而会增加模型的推理或训练时间,并限制了可以加载到显存中的模型大小,因为大模型需要连续的大块显存空间。这些因素共同影响了大模型推理或训练的效率和可行性。

为了应对这些挑战,业界和学术界正在探索多种解决方案,包括优化模型结构以减少资源需求、改进显存管理策略、使用专用硬件和软件工具来提高GPU利用率等。通过这些努力来缓解GPU资源紧缺的压力,更有效地利用计算资源从而提升大型模型推理的效率和可行性。

vLLM加速推理框架

vLLM是一种解决当前GPU资源限制的方案,它是一个快速且易于使用的LLM推理和服务库。它在服务吞吐量方面是最先进的框架,同时开创性地使用PagedAttention高效管理注意力键和值内存,并且支持多种量化模型等,不仅如此它还与Hugging Face模型无缝衔接,对分布式推理并行支持兼容OpenAI的API服务器,还支持了上百种开源模型。

vLLM由加州大学伯克利分校开发,2023年期间在Chatbot Arena和Vicuna Demo进行了部署。即使像LMSYS这样的小型研究团队计算资源有限,也能负担得起LLM服务的核心技术。随后Koala和 LLaMA等越来越多受欢迎的模型都开始使用vLLM提供服务。

vLLM采用了分页注意力算法(PagedAttention),这是一个新型注意力算法,可有效管理注意力键和值。配备分页注意力算法的vLLM重新定义了LLM服务的新技术水平:它的吞吐量比HuggingFace Transformers高出24倍,而且无需更改任何模型架构。


(0)
admin管理员
1.jpg

发表回复

开灯关灯
返回顶部