字节跳动应用机器学习团队开源了一款大模型训练框架

字节跳动应用机器学习团队开源了一款大模型训练框架

近日游戏引擎框架,字节跳动应用机器学习团队开源了一个名为veGiantModel的大型模型训练框架。 该训练框架主要用于自然语言处理领域的大型模型训练。 最高可将大型模型训练性能提升6.9倍,大大减轻训练系统的压力。 目前,字节跳动旗下企业级技术服务平台Volcano Engine已在其机器学习平台上原生支持veGiantModel,并正在公测中。

自然语言处理是人工智能研究的一个重要领域,旨在帮助计算机理解、解释和使用人类语言。 近年来,自然语言处理在应用上取得了重大突破,这主要得益于Bert、GPT、GPT-3等预训练语言模型的普及。 可以说,预训练语言模型已经成为人工智能领域的基础设施。 由于大模型算法的优越性能像素游戏素材,预训练语言模型近年来呈现出向大模型快速发展的趋势。 然而,模型规模的快速增长也给现有的训练系统带来了不小的挑战,主要体现在内存压力、计算压力和通信压力上。

针对现有训练体系在大模型训练场景下的上述挑战3D动画,字节跳动应用机器学习团队提出了大模型训练框架veGiantModel。

veGiantModel中文名称为Volcano Engine Large Model Training Framework,是基于开源深度学习框架PyTorch和Megatron、DeepSpeed两大开源主流训练框架的高性能大型模型训练框架。

veGiantModel可同时支持三种分布式并行策略:数据并行、算子切分、流水线并行游戏引擎框架,并支持自动化和定制化的并行策略; 基于自主研发的高性能异步通信库ByteCCL,veGiantModel的训练任务吞吐量相较于其他主流开源框架有1.2~3.5倍的提升,并提供更友好灵活的pipeline支持,减少所需人力用于模型开发迭代; 此外,veGiantModel 可以在 GPU 上高效地支持数十亿到数千个模型。 亿级参数的大模型对网络带宽要求较低,私有化部署时对RDMA没有强依赖。

与Megtraon和DeepSpeed的对比测试表明,veGiantModel性能最好,受网络带宽影响最小。 它在 Tesla V100 上有 1.2 到 3.5 倍的提升,在 Ampere A100 上最高有 6.9 倍的提升。

游戏引擎框架_html5游戏开源引擎_游戏服务端引擎

veGiantModel开源地址:

火山引擎机器学习平台公测地址: