CN113065642B

CN113065642B - 一种基于异构计算的人工智能加速方法及系统

Info

Publication number: CN113065642B
Application number: CN202110383757.3A
Authority: CN
Inventors: 李振兴; 江波; 丁湧; 姜鑫; 卜炜; 何加浪
Original assignee: Clp Digital Technology Co ltd; Cetc Digital Technology Group Co ltd
Current assignee: Clp Digital Technology Co ltd; Cetc Digital Technology Group Co ltd
Priority date: 2021-04-09
Filing date: 2021-04-09
Publication date: 2023-04-07
Anticipated expiration: 2041-04-09
Also published as: CN113065642A

Abstract

本发明提供了一种基于异构计算的人工智能加速系统及方法，包括：基于TensorFlow计算框架实现FPGA、CPU异构计算，并通过逐步提升TensorFlow计算框架中深度学习网络的学习率直至学习率达到门阀上限后，逐步下降，获取局部最优解，实现基于异构计算的人工智能加速。本发明结合CPU、FPGA多种计算单元，在Tensorflow计算框架的基础上，通过学习率控制优化、框架优化、通信优化3个方面，提升该计算框架的计算速率，比CPU计算单元，运行时长减少了90％。

Description

一种基于异构计算的人工智能加速方法及系统

技术领域

本发明涉及异构计算技术领域，具体地，涉及一种基于异构计算的人工智能加速方法及系统，更为具体地，涉及一种基于异构计算的人工智能加速框架。

背景技术

人工智能处理速度受限于CPU多跳转设计，以及网络中心节点的集中式网络拓扑，无法满足紧耦合数据的大吞吐量计算任务，为了提升人工智能的计算速度，减少等待时间，需要利用并行计算机制，提升人工智能计算的运行速度，减少运行时间。GraphLab，CNTK，TensorFlow和Gorila等分布式处理框架虽然提升了人工智能算法的并行计算速率，但是处理对象主要是松耦合数据，在面对紧耦合数据时，计算能力表现的尤为不足。根本原因是这些分布式处理框架为了尽可能得到理想中的目标分类器，这些技术算法框架都采用了集中式的训练框架，这种框架将各计算节点上计算得到的参数都传递到了中心节点上，降低了网络的吞吐效率，造成了严重的网络拥塞，使中心节点成为整个网络，乃至整个系统性能提升的瓶颈。在面对自然语言识别等训练样本多、训练时间长，训练参数多的复杂训练任务，这种集中式的学习框架就不再适用。

为了解决中心节点拥塞问题，Uber在百度Ring Allreduce的基础上，提出了基于GPU的Horovod计算框架，该框架将网络设计为环路，解决了中心节点拥塞的风险，降低了训练时长，提高了系统吞吐量。

Sridharan等人提出Machine Learning Scaling Library设计框架，在云或者HPC集群中，利用Omni_path、InfiniBand高速网络等先进技术，实现了同步随机梯度下降，在分布式环境中，加速AI应用，取得较低的误差。Cho等人设计出了PowerAI DDL，通过优化通信协议，利用multi-ring提升了分布式环境下的深度学习效果。

专利文献CN107346170A(申请号：201710596217.7)公开了一种FPGA异构计算加速系统，包括现场可编程门阵列FPGA芯片；控制模块，用于确定待降低功耗的FPGA卡，并生成与各个待降低功耗的FPGA卡对应的控制指令；与FPGA芯片一一对应的控制寄存器，用于接收与自身对应的控制指令，并根据控制指令控制与FPGA芯片对应的电源模块的开关状态和/或控制FPGA芯片的工作状态。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于异构计算的人工智能加速系统及方法。

根据本发明提供的一种基于异构计算的人工智能加速系统，包括：基于TensorFlow计算框架实现FPGA、CPU异构计算，并通过逐步提升TensorFlow计算框架中深度学习网络的学习率直至学习率达到门阀上限后，逐步下降，获取局部最优解，实现基于异构计算的人工智能加速。

优选地，所述TensorFlow计算框架中深度学习网络的学习率包括：根据深度学习网络的不同层级采用不同幅度的学习率，以适应深度学习网络的多层级结构。

优选地，还包括：根据CPU和FPGA的运行状态，分析计算线程不足是影响TensorFlow性能的关键问题，优化神经网络节点权值计算方式，改善AI在集群环境中的吞吐量，实现基于异构计算的人工智能加速。

优选地，所述优化神经网络节点权值计算方式包括：使用批处理的方法，对对ResNet-50的计算单元进行权值计算，并更新到Tensorflow中。

优选地，还包括：调整数据包大小和调度数据包的最佳通信时机，实现基于异构计算的人工智能加速。

优选地，所述调整数据包大小包括：深度学习中不同层的梯度信息因层级而定，设置预设大小的数据包，每条数据包上包含多个梯度信息，减少数据包的发送数量，减少allreduce操作带来的网络延时。

优选地，所述调整的最佳通信时机包括：

调整的最佳通信时机模块M1：将深度学习网络中相邻的预设层的进程进行归组；

调整的最佳通信时机模块M2：针对当前组设置门限，基于设置的门限控制当前组中发送数据包的进程；

调整的最佳通信时机模块M3：当当前组完成allreduce操作产生的数据包发送后，另一组再开始allreduce操作。

根据本发明提供的一种基于异构计算的人工智能加速方法，包括：基于TensorFlow计算框架实现FPGA、CPU异构计算，并通过逐步提升TensorFlow计算框架中深度学习网络的学习率直至学习率达到门阀上限后，逐步下降，获取局部最优解，实现基于异构计算的人工智能加速；

所述TensorFlow计算框架中深度学习网络的学习率包括：根据深度学习网络的不同层级采用不同幅度的学习率，以适应深度学习网络的多层级结构。

优选地，还包括：根据CPU和FPGA的运行状态，分析计算线程不足是影响TensorFlow性能的关键问题，优化神经网络节点权值计算方式，改善AI在集群环境中的吞吐量，实现基于异构计算的人工智能加速；

所述优化神经网络节点权值计算方式包括：使用批处理的方法，对对ResNet-50的计算单元进行权值计算，并更新到Tensorflow中。

优选地，还包括：调整数据包大小和调度数据包的最佳通信时机，实现基于异构计算的人工智能加速；

所述调整数据包大小包括：深度学习中不同层的梯度信息因层级而定，设置预设大小的数据包，每条数据包上包含多个梯度信息，减少数据包的发送数量，减少allreduce操作带来的网络延时；

所述调整的最佳通信时机包括：

调整的最佳通信时机步骤S1：将深度学习网络中相邻的预设层的进程进行归组；

调整的最佳通信时机步骤S2：针对当前组设置门限，基于设置的门限控制当前组中发送数据包的进程；

调整的最佳通信时机步骤S3：当当前组完成allreduce操作产生的数据包发送后，另一组再开始allreduce操作。

与现有技术相比，本发明具有如下的有益效果：

1、本发明结合CPU、FPGA多种计算单元，在Tensorflow计算框架的基础上，通过学习率控制优化、框架优化、通信优化3个方面，提升该计算框架的计算速率，比CPU计算单元，运行时长减少了90％。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为随着数据包大小变化的准确率。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例1

根据本发明提供的一种基于异构计算的人工智能加速系统，其特征在于，包括：基于TensorFlow计算框架实现FPGA、CPU异构计算，并通过逐步提升TensorFlow计算框架中深度学习网络的学习率直至学习率达到门阀上限后，逐步下降，获取局部最优解，实现基于异构计算的人工智能加速。

具体地，所述TensorFlow计算框架中深度学习网络的学习率包括：根据深度学习网络的不同层级采用不同幅度的学习率，以适应深度学习网络的多层级结构。

具体地，还包括：根据CPU和FPGA的运行状态，分析计算线程不足是影响TensorFlow性能的关键问题，优化神经网络节点权值计算方式，改善AI在集群环境中的吞吐量，实现基于异构计算的人工智能加速。

具体地，所述优化神经网络节点权值计算方式包括：使用批处理的方法，对对ResNet-50的计算单元进行权值计算，并更新到Tensorflow中。

具体地，还包括：调整数据包大小和调度数据包的最佳通信时机，实现基于异构计算的人工智能加速。

具体地，所述调整数据包大小包括：深度学习中不同层的梯度信息因层级而定，设置预设大小的数据包，每条数据包上包含多个梯度信息，减少数据包的发送数量，减少allreduce操作带来的网络延时。

具体地，所述调整的最佳通信时机包括：

具体地，还包括：根据CPU和FPGA的运行状态，分析计算线程不足是影响TensorFlow性能的关键问题，优化神经网络节点权值计算方式，改善AI在集群环境中的吞吐量，实现基于异构计算的人工智能加速；

具体地，还包括：调整数据包大小和调度数据包的最佳通信时机，实现基于异构计算的人工智能加速；

所述调整的最佳通信时机包括：

实施例2

实施例2是实施例1的优选例

针对已有的GPU、CPU，纯CPU计算架构上的人工智能加速框架，通过适当牺牲学习机准确率、泛化效果的基础上，利用FPGA计算单元，设计FPGA、CPU异构计算框架，实现针对紧耦合数据的高性能计算框架，减少运行时间，提升人工智能处理速率，如图1所示。

在Tensorflow计算框架的基础上，通过学习率控制优化、框架优化、通信优化3个方面，提升该计算框架的计算速率，提升计算框架的运行时效。

准确性提升：使用了广泛应用的随机梯度下降(SGD)，这个算法常常用于深度学习优化器。在训练大量小型批量任务时，随着小型批量规模增大，SGD的更新次数会逐步减少。使用以下技术解决准确率提升问题。

学习率控制：为了快速训练，达到收敛，需要较大的学习率。然而，在训练初期，高学习率使得模型训练不稳定。因此，采用逐步提升学习率的方法来调整学习率。在学习速率达到门阀上限后，逐步下降，获取局部最优解。并且，针对深度学习网络中不同层级，采用不同幅度的学习率，以适应深度学习网络的多层级结构。

框架优化：基本计算框架采用Tensorflow，支持C和Python接口，还支持多种语言接口。Tensorflow具有很好的灵活性和可扩展性，这使得AI能够在集群上有效地训练模型。Tensorflow中只占一小部分的集中操作，很可能成为集群运行的瓶颈。通过分析CPU和FPGA的运行状态，找到计算线程不足是影响系统性能的关键问题，优化了神经网络节点权值计算方式，以改善AI在集群环境中的吞吐量，具体如下：

权值计算是根据样例和类标签进行的神经网络节点权值计算，将单点计算改成批处理，优化了Tensorflow系统计算方式。

FPGA上的范数计算：FPGA上的范数计算用于更新网络权值，是权值计算的一种；

需要对深度学习网络中每层的计算节点进行范数计算。相比ResNet-50中数量繁多的计算节点，FPGA没有足够多的线程。

所以使用批处理的方法，对ResNet-50的计算单元进行权值计算，并更新到Tensorflow中。相比单次计算，批处理可以提升计算的时效，减少运行时长。

通信优化：分布式并行深度学习需要allreduce操作来交换不同进程的梯度信息。Allreduce通信包头在集群中是不可忽视的，在计算任务都是耗时较短的时候，通信占据的时长将显得特别突出。

调整数据包大小：调整数据包大小：深度学习中不同层的梯度信息因层级而定。如果梯度信息过小，用较小的包发送，则会导致allreduce操作产生大量的包头数据。因此，为了减少allreduce操作带来的网络延时，必须设置较大的数据包，每条数据包上包含较多的梯度信息，减少包发送的数量。实验中，设置的文件以KB大小长度为准。

调度的最佳通信时机：当一部分节点完成计算任务后，就可以发起针对这些任务的allreduce操作，不必等待所有节点完成计算。但这样操作会使得部分后向传播发生冲突，为了减少冲突，需要设置一个门限，控制发送数据包的进程。并且，需要把相邻层的进程进行归组，保证整个通信过程不会发生冲突。实施中，根据相关性，将整个网络分成几组，当一组完成allreduce操作后，另一组再开始allreduce操作。

实施例3

实施例3是实施例1和/或实施例2的优选例

实验使用了9个Xeon E5计算节点，其中一个节点作为调度节点，另8个节点作为计算节点。每个计算节点配置一块Alveo U200作为加速器。每个节点安装一块ROCE网卡，节点之间通过以太网交换机连接。具体配置如下表1所示：

表1每个节点的硬件配置

硬件选项	需求
		CPU	IntelXeonE5
内存	192GB
		FPGA加速卡	AlveoU200
本地存储	1TBNVMeSSD
		存储	共享存储系统Lustre
网卡	25G双口ConnectX-4EN网卡
		操作系统	CentOS7.5

其中，调度节点采用slurm调度器。

存储系统采用Lustre，利用三个节点组成存储集群，共有25TB的共享空间。

实验数据集采用ImageNet 2012classification dataset。

使用混合精度方法，在计算、通信时采用半精度浮点数，更新权值时采用单精度浮点数。使用学习率优化方法训练样本，保证训练的准确率。

在ResNet-50实验中，取得了最好74.5％的准确率。如图1所示，

随着包大小的增长，准确率逐步下降。为了能够使得系统吞吐量最优，需要合理设置包的大小，以及发送报文的时机。

学习周期选择100。基于FPGA的高性能集群运行时长为27个小时。相同配置的CPU高性能计算集群运行时长会是FPGA的10倍以上。

该发明基于FPGA+CPU的异构计算技术，可以在高性能计算集群中，针对大量的小批量型任务，大幅提升分类准确率。在ResNet-50集群中，准确率达到74.5％。

利用CPU作为浮点计算节点，运行效率低，运行时长往往大幅超过FPGA、GPU。通过实验，可以发现FPGA在浮点计算方面性能优异，通过和MPI结合，利用高性能计算的优势，大幅提升AI的运行速率、减小AI的运行时长。

Claims

1.一种基于异构计算的人工智能加速系统，其特征在于，包括：基于TensorFlow计算框架实现FPGA、CPU异构计算，并通过逐步提升TensorFlow计算框架中深度学习网络的学习率直至学习率达到门阀上限后，逐步下降，获取局部最优解，实现基于异构计算的人工智能加速；

还包括：调整数据包大小和调度数据包的最佳通信时机，实现基于异构计算的人工智能加速；

所述调整数据包的最佳通信时机包括：

2.根据权利要求1所述的基于异构计算的人工智能加速系统，其特征在于，所述TensorFlow计算框架中深度学习网络的学习率包括：根据深度学习网络的不同层级采用不同幅度的学习率，以适应深度学习网络的多层级结构。

3.根据权利要求1所述的基于异构计算的人工智能加速系统，其特征在于，还包括：根据CPU和FPGA的运行状态，分析计算线程不足是影响TensorFlow性能的关键问题，优化神经网络节点权值计算方式，改善AI在集群环境中的吞吐量，实现基于异构计算的人工智能加速。

4.根据权利要求3所述的基于异构计算的人工智能加速系统，其特征在于，所述优化神经网络节点权值计算方式包括：使用批处理的方法，对对ResNet-50的计算单元进行权值计算，并更新到Tensorflow中。

5.一种基于异构计算的人工智能加速方法，其特征在于，包括：基于TensorFlow计算框架实现FPGA、CPU异构计算，并通过逐步提升TensorFlow计算框架中深度学习网络的学习率直至学习率达到门阀上限后，逐步下降，获取局部最优解，实现基于异构计算的人工智能加速；

所述TensorFlow计算框架中深度学习网络的学习率包括：根据深度学习网络的不同层级采用不同幅度的学习率，以适应深度学习网络的多层级结构；

调整数据包大小和调度数据包的最佳通信时机，实现基于异构计算的人工智能加速；

所述调整数据包的最佳通信时机包括：

6.根据权利要求5所述的基于异构计算的人工智能加速方法，其特征在于，还包括：根据CPU和FPGA的运行状态，分析计算线程不足是影响TensorFlow性能的关键问题，优化神经网络节点权值计算方式，改善AI在集群环境中的吞吐量，实现基于异构计算的人工智能加速；