人工智能浪潮将至,Rambus再破存储器带宽瓶颈

信息技术发展的主要矛盾,就是当前硬件有限的算力和带宽与用户不断增长的算力与带宽要求之间的矛盾。在PC时代和移动互联时代,终端设备的算力与带宽都曾在需求推动下,按摩尔定律的预测指数性增长。近年来,随着人工智能应用(人工智能和机器学习,即AI/ML)的兴盛,对算力与内存带宽的要求又推到了一个新层次,据统计,从2012年到2019年,人工智能训练集增长了30万倍,每3.43个月翻一番,支持这一发展速度需要的远不止摩尔定律所能实现的改进,这需要从架构开始,做算法、硬件和软件的共同优化,才能不断提升系统性能以满足人工智能训练的需求。

信息技术发展的主要矛盾,就是当前硬件有限的算力和带宽与用户不断增长的算力与带宽要求之间的矛盾。在PC时代和移动互联时代,终端设备的算力与带宽都曾在需求推动下,按摩尔定律的预测指数性增长。近年来,随着人工智能应用(人工智能和机器学习,即AI/ML)的兴盛,对算力与内存带宽的要求又推到了一个新层次,据统计,从2012年到2019年,人工智能训练集增长了30万倍,每3.43个月翻一番,支持这一发展速度需要的远不止摩尔定律所能实现的改进,这需要从架构开始,做算法、硬件和软件的共同优化,才能不断提升系统性能以满足人工智能训练的需求。

AlexNet to Alpha Go Zero

训练能力大幅提升

数据来源:openai.com

人工智能训练主要发生在云端和数据中心,而在边缘侧,人工智能推理也被广泛采用,在自动驾驶等应用中,推理对于带宽和实时性要求极高。

训练和推理

在人工智能/机器学习应用中,训练和推理往往成对出现。训练是“知”,是学习,是机器“理解”被研究对象的过程;推理是“行”,是决策,是利用训练好的模型对设备或系统的未来操作进行指导的过程。

在“知”的阶段,已知数据集被喂给待训练的神经网络(或深度神经网络,Deep NeuralNetwork, 简称DNN,这里将神经网络和深度神经网络统称为神经网络),神经网络对数据集所表示的内容进行学习后作出推断,推断的误差用来调整神经网络框架的各种参数,例如神经网络各层中的数据集权重,随着训练过程的继续,将反复迭代上述过程对神经网络进行调整,直到其能以足够的准确性进行推断。

数据集有大有小,有的可能需要数千张图像,但也有数据集达到数千万张。如前所述,随着人工智能技术发展,数据集规模在不断加大,对存储的要求在不断加大。而在训练过程中,算法专家要引导神经网络模型收敛并在推断时达到所需的精度。这可能需要运行数百次实验,尝试不同的神经网络设计并调整其参数。每个实验可能需要大约“exaflops”(十亿亿次操作)次计算,整体计算要花几小时到数天才能完成。为了加快这种漫长训练过程,算法专家通常会在数据中心中训练神经网络。

在“行”的阶段,未知数据集被喂给训练好的神经网络,神经网络对未知数据集进行分类识别和决策。部署训练好的神经网络可能很简单,但为图像和自然语言处理等人工智能任务而生成的神经网络模型往往规模巨大,形式复杂,有数百万甚至数十亿权重参数将数十或数百层人工神经元连接起来。神经网络规模越大,运行该网络所需的算力、内存和能量也就越多,将数据输入神经网络到得出结果的响应时间也就越长。要满足推理时系统对功耗和延时的要求,通常要对训练好的神经网络进行修剪和量化,在保证推理精度的前提下,降低神经网络复杂度,以减少功耗和降低延时。

内存带宽是影响人工智能发展的关键因素

一般而言,推理相对比训练对算力和内存带宽的要求要低一些,但这并不是绝对的。以自动驾驶为例,必须能够在毫秒内检测到目标并做出响应,以避免发生事故。第3级与第4级自动驾驶系统的复杂数据处理需要超过200 GB/s的内存带宽,高带宽是复杂人工智能算法实时处理的基本需求,在道路上这些算法需要快速执行大量计算并安全地执行实时决策。在第5级,即完全自主驾驶,车辆能够独立地对交通标志和信号的动态环境作出反应,以及准确地预测汽车、卡车、自行车和行人的移动,将需要超过500GB/s的内存带宽。

随着新一代人工智能加速器和专用芯片的快速发展,新的内存解决方案,如高带宽内存(HBM、HBM2、HBM2E)和GDDR6 SDRAM(GDDR6)渐被采用来提供所需的带宽。

HBM和GDDR