摘要
由于数字数据创作的爆炸式增长,对提升计算能力的需求不断增加。然而,我们用于持续改进计算机三个要素(程序、内存和互连)的传统方法已经开始面临其局限性,因此也没有以前那么奏效,而且预计在不久的将来也会走到尽头。显然,这对计算机硬件行业来说是一个很大的挑战。
然而,同时也为硬件设计行业提供了开发新技术和从现任者手中夺走领军地位的巨大机会。本文回顾了当今计算系统面临的技术挑战,并介绍了不断提升计算能力的潜在方向,并讨论了计算机硬件设计师可以从哪里发现贡献力量的好机遇。
背景介绍
这些天来,世界在各个领域发展非常迅速。技术开发的重心也转向实现更好的人类体验感、便利感和幸福感,而不是像大规模生产、自动化或降低成本这样的旧重心。这种迅速的变化严重影响了硅产业,几十年来,硅产业一直负责全球的计算化能力。影响可以是正面的,也可以是负面的:它可以提供更多的机会,但同时也带来了许多挑战。
事实上,机会都是关于数据[ 参考Horowitz, 2014年《computing’ energy problem 》]。[ 参考Kim, 2015年]这主要是因为世界需要更多的电子设备来处理数据。如上所述,世界正在推动实现一系列事情(如智能城市,安保,自动驾驶汽车),以达到更好的人类体验感,便利感和幸福感。为此,我们需要创建、复制和处理所有数据。
因此,所有研究都预测:未来10年数字信息的数量将呈指数级增长。例如,图 1显示了思科在 2017 年和 2019 年发布的关于全球数据创建量的两份报告。这两份报告都预测数据量将呈指数级增长,但2019年的报告显示,数据的创建数量超过了2年前的预期数量,而且增长速度将更快。
图1:数字数据创建趋势和预测量(来源:思科(思科视觉网络指数,2017年,2019年)。
世界是由数据驱动的,电子产品负责处理这些数据,这意味着我们需要创建越来越多的电子设备。思科预测:电子设备的数量将在 5 年内增加近两倍。Nvidia 给出了更积极的预测:如此发展, 7 年内总互联设备的数量将增加 16 倍。不管它多少钱,每个人都希望电子设备会有更多的功能。
另一方面,挑战也都与数据有关。以下是在此类爆炸数据时代人们可能提起的一些关键问题。我们如何处理这些数据量?我们应该在哪里存储数据?我们如何与数据进行沟通?而且,如果我们在数据量爆炸时保持相同的能源效率,会发生什么情况?回到图1,思科的投影显示,数字数据的数量将爆炸。若真如此,如果我们在处理、存储和交流方面保持相同的能源效率,会发生什么情况?然后,能源消耗将以与数据爆炸相同的速度增长,这绝对负担不起。据了解,我们已经消耗了地球上最大部分的能源用于处理电子数据;这样的数据量绝对是负担不起的。从这一观察中,我们可以说,能源效率必须与数据爆炸成正比地提高,至少要保持同样的能源消耗量。
事实上,虽然这种数据爆炸在程度上可能有一些差异,但并不是昨天开始的。因此,值得尝试从历史中借鉴一些东西,即我们以前是如何处理这些爆炸性数据的。图2显示了一个简化的计算系统,在那里我们可以看到一个逻辑(处理器)IC和一个内存IC,以及它们之间的一个互连链接。基本上,为了处理更多的数据,我们需要更高的处理速度、互连带宽和内存密度。图 2还阐述了关于我们如何实现它的简单摘要。对于处理器方面,CMOS(补充金属氧化硅)技术扩展,这通常代表摩尔定律,能使晶体管运转速度更快,消耗电力更少。一旦我们拥有了更快的晶体管,我们就可以提高时钟速率以进行更快的处理。一旦晶体管的功率扩展因一些物理原因(即泄漏电流)而延迟,人们就引入了多核处理等并行线路,以提高处理速度而不提高时钟速率。对于内存方面,设备足迹的扩展使内存密度更高。
然而,广泛的扩展导致许多挑战,这些挑战被掌握工艺创新的存储业所克服了,如DRAM的宽高比率更高,如高K材料的材料创新。对于互连方面,晶体管扩展也是提高带宽的关键推动器,因为更快的晶体管能使电路更快。但是,连接独立 IC 卡的电气通道(电线)无法与硅技术进行扩展,因为它们存在于物理世界中,而不是在数字 IC 世界中。也就是说,电气通道的带宽有限,以至于传输信号的高频组件在信道上会逐渐衰减。因此,互连工程师不得不在均衡电路方面进行许多创新,以弥补高频通道上的损耗,即为了在低频和高频上平衡通道的影响,他们还引入了时间交错技术,这类似平行。目的是为了达到特别高的速度甚至突破晶体管的限制。
图2:总结一下我们是如何制造出一台更好的计算机的,以及为什么这对未来的计算机不起作用。
然而,这些历史的经验不能成为目前和未来的好策略。首先,我们即将失去全能的扩展。扩展还尚未完全形成;但是,如前面讨论能源扩展开始被阻碍已经持续了一段时间。结论是,由于我们不想将芯片烧坏,因此不再增加时钟频率。引入平行通道是为了克服这类挑战,但它也因为同样的散热问题而达到了极限。只有一小部分的多核处理器可以被同时打开,这被称为”暗硅”。
类似的问题也发生在内存上,即缩放比例被延迟,从而限制了内存密度的增加。缩放比例还引入了许多非理想型,以至于有许多更高级别的辅助工具,这些辅助工具会增加内存模块的负担并增加内存的延迟。对于互连端,随着所需互连带宽的增加,通道消耗变得非常明显,因此为了均衡电路就消耗了过多的精力。随着扩展的结束,情况将更加艰难,因为我们不能再利用更快的晶体管了。综上所述,对于当今和未来的计算机来说,处理数据爆炸的历史解决方案将不像过去那样奏效。从以下部分开始,我们将讨论在未来 10 年能使计算能力持续提升的预估方案。
本文的其余部分安排如下。
“逻辑(系统半导体)”章节为计算机硬件设计行业和工程师应对逻辑和机遇的挑战提供了潜在的解决方案。”内存和存储”章节描述了内存行业的最新创新,并讨论了未来发展方向。此外,还将讨论存储设备革命给设计工程师带来的机遇。”互连”章节讨论了互连技术的最新趋势和解决互连技术面临的挑战的潜在解决方案。最后,在”结论”章节阐述了文章结论。
调研方法
本调研于 2020 年 9 月-10 月进行。通过三种不同的方法来收集调研文章:
-
通过谷歌学者和IEEE Xplore来搜索各种关键字,如摩尔定律,CMOS缩放比例,高带宽内存,V-NAND,交叉点内存,收发器,PAM-4和硅光子。 -
从文章的来源入手,然后在引用和被引用之间来回寻找。 -
根据文章的影响力和可信度选择文章;优先考虑引用度高的文章或来自该领域的顶级会议和期刊的文章,如 JSSC、TCAS、TCAD、TED、AELM、ISSCC、VLSI、IEDM。
拥有专业IC卡的高效计算
在此部分中,讨论了硅半导体的技术方向,以最大限度地利用硬件设计的机遇。当处理计算逻辑的技术发展时,不可避免地要讨论半导体工艺技术的扩展极限,即摩尔定律的终结。事实上,自2014年以来,至少有一次国际固态电路会议(ISSCC)的全体会议讨论了摩尔定律的终结,例如金(2015年)和范德西彭-范·利乌文霍克(2017年)。因此,让我们快速查阅一下扩展限制的来源。三星电子总裁在ISSCC2015年会议的演讲中表示,晶体管尺寸的物理极限约为1.5nm,这来自海森堡的不确定性原则。但是,他也表示,他预计实际限制将是3nm。5年后的今天,7nm技术已经在业界广泛应用。台积电、三星电子等龙头企业已经在进行5nm和3nm的技术研发,这意味着我们几乎就要达到他说的极限。
因此,回顾”背景介绍”章节中的能源讨论,关于这一点的适当问题应该是如何在不扩大规模的情况下提高能源效率。我们可以从当今采矿业的加密货币采矿(计算能源效率直接转化成了金钱)中找到一些提示。回想2017年,当加密货币价值达到第一个高峰时,读者可能会记得图形处理单元(GPU)的价格变得非常昂贵。这仅仅是因为 GPU 比中央处理单元 (CPU) 效率高得多,因此使用 GPU 进行采矿可以提供更多的利润率。那么,为什么与CPU相比,GPU效率高得多呢?
这是因为它是专用的。CPU 更通用,但 GPU 更具体。即,灵活性和效率之间存在计算权衡。发现这一点后,人们前往现场可编程门槛阵列 (FPGA) 进行加密货币挖掘,以提高效率,最终他们设计了仅用于挖掘的应用专用集成电路 (ASIC)。图3显示了对各种加密货币矿工的调查,在那里我们可以找到一个ASIC矿工比CPU矿工效率高10的四次方倍。从观察中,我们可以得出结论,如此巨大的收益来自专业IC的设计。综上所述,制作专门的IC是高效计算最有前途的解决方案之一。根据这一点,制造公司将使其工艺技术多样化,而不是缩小其规模,例如全球制造厂45nm CLO工艺,这是专门的硅光子技术。
图3:各种加密货币矿工的能源效率调查。
专业化的生产力问题
我们发现,专业化将是解决能源问题和保持计算持续进步的潜在解决方案。然而,专业化也有一些缺点,因此我们需要研究专业化在新时期是如何盈利的。在图4A的简化模型中,一家无晶圆厂公司以前出货了100万台通用芯片,但他们计划在10个不同工艺中设计10个专用芯片,以满足更好的效率要求。同时,他们预计,随着电子产品需求的增加,他们总共可以运送200万块芯片。在模型中,该公司目前盈利300万美元。在图4A的右侧,当公司设计10个专用芯片,总运费翻倍时,会进行线性外推。请注意,所有成本均按与生产量成正比的线性推断。
图4:专业化的生产力问题。
案例研究(A)理想案例,(B)实用案例,(C)实用案例,设计时间缩短。
然而,这是过于乐观的预测。图 4B显示更逼真的模型。收入和生产成本确实与运费成正比。但是,推断其他费用是否有意义?当然,答案是否定的。例如,人工不能进行线性地缩放。要设计一个完整的芯片,他们需要模拟工程师、数字工程师、制造工程师等等。因此,即使芯片设计中必定需要共享大量的成果,但是只有 4 名工程师才能制造出过去由 20 名工程师制造的芯片,这是没有意义的。因此,图 4B中的模型假定 10 名工程师可以设计专用芯片 A0。如果是这样,利润将变为负数。这里的计算非常粗略,但至少我们可以观察到,很大一部分设计成本没有与生产量成规模化。公司会提高价格,但客户不会对此感到满意。那么,专业化是一个虚假的梦想吗?
这里最合理的解决方案是缩短设计时间,因为这样的设计成本与设计时间成正比,如图4C所示。例如,如果他们能将设计时间缩短一半,就可以将费用减少一半,那么他们就能赚取更多的利润。如前所述,他们正在设计10种不同但相似的芯片,并且有一些可共享的成果。这意味着,如果他们使数量最大化,他们应该能够大大减少单件设计时间。
通过重复利用设计来缩短设计时间
那么,我们应该尝试如何最大限度地提高可共享性呢?一般来说,我们可以认定模拟和混合信号(AMS)电路设计通常是缩短设计时间的障碍。这主要是因为与数字设计相比,AMS 电路设计高度依赖人类的启发式知识和技能。此外,由于 CMOS 技术的复杂设计规则和数字友好型扩展,设计的复杂性会随着技术的缩减而增加,例如图 5A中显示的大量设计规则,我们可以看到随着技术的缩减,设计复杂性呈指数级增长。图 5B显示了 AMS 电路的一般设计流程。一旦我们决定电路拓扑网,我们就会根据一些计算公式仔细调整晶体管尺寸,并使用 CAD 工具运行模拟。如果模拟结果不积极,我们重新回去调整大小。一旦我们满足规格与示意图模拟,我们会继续绘制布局面罩,之后我们运行附属提取的 (PEX) 模拟,并再次检查结果。
根据结果,我们必须来回重复多次操作,直到电路的性能完全优化。这里的主要问题是,大部分时间都花在了绘图布局上,其复杂性一直在增加,如图5A所示。有人可能会问,既然我们做了数字设计,为什么我们不尝试自动化的模拟设计。然而,事实上,很难说我们可以在不久的将来为布局设计做到这一点,因为这个过程中只有少量几种方式是对的,但是有数十亿种方式是错的。这意味着,要使自动化工具正常运转,设计师应该非常精确地对工具进行约束,所以他们花了大部分的设计时间来限制那些不是很有效的工具。这就是该领域的工程师很少使用此类自动化工具的主要原因。
图5:(A)跨技术节点的硅设计复杂性,(B)AMS电路的一般设计流程。
事实上,一个更好的方法是重复使用,因为重复使用比自动化容易一点。例如,我们可以找一个知道如何正确地做到这一点的好设计师,让他/她来设计。同时,我们强制他/她创建为了正确输出可执行脚本(通常称为生成器)而要执行的每一步。然后脚本包含了优秀设计师设计的正确执行方式,所以无论谁运行脚本,输出都应该是正确的。但是,由于晶体管形状在工艺技术之间不同,因此很难在没有设计师创造性发明的参与下,生成仅与脚本自动捕获与设计规则兼容的形状。因此,这种基于脚本的方法在单个工艺技术中效果很好,但是移植到另一种技术时,它将面临许多挑战。为了解决这种便捷性问题,许多作品都提到了适用模板的方法。设计师不会让布局脚本从零开始绘制布局,而是准备原始组件的设计规则认知模板。脚本通过遵循专家设计师预先定义的方式组装模板。这就像一个乐高块,当我们买一个乐高包,有很多单位块(模板)和装配手册(脚本),如图6所示。
图6:基于使用可执行脚本 (生成器) 重复使用设计流程的设计流程:(A)用于第一个过程,(B) 用于将设计移植到另一个过程。
这种基于再利用的方式在专业化的未来领域非常具有潜力,但是设计师们必须克服一些障碍。事实上,开发优雅的 CAD 工具没什么大不了的。下面是一个基于作者的工程经验的例子。作者已经使用了三个不同的框架来辅助这种再利用过程,the Laygo,XBase和ACG。它们彼此大相径庭,如图7所概括的那样,例如 Laygo 对模板的定义更加严格,因此它更限制了自由程度,而 ACG 则具有松散的模板定义。有利有弊:Laygo 以牺牲自由程度为代价,以错误的方式减少了以更便捷的方式进行操作的数量。ACG 允许自由,但它给设计者增加了耗费在编写便捷式脚本上的时间。
总之,这只是一个权衡。设计师应该花更多的时间使它便捷(图7的左侧),或者他们应该花更多的时间使它与定制设计一样好(图7的右侧)。无论哪种方式,一个好的脚本必须具有灵活的参数(张等人,2018年)。因此,这不是我们要使用哪种工具的问题。相反,由于模拟设计师通常不熟悉这些参数,则更重要的是设计师是否愿意使用哪种方式。此外,与自定义设计相比,编写设计脚本需要更多的技能储备和思维储备。因此,为了充分发挥再利用的效益,设计师必须有耐心并且愿意学习,这是现阶段主要的障碍。
图7:比较3个不同的框架,以支持重复使用过程。
一旦我们克服了障碍,将有更多的机会进一步提高生产力。例如,它允许机器完成图 5B中显示的整个设计更新换代。传统上,人们认为设计空间太大,以至于即使只原理图模拟,也无法完全实现自动优化。然而,最近的纵深化技术进步已经能够弥补如此大的空白,所以一台机器已经可以处理原理图优化。但是,如前所述,布局自动化几乎是不可能的,因此机器必须与布局循环斗争。基于脚本的布局再利用可以缩小差距:(1) 机器可以对示意图参数进行大小调整。(2) 布局脚本可以根据参数生成布局。(3) 机器运行 PEX 模拟并检查结果。(4) 根据结果,机器调整参数大小并重复 (1) – (3), 直到电路完全优化。许多成果应该会出现,以共同推进这种基于人工智能的设计,很明显在这个过程中将出现很多机遇。
内存和存储
内存缩放限制和三维集成
在前一节中,我们讨论了设计过程的专业化和再利用将是解决逻辑方面面临的挑战的解决方案之一。在本节中,将介绍最近的进展和未来的内存技术,然后讨论硬件设计师为技术创新做出贡献的机遇。事实上,在内存行业,物理和设备工程比设计工程发挥着更加重要的作用。例如,在内存设备不断发展时,内存模块中位线感放大器的电路拓扑数十年来一直没有改变。这一趋势在未来可能会持续下去,但预计内存行业将需要更多的设计创新。
让我们简要回顾一下当前内存面临的挑战,这主要是因为”背景介绍”中讨论的缩放限制。基本上,较高的内存密度是过程扩展启用的最高优先级。然而,对于 DRAM 来说,由于扩展范围广泛,电容降低会导致许多挑战,例如数据保留时间短、传感差和干扰强。因此,缩放不再像以前那样有效。同样,NAND 闪光灯也经历了大量缩放带来的许多非理想问题,例如短通道效应、泄漏和被干扰。同样,缩放已经不像过去那样有效。然而,最近,内存行业找到了一个很好的方法,替代辛苦地推动设备缩放,他们找到了3D堆叠的解决方案。图8显示了最近为 DRAM 和 NAND 闪光灯、高带宽内存 (HBM) 和垂直 NAND (V-NAND) 开发的 3D 堆叠创新。在 HBM 中,多个 DRAM 模具被堆叠,并通过硅通道 (TSV) 连接。基础半导体模具可用于缓冲 DRAM 堆栈和处理单元 (主机 SoC) 。
半导体模具和处理单元通过微凹凸和硅插座器连接。由于内存堆栈和处理单元未以 3D 方式集成,HBM 通常被视为 2.5D 集成。与传统 DRAM 相比,HBM 的独特功能(如 TSV 的低电容、2.5D 集成和硅插座器的高互连密度)实现了高容量(并非总是)、低功耗和高带宽。另一方面,在NAND闪光灯中,记忆细胞本身被堆叠。有趣的是,现在它高于100层。事实上,这些在容量上的许多创新,以及处理单元的进步,是由于连接方面解决了更高的带宽和更低的延迟。
换句话说,它需要更多的互连设计贡献,以便为设计工程师提供机会。例如,随着 V-NAND 的固态驱动器 (SSD) 容量显著增加,传统的串行 ATA (SATA) 接口不够快,无法提供足够的带宽。因此,最近的 SSD 产品使用 NVM 快递 (NVMe) 协议,该协议使用外围组件互连快递 (PCIe) 接口。事实上,PCIE 是发展非常迅速的标准之一:业界在2016年研发了16-Gb/s PCIe gen4,但从2018年开始研发32Gb/s gen5,现在64-Gb/s gen6规格即将发布。
图8:(A) HBM 和 (B) V-NAND 的概念图。
由于多个模具堆积在 HBM 中,因此需要更多的互连,并且存在与传统互连不同的独特挑战,这意味着互连设计需要做大量工作。例如,堆叠的 DRAM 正在通过硅插座通道与处理单元进行通信,这与传统的通道响应和回复非常不一样。此外,堆叠的 DRAM 模具由 TSV 链接连接,其特点也大不相同。还有一个半导体模具,其中HBM PHY用于连接DRAM堆栈和主机SoC。它具有独特的问题,例如由于堆叠产生的热稳定性问题,这应该通过硬件设计来克服。
引入新的内存设备
除了上述努力外,内存行业还尝试引入新的非挥发性内存 (NVM) 设备,例如相变 RAM (PRAM) 或电阻内存 (RRAM,也称为记忆器),其概念图显示在图 9中。这些设备只有两个端口,因此其 4F平方的占用空间较小,他们能够集成在横向阵列并且容易堆叠。此外,它们可以在后端过程中形成,以便能够集成在CMOS外围电路的顶部,这使得它们的有效密度更高,并实现真正的3D集成感。此外,这种设备本身比 NAND 设备快得多。请注意,更快的设备意味着我们需要更快的互连,而不是因为互连而降低内存性能。即,对高性能互连设计的需求将更大,类似于 HBM 和 V-NAND 案例。
图9:具有横杆阵列结构的新内存设备。
这些设备具备许多有吸引力的功能,但是,有很多挑战需要克服,以让他们在行业中取得成功。例如,它们的操作和副作用尚未完全建模:并且PRAM存在可靠性问题,即称为在编写操作过程中的快照电流:RRAM还有一个隐藏的现存问题,输出及写入操作的扭曲;并且改变后的成果比传统设备大得多,因为它们具有内在的非线性。事实上,这类挑战可以归入设计工程师能够比设备工程师做得更好的类别。例如,他们可以构建一个良好的物理感知模型,将这些设备引入准确而复杂的硬件模拟,实现电路和设备之间的协作优化。由于其非线性和滞后性,需要开发一些特殊的技术,以确保他们在一个巨大的阵列级模拟中既能被约束,同时还能捕捉真实的痕迹。
另一方面,可以引入一些电路设计技术,以减轻回扣电流。此外,电路设计者可以提出耐变或变体补偿技术,以解决变体问题,或为了暗流行为而设计暗流取消方案。此外,展望未来,RRAM 被认为是内存计算或神经形态计算最有希望的候选者,因为它能够存储模拟权重。这些方法被认为可以克服当前计算机架构的局限性,我们需要大量的跨学科研究机会来实现它们。
综上所述,3D集成和新内存设备的引入被认为可以克服内存设备的扩展限制,它既需要硬件设计师的大量支持,同时也提供了许多努力的机遇。
互连
趋势调查和挑战
本节介绍了计算机通信互连的挑战和潜在解决方案。回顾”背景介绍”中,数据的增加和计算的进步需要更高的速度互连,但是随着数据速率的提高,电通道变得越来越低效。图 10显示了一般互连的架构图,该图将并行输入序列化到高速非返回-零 (NRZ) 位流,并通过电气通道 (线) 传输,然后将串行输入去序列化,最后在接收端并行。值得注意的是,这种架构在过去 15 年中没有改变。此后,这些进展主要侧重于改善特定黄金建筑的构建基块,例如设计更好的均衡器,对通道消耗提供更好的弥补。
图10:一般互连架构的块图。
让我们更深入地分析是什么原因导致了计算机互连方面的挑战。如前所述,电路不与硅技术同时扩展。但是,互连部分利用了技术扩展,因为更快的晶体管能够使电路更好地克服所增加的通道损耗。图11A显示了来自最新出版作品中的一项调查,在此我们可以确认技术节点和数据速率之间的相关性。然而,另一方面,随着带宽的增加,损耗越来越严重,克服所增加的通道损耗变得越来越昂贵:均衡电路消耗需要太多能量以至于不能补偿损失,这使人们对增加带宽犹豫不决。因此,在32-nm节点之后,这种趋势已经减弱。图 11B显示了多年来的带宽趋势,这显然表明带宽增长已饱和在 28-40 Gb/s 左右多年。
图11:与 (A) 技术节点 (B) 相关的研究和互连趋势发表年份。
最近,为了打破僵局,一个巨大的改变已经发生。一种振幅调制技术,称为4级脉冲振幅调制(PAM-4),它已被业界采用。通过 PAM-4,互连可以在一位周期内传输两个位,使有效带宽比 NRZ 增加一倍。这一戏剧性的改变使互连带宽高于图 11中观察到的 50 Gb/s,并且大多数速度高于 50 Gb/s 的最新规格都采用 PAM-4。此外,除了非常前端电路外,所有的黄金建筑都并非必须用 PAM-4 进行更改,这使得它更具吸引力。
然而,我们必须问,这种做法是否可持续。我们通过采用 PAM-4 将数据速率提高了一倍,那么我们可以使用 PAM-8 或 PAM-16 进行同样的处理吗?图12显示了这些调制之间的比较。PAM-4 的基本概念是同时传输两个位,因此它以相同的 Nyquist 频率实现 2 倍更高的数据速率。但是,有 4 个信号级别(3 个堆叠的眼睛),而不是 2 个级别(1 只眼睛),信号噪声比 (SNR) 降解 3 倍,或 9.5 dB。它还引入了一些其他非理想型,如非线性和 CDR 复杂性,因此情况可能更糟。如今,PAM-4 是合理的,因为更高的带宽的好处超过了 SNR 损失。我们可以为PAM-8做同样的计算。它传输3位,而PAM-4传输2位,所以我们得到1.5倍以上的带宽,而它有7只眼睛胜过PAM-4代有3只眼睛,这相当于7.4-dB SNR的退化。即PAM-8的益处低于我们从PAM-4获得的好处。PAM-16的相同计算也在图12中给出,在那里我们可以发现其益处甚至比PAM-8还要小。从观察中,我们可以得出结论,振幅调制将不是一个可持续的解决方案,而通道容量和噪音将保持不变(香农,1948年)。
图12:(A) NRZ、(B) PAM-4、(C) PAM-8 和 (D) PAM-16 的比较。
未来方向
作为替代方案,我们宁愿开始修改金色建筑。其中一个潜在的候选者是转发时钟结构,在几部文献中都进行了研究。互连的位误差率 (BER) 是振幅噪声 (SNR) 和定时噪声 (抖动)的函数。如果 SNR 随着通道损失的增加或 PAM 的使用而变坏,我们可以尝试通过提高计时噪声来消除它。然而,在传统架构中,除了燃烧更多的功率外,减少时序噪声的方法非常有限。相反,我们可以将发射时钟与数据一起转发到接收器。由于转发时钟的正时噪声与数据相关,因此与转发时钟一起取样数据可消除相关组件,从而最大限度地降低接收端的有效计时噪声。这样,信号功率和 CDR 复杂性可以在同一 BER 中显著降低,只需增加一个时钟通道即可。
另一方面,我们也可以对架构进行更大的更改。在基于模拟数字转换器 (ADC) 的互连或数字信号处理 (DSP) 基于的互连,接收器的模拟前端电路被高速ADC取代,大部分均衡工作和CDR项目是在数字领域完成的。这样,就使用了具有密集数字逻辑的广泛均衡器。此外,PAM-4 证明使用 ADC 是正当的,因为它在传输和接收多个数据级别时已经需要简单的类似 ADC 的前端。基于 DSP 的互连正在迅速成熟,但仍有许多工作需要完成,例如开发设计技术用于构建高速 ADC 或解决DSP 接收器的高延迟。
对于长期解决方案,需要做出更剧烈的改变,因为基本限制是来自电气通道的带宽有限。因此,用带宽几乎无限的光学通道取代电气通道被认为是一个非常有前途和最终的解决方案。通常,光互连用于长途电信,而电气互连则用于短距离计算机通信。这主要是因为光学互连由于耗电光学设备和光电接口而消耗了更高的功率。另一方面,由于其无损性,通信距离对光通信性能影响不大。
然而,电力互连在短距离通信中表现出较低的功耗,但随着通信距离的增加,其功耗显著增加,因为电通道损失随着距离变远呈指数级增长。因此,光学互连比电气互连效率更高,这一长度至关重要,如图 13A(Cho、Kapur 和 Saraswat,2004年)所示。类似地,当所需数据速率增加时,即使在相同的距离内,电气互连的功耗也会呈指数级增长,但它对光学互连的影响很小,如图 13B所示。因此,随着数据速率的不断提高,临界长度预计将变短,这使我们相信光学互连最终将用于计算机通信。但是,要实现这一点,必须提高光学互连的能效。目前,商用光学互连(长距离)的带宽效率产品比电气互连低近1000倍。那么,为什么目前的光学互连会消耗那么多的电量呢?原因可能很多,但其中一个主要原因是它不是整体整合的。当我们研究光通信模块时,有多个 IC,如光子发射器、接收器、电子驱动程序 IC、重定时器 IC 和微控制器。因此,即使在单个通信模块中,也有如此多的接口,其中电信号传到真正的模拟世界,并感知到笨重的附属物,这才导致了如此低的能效。
那么,将光学设备和 VLSI 电路集成在单个芯片中的单一集成可以成为降低功耗的解决方案。除了单体集成外,密集波长分割多路复用 (DWDM) 还允许通过单个光纤传输多个数据流,从而显著提高了光学互连的带宽密度。DWDM 可以被视为另一种调制,但它不会像 PAM 那样降低 SNR。事实上,光学互连在30多年前就开始受到关注,但直到最近才成功。然而,最近,大量付出的累积是为了拿出有希望的项目成果,如5-pJ/位单体DWDM,6-pJ/位112-Gb/s PAM-4,所以期待的时代真的已经不远了。
图13:(A)电气和光学互连之间的功率比较和临界长度的定义。(B) 以更高的速度缩短临界长度。
结论
本文回顾了当前计算系统(逻辑、内存、互连)面临的挑战。从半导体上讲,研究了加密货币矿技术,这指明了未来走专业化方向,但专业化的缺点也以一个无晶圆厂公司的例子进行了讨论。对于内存,调研了设计工程与设备工程相结合的挑战和机遇,而其他研究往往侧重于设备。对于互连,对最先进的成果进行了调研,并讨论了最近的趋势和挑战。通过对每个部分进行的调研和讨论,本文为所面临的这些挑战指出了解决方案和机遇,均总结于补充信息图2中。在逻辑方面,建议在摩尔定律之后实现更高的效率,并建议再利用,以解决专业化的生产力问题。在内存方面,内存芯片或单元的三维集成以及新的NVM设备的引入有望克服内存密度问题。同时,他们还希望设计工程师能提供大量贡献,例如高性能互连、强大的物理感知设备建模以及众多的设计技术来克服设备限制。最后,互连方需要创新其传统架构,而传统架构暂时没有改变,最终必然需要促使光学互连。
补充信息
-
基于 AI 的 AMS 电路设计。
-
总结未来克服计算挑战的方向。
-
作者就职于美国加利福尼亚州圣克拉拉的阿亚尔实验室电路部 -
作者毕业于美国加州大学伯克利分校电气工程和计算机科学系