编者按:过去10年,很多计算机体系结构研究学者都在感叹体系结构的研究步履维艰,在很多国际会议的讨论中出现了类似“体系结构正在消亡(Architecture is dying)”,“永生的体系结构(Long lived architecture)”等有趣的争论,其背后的动因是对传统的冯·诺伊曼体系结构在应对多样化应用的局限的深刻认识和对摩尔定律的放缓甚至终结的担心。这篇文章源于2016国际体系结构年会(ISCA 2016)上的Workshop讨论和公开问卷。然而,主旨并不是回答体系结构是否还值得无数的学者前赴后继,而是以一个更加开放的心态去探讨体系结构如何求变以为新应用提供更好服务。本文的贡献者达到近40人,大部分来自具有悠久体系结构研究历史的美国一流大学,学术背景也很多样化。不同领域的思想碰撞为我们勾勒出未来15年体系结构研究可能的图谱。 应用趋势、器件技术和系统结构的发展驱动了信息技术的进步。然而,这一进步的早期引擎——摩尔定律和登纳德缩放定律(Dennard scaling)——收益正在快速地变得越来越小。计算机界已经直接面临新的挑战:如何确保信息技术有一个坚实的未来。 在过去几年,计算机体系结构领域的学者进行了一些愿景规划的活动。五年前,计算社区联盟(Computing Community Consortium)发布了一篇《21世纪的计算机架构》白皮书,影响了学术界和工业界的项目资助计划。最近,《IEEE重启计算倡议》一文又从体系结构、器件和电路等方面探索计算系统的未来。 本文将努力延续这一话题的讨论,深入接触应用和器件/电路学界,了解他们的趋势和愿景。我们的目标是发现弥合应用领域和器件领域之间的鸿沟的机遇。 为什么现在要做这件事?因为近五年来发生了许多变化,尤其是以下五个方面: 1.硬件和应用的专用化鸿沟。现有的硬件性能与应用需求之间存在显著的专用化差距。一些应用,诸如虚拟现实和自治系统等,在没有专用硬件的支持下无法实现,但设计专用硬件仍然既昂贵又困难。
为了延续计算机工业创新的光荣历史,开发硬件必须像开发软件一样简单、便宜和灵活。 广泛和新兴的看法一直认为,经典的CMOS工艺缩放路线——基于晶体管越来越小、集成度越来越高的摩尔定律的技术引擎——将在不到3代半导体工艺(6~9年)之后面临终结。而且,登纳德缩放——随着CMOS的集成度提高但能够使每个芯片的功耗保持不变的技术趋势——也将在21世纪中叶终结,这将导致处理器设计的巨大变革:运算能效已经取代面积效率或峰值逻辑门开关,成为最重要的一项限制峰值性能的设计约束。 从近期工业界的动向中可以窥见到经典工艺缩放路线即将到来的后果。例如,英特尔已经放弃了长期奉行的“工艺年-构架年(tick-tock)”开发模式,从原先每代工艺推出两款主要芯片设计,现已改为三款。这个改变意在通过维系“苟延残喘”的摩尔定律从而延长每代产品的市场寿命。更有甚者,美国半导体行业协会(Semiconductor Industry Association)也已放弃维持了数十年、每两年更新一次的国际半导体技术路线图(International Technology Roadmap for Semiconductors, ITRS)的老传统,这一技术文档为整个半导体产业界协调技术、制造与系统开发提供了指导。由于没有明确的方向维系缩放路线,ITRS的价值也在逐渐衰退。 然而,新应用的不断涌现,对计算能力的需求在日益增长。其中最突出的就是那些由大规模机器学习所驱动的、从前难以想象的应用:从图像和语音识别到无人驾驶汽车,再到击败围棋顶尖高手。同样可以看到对视觉数据处理和理解的需求的爆发式增长,有些前瞻性应用或许要求为世界上每个人提供每秒千兆像素级的运算能力。 过往计算技术的进步主要来源于对通用计算设计的巨大投入,而这些设计依赖于经典的缩放路线,并且完全由少数几家处理器制造商完成。得益于这些通用设计的计算机应用综合市场的庞大体量,足以分摊这些厂商的大量投入。 随着传统缩放路线的衰落,只通过改进少数通用计算平台将无法继续满足新兴应用对计算性能的需求。相反,在过去的5~10年里,在一些计算密集型应用领域,一种新的性能优化手段策略已经兴起——专用硬件设计。与在通用处理芯片上运行软件的方案相比,专用硬件方案(如专用集成电路)单位操作上可提高能效10000倍。此能效的提升对于新兴的物联网的丰富应用是至关重要的。专用化已经在图形渲染和视频播放等方面取得了巨大成功。机器学习应用也开始取得商业成功。实际上,计算机体系结构领域的科研人员已经认识到专用化的重要性并投身其研究:2016年体系结构领域三大顶级会议(ISCA、HPCA、MICRO)共收录论文175篇,其中38篇是关于图形处理器(GPU)和专用加速器设计的,还有17篇是关于机器学习专用化设计的。 然而,迄今为止,专用设计的商业化的成功,只限于拥有巨大市场的应用(例如视频游戏、移动视频播放等),值得像通用处理器厂商那样投资。以上市时间和金钱来衡量,设计和制造专用硬件的成本极高,只有极少数的设计可以在这样巨大的市场逐步摊销。 为了继续有效创新的周期,关键是排除专用系统设计的障碍,从而在所有应用中体现出专用化在能效方面的优势。我们的愿景是“大众化”硬件设计,也就是让硬件设计变得像软件设计那样敏捷、便宜和开放。软件开发团队可以利用丰富的、拥有现成的可重用部件的生态系统(通常是免费和开源的),使用高级语言加速提高单个开发者的能力,并依靠强大和自动化的程序分析、综合、测试和调试来保证品质。 尽管经过了几十年的投入,计算机辅助设计仍未能达到一个小开发团队即可进行硬件设计的水平。硬件系统设计者需要更好的工具,提高在硬件描述方面的能力,更快的性能评估手段,更敏捷的原型化方法和更严谨的软/硬件协同设计验证方法。工具链要成熟,可以跨越多个硬件层次,从通用可编程处理核到大规模可编程逻辑阵列、可编程加速器以及专用集成电路,从而能够轻易实现重定位。更好的抽象描述对于硬件的组件化和可重用是必需的,这些抽象可以是以可综合的知识产权(IP)模块的形式,甚至可以是以物理芯片或芯片组的形式存在,在制造时可便宜地集成到系统中。对于体系结构领域的研究者来说,这是一次努力弥补通用和专用系统之间的鸿沟的机会,并开发出一系列工具和框架平台,使大众化硬件设计成为现实。 云计算是对体系结构创新的抽象 利用规模化和虚拟化技术,云计算提供商可以透明和低成本地提供硬件创新,即使最小的客户也是如此。
三维(3D)集成提供了一个新的可扩展维度。 3D集成为芯片设计提供了一个新的扩展维度,尽管摩尔定律终结了,仍然可以在一个单系统上集成更多的晶体管,可以从3个维度缩减互联开销,并实现各种混合制造技术的紧密集成。因此,3D集成使3D结构内部的系统组件具有更高的能效、更宽的带宽和更低的延迟。 从架构上来讲,3D集成也说明平衡系统的计算必须尽量靠近数据。尽管闪存和其他内存设备早已通过3D方式进行容量扩展,但将内存设备与高性能逻辑集成的尝试才刚刚开始。例如,美光(Micron)公司推出的混合内存立方体(Hybrid Memory Cube),实现了快速逻辑和密度内存的3D堆叠,为学术界重新刮起“近数据计算”(near-data computing, NDC)和“内存处理”(processing-in-memory, PIM)架构的学术研究风潮。尽管这个研究问题早在20年前已相当流行,但受限于当时的工艺技术,PIM架构并没有进一步实现商业应用。近几年,随着实用芯片堆叠和多技术垂直集成技术的出现,这些架构成为提升扩展性的有效途径。 体系结构“更接近物理层” 经典缩放定律的终结,给计算机底层架构带来更多的本质变化。 量子计算。量子计算利用量子力学现象存储和操纵信息。它的主要优点是,“叠加”量子现象有效地允许同时表达0和1状态,这使得量子计算实现选择算法时比传统计算有了指数级加速。 超导逻辑。量子计算的一个姊妹方向是超导逻辑,使用约瑟夫森结等超导器件的系统,能够提供“免费”的通信,因为在超导线上传输信号几乎不消耗能量。另一方面,在数据操作上比传输数据有更高的能耗。这些权衡与CMOS硅电路正好相反,在CMOS电路上大部分能量消耗在通信而不是数据操作。 微软、谷歌、IBM和I-ARPA等公司和机构都已经宣布在量子计算和超导逻辑进行了大量投资。我们认为量子计算机结构得到再次关注的时机是成熟的,量子计算在十年内可能会产生实际影响。 借鉴生物学。利用生物学基底做计算很早就想到了,有可能实现。DNA计算已经演示了简单的逻辑操作,最近的许多结果也表明DNA作为档案存储器和纳米结构自组装的数字媒介具备潜力。对研究人员来说,生物科技产业推动的DNA操纵技术所取得的进展使得体系结构研究人员认为,使用生物是可行的。除了DNA,还有诸如蛋白质等其他生物分子能够用于计算,这些生物分子工程在过去十年进步显著。 机器学习作为核心负载
机器学习在过去十年中取得了长足的进步,产生了很多长期以来只存在于科幻小说里的应用。可以说,这一进步在很大程度上受益于丰富的数据和强大的计算能力。大规模机器学习应用也促进了存储系统和专用硬件(GPU, TPU)等的设计。 尽管目前的重点是支持云端的机器学习,但是在诸如智能手机和超低功耗传感器节点等低功耗设备中支持机器学习应用也有非常重要的机会。幸运的是,许多机器学习内核具有相对规整的结构,能够在准确率和资源需求之间进行权衡。因此,它们适用于专用硬件、重构和近似计算等技术,为体系结构的创新开启了新空间。 致谢: |
|