未来的内存将由HBM DRAM SCM组成

一本正经地胡闹 2022-07-16 发布于广东

展开全文

新的内存层次结构即将出现！计算架构将迎来巨大变化！

最近，美光突然宣布将停止开发3D XPoint，转而支持Compute Express Link（CXL）方案，CXL不仅可以扩展内存的带宽和容量，还有助于实现持久性内存。（目前，英特尔也没有表态要不要收购美光生产3D XPoint的晶圆厂）

作为全球第二大内存厂商的SK海力士也力挺CXL方案，同时还计划在内存中加入部分CPU的计算逻辑，言语间还介绍了一种将内存和CPU放到单个模块的方案，甚至还有将内存和CPU集成在单个die上的设想，想的很远。

在两个巨头的规划中，连接共享内存和处理设备的CXL技术都非常关键。

摩尔定律走向终点

随着摩尔定律渐渐失效，人们正在用各种新技术来规避冯·诺依曼计算机体系的瓶颈。“冯·诺依曼”代表的是采用通用CPU，内存，外部存储和IO机制的系统。但随着数据处理需求的不断增长，单单依靠塞更多晶体管已不能满足CPU，内存以及存储在速度和容量上持续提升的需求。

计算机架构师们正在用各种方式打破CPU-内存和内存-存储的瓶颈：

比如存储级内存技术，比如研发支持特定应用的处理器，又比如连接处理器内存和存储的CXL技术。这些技术都会带来更强大性能，更高能耗比的处理系统，能更好地运行大量与AI和机器学习相关的工作负载。

内存计算厂商MemVerge也在表示，CXL意义重大，新的互连技术将在未来两年内开始部署，一头连接不同处理单元，包括CPU，GPU和DPU等，一头连接共享的异构内存资源，包括DRAM，持久内存和一些新兴内存技术。

MemVerge的“（Big Memory）大内存”技术使用了内存计算（in-memory computing），通过傲腾的存储级内存提升内存容量，减少存储IO操作次数，从而可以加快基因测序等应用的运行速度。

内存新格局

服务器架构中，CPU通过插槽连接DRAM内存，而存储设备通过PCIe总线从CPU和DRAM内存那边收发数据。这一局面持续了很多年，直到基于3D XPoint的存储级内存出现后，开始解决DRAM容量限制的问题，同时也加快了存储和内存的IO速度。

英特尔开发了傲腾SSD和傲腾持久内存，傲腾SSD走PCIe，傲腾持久内存插在DIMM插槽，傲腾持久内存被当做比正常内存慢一些的特殊内存，延迟大约为300ns，而正常DRAM内存的延迟大约为14ns。

但美光并不看好傲腾，美光在解释为什么停止开发3D Xpoint和生产时表示，内存容量和速度的限制应该靠HBM和CXL来解决，所以，就不玩3D Xpoint了。

HBM示意图

与现有的基于插槽的方案相比，HBM与CPU的连接速度更快。

HBM是基于单个SoC设计的，内存堆叠在interposer层之上，interposer层同时连着处理器，这种方案的延迟更低，连接带宽更大。英伟达的GPU服务器正在使用HBM来加快数据处理速度，美光和SK海力士也都认为HBM很快会在X86服务器上得到应用。

美光和SK海力士认为会出现由HBM和DRAM以及SCM组成的三层内存层次结构，SK海力士还表示，HBM还可以把能源效率提高约40％。

用CXL构建内存池

正在开发当中的CXL是要取代PCIe总线的，它可用于在CPU和GPU之间构建共享的内存池，但CXL跟HBM不合适。

服务器可以用CXL总线来访问内存池，从而提升可用的内容容量，这些内存可能包含DRAM和SCM，但可能不包含HBM。

Google高级工程师Roland Dreier在推特上说：“ HBM并不是CXL的理想选择，因为即使是未来的gen6 x8的CXL速度也就100 GB /秒，而HBM2E已经从300+ GB /秒上升到 TB /秒了。”

他认为业界应该“用普通的DRAM来构建CXL“内存池”。

Dreier认为，未来的内存层级是这样的，CPU上封装着HBM，另外一层则是CXL连的内存池，DDR总线退出历史舞台。英特尔也介绍了部分支持HBM的，代号为Sapphire Rapids的第四代至强可扩展处理器。

Dreier还谈到了3D Xpoint在CXL中的定位，3D Xpoint可以通过CXL提供50GB/s的低延迟字节寻址内存资源。

HBM将计算和内存资源紧紧的结合在了一起，减少了数据来回搬运的时间。而SK海力士看的更远，还计划这一个比HBM还厉害的解决方案。

让内存和CPU靠的近点，再近点！

SK海力士CEO Seok-Hee Lee在一次会议上还介绍了另外四种内存，第一个是ULM（Ultra-low Power Memory）超低功耗内存，其功耗比DRAM和HBM都要低得多，第二种是比HBM更靠近CPU的内存方案，具体包括三种：

PNM（Processing Near Memory），这里”Processing“暂时翻译成”处理“，我们在这里叫它近内存处理，这种模式下，CPU和内存在一个模块上。

PIM（Processing In Memory），这里”Processing“暂时翻译成”处理“，我们在这里把PIM称作存内处理，这种模式下，CPU和内存在一个封装上，比PNM还要快。

COM（Computing In Memory），这里直接把Computing翻译成计算，COM叫称作存内计算，这种模式下，CPU和内存靠的更近了，直接装在一个die上了，性能是最好的。

Seok-Hee Lee暗示说，最先出现的是PNM，然后是PIM，最后才是COM。更长远的未来，Seok-Hee Lee还表示看到了内存技术正在向模仿人类颅神经结构的神经形态半导体方向发展。

END

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：一本正经地胡闹 > 《计算机组件》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

一本正经地胡闹

关注对话

TA的最新馆藏

茶+糖：大英帝国的功臣
甜蜜的“毒药”：糖的进化史与罗生门
聊一次线程池使用不当导致的生产故障
性学家，化学家，软件行业里的废话文学家
深入了解 Presto 原生 C 查询引擎-Presto 2.0
tcl华星历史

喜欢该文的人也喜欢更多

热门阅读换一换