DDR中的Training？

最近不是在看启动吗？里面总是有个DDR Training，就很纳闷这是个啥。但是一百度实在是没找到。不小心今天找到了一篇前辈的文章，这我不得马上去整来学习一下。有人说BIOS程序就是按照硬件手册和根据用户选择填寄存器，几张表就能解决的事为什么要这许多程序呢？虽然数千个选择形成的组合爆炸让穷举表成为不可能，但它也道出了BIOS大部分程序的实质：填写寄存器。有一个声音发出了不同意见，在BIOS程序里面

摸肚子的小胖子

7536人浏览 · 2023-05-07 11:30:32

摸肚子的小胖子 · 2023-05-07 11:30:32 发布

https://zhuanlan.zhihu.com/p/107898009

前言

最近不是在看启动吗？里面总是有个DDR Training，就很纳闷这是个啥。但是一百度实在是没找到。不小心今天找到了一篇前辈的文章，这我不得马上去整来学习一下。链接在最开始，感谢大佬的优秀文章。

有人说BIOS程序就是按照硬件手册和根据用户选择填寄存器，几张表就能解决的事为什么要这许多程序呢？

虽然数千个选择形成的组合爆炸让穷举表成为不可能，但它也道出了BIOS大部分程序的实质：填写寄存器。

有一个声音发出了不同意见，在BIOS程序里面，长期居住了一个另类，他的名字叫做MRC：内存参考代码。他的任务就是初始化内存，而他却管自己叫做Memory Training代码，主打的是调整时序和提高信号完整性。好高级的名字：Training，训练，似乎和人工智能有关？

当然不是，但和AI 模型的training之所以取名如此一样，都是为了通过实验来寻找可以解决问题的方案。Deep Learning的Training得到神经网络的权重矩阵；

而Memory Training得到一组对齐、补偿和参考电压参数，来平衡和对冲线路的差异和信号的噪声。

如果我们查看Intel的BIOS的代码，会发现MRC代码量很大。而它所以另类因为它是唯一与模拟信号和信号完整性打交道的地方，大量的采样、眼图代码让它与众不同。ARM和AMD则没有如此大量的Memory Training代码，这是为什么呢？内存不Training行不行？

内存为什么要Training?

内存I/O部分频率越来越高，如此高的频率让小小的一点误差都会被放大。熟悉主板布线的同学应该知道高速信号布线的时钟约束十分严苛，一组高速信号在主板上拐个弯，内圈和外圈的走线长度会产生差距，尽管很小，低速信号没关系，但高速信号时钟约束就达不到，必须在相反的方向拐回来补偿一下。

内存I/O频率上G的频率，让任何细小的误差都必须得到补偿，所以要在整个数据链路进行对齐和补偿。

一个比较完整的内存访问链路包括了很多部分：

在这里插入图片描述
从源头开始包括MC （内存控制器，memory Controller）、PHY（MC和PHY有些在一起，很多是分离设计来增加灵活性）；从Pitch到pin，再从pin穿过主板到达slot的布线；slot过金手指通过fly-by或者直连到内存颗粒；内存颗粒中到内存Cell。

这么长的链条每个点都有可能引入时钟不同步和采样延迟的问题，所以要在各个部分分别对齐，让内存DIMM的上百条连线整齐划一。（DIMM是内存插槽的类型。 DIMM全称Dual-Inline-Memory-Modules,中文名叫双列直插式存储模块）

这其实是内存初始化对齐大步骤共十几个的末尾部分。

对齐和补偿要从芯片内部开始，当芯片出口好了，
再对齐DCA、DCS（因为下面的步骤需要下command）；
再是jedec spec里面的Read Leveling，read DQS/DQ；
再下来才是Write Leveling，和write DQS/DQ。
为了信号好，还要匹配RON和ODT电阻，
以及通过调整vRef来让眼图眼睛张开，并寻找安全和合适的采样点。
DDR5因为速度太高，还要加入DFE等均衡器来提高信号完整性：

这些步骤还不包括RDIMM要求的backside training和LRDIMM的 DB到颗粒的额外Training步骤，所以服务器内存初始化更加繁杂的多。

谁来进行Training？

这些步骤大部分是所有内存方案都要做的，包括焊在板子上的Solder Down方案和不同的内存控制器。关键是谁来执行这些步骤，谁来Training整个命令和数据链条。

有两种方案：In Band和OOB（Out Of Band）。大家经常在通信领域听到band概念，这里没有通信调制，还提band是怎么个意思呢？其实这种说法在silicon技术文档里面经常提到，这个所谓的band，是指CPU的计算资源，即CPU的Compute Bandwidth。

In Band，就是CPU自己亲历亲为，自己完成任务；
OOB是说不占用CPU资源，让别家完成，比较典型的是由一个MCU完成，当然完成过程中和过后还需要和CPU通过mailbox等机制互相交互。

OOB training十分常见，比大家认为的常见更加常见。现在几乎所有高速通信线路都需要Training，包括但不限于PCIe、USB、SATA等等。而完成这个Training的并不是CPU，可以是MCU和DSP等。

结论

好了，我们回到原来的问题：为什么Intel的MRC代码量很大，而ARM和AMD则没有如此大量的Memory Training代码？

相信同学们都已经有了答案。是的，Intel采用In Band training，而ARM和AMD采用OOB Training。

最后给大家留个思考题：这两种方式各有什么优缺点，为什么Intel采用In Band，而ARM和AMD采用OOB？

精彩的评论：

OOB的training sequencer集成在PHY里面，访问DRAM更快，所以training速度也快。

但由于第三方vendor的封闭性，开放的FW接口有限，所以不够灵活，后期兼容性调整比较费力。

arm总比intel先进，intel搞cpu时还没有mcu，后来积重难返，为了复用和兼容只好一条道走到黑。MRC是一段程序，程序执行需要ram，它是初始化ram的，ram未初始化之前是不能用的，先有鸡还是先有蛋，这代码写起来一定很纠结。
oob用mcu，mcu自带不用trainning的低速ram。

oob也只是让另外的固件去做初始化。不存在修代码更方便的说法吧。无论bios去做还是其他的去做，最后都要通过更新固件来更新内存training过程。

我看未必是技术上的问题。估计Intel的MC和PHY都是自己做的，用处理器training顺理成章，他自己也不做小mcu内核，更不太可能专门为training集成个第三方的小mcu；ARM，AMD系统，更有可能会采购第三方的MC/PHY，由IP设计方集成的方案自然更可靠和高效。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

自动化提示词生成工具盘点

腾讯云开发者社区

腾讯云架构师技术沙龙 · 长沙站圆满落幕，共话AI驱动下的技术架构与前沿应用

人工智能已成为推动技术创新与产业变革的重要引擎，开发者正身处一场前所未有的技术变革之中。通过本次腾讯云架构师技术沙龙，各位专家深入分享前沿技术洞察，探讨 AI 落地的应用路径与实践经验，为架构师的职业发展指明方向。腾讯云架构师长沙同盟和腾讯云架构师技术同盟长沙地区理事会正式成立。未来，腾讯云架构师长沙同盟将凝心聚力，打造属于本地架构师的学习与成长的家园，助力中国架构的蓬勃发展。未来已来，让我们携手

腾讯云开发者社区

通用Agent都快被骂废了，MiniMax突然搞了个能打的

效果也比我预计中要好很多，是一个比较标准的产品展示页，或者博客类型的页面，顶端栏划分了不同的信息，顶端和底部都保留了大量跟Hailuo 02的相关项，每一个页面都能交互，包含的信息量非常大，几乎完美的匹配了我的需求，你看到提示语中我说到的东西几乎都实现了。直接把生成的结果和我给的提示语对照一下，可以看到我给出的要求基本都做出来了，每一屏需要的景色背景图、数据表、地图、语音播放全都完成，编程考了，多