当前位置：首页 > 数据库

服务器之 ECC 内存的工作原理

在开始今天的服务分享之前，我先给大家看两个 1R * 8 的工作内存条。

现在的原理 CPU 都是 64 位的，每次和内存通信都要传输 64 比特的服务数据。1R * 8 类型的工作内存中的 1R 指的是该内存条只有一个 rank，8 指的原理是在每一次 64 比特的内存 IO 过程中，每个内存颗粒分别提供 8 比特的服务数据。这样计算一下，工作64 比特的原理数据就需要 8 个内存颗粒共同来组成。

这两个内存条中，服务为什么一个是工作 8 个颗粒，另一个是原理 9 个颗粒呢？这个故事还要从比特翻转说起。

一、服务比特翻转和 ECC 内存

我们的工作电脑在运行的时候，CPU 一直都需要和内存进行数据交互。云服务器提供商原理但在交互的过程中，由于周围电磁场的干扰，会有概率发生比特翻转。

图片

据统计，一根 8 GB 的内存条平均大约每小时会出现 1 - 5 个这样的错误。

图片

我们使用个人电脑在办公的时候，由于内存主要都用来处理图片、视频等数据。即使内存出现了比特翻转，可能影响的只是一个像素值，很难感觉出来，没有太大的影响。即使是比特翻转真的发生在关键的系统代码导致运行出问题，也不是什么大事，重启一次就解决了。

但在服务器应用中，处理的一般都是非常重要的计算，可能是亿华云计算一笔订单交易，也可能是一笔存款。另外就是服务器经常是连续要运行几个月甚至是几年，没有办法通过重启的方式来解决问题。因此服务器对比特翻转错误的容忍度很低。需要有技术方案能够一定程度解决比特翻转问题所带来的影响。

ECC 就是这样一种内存技术。它的英文全称是 “Error Checking and Correcting”，对应的中文名称就叫做“错误检查和纠正”。从它的名称中我们可以看出，ECC 不但能发现内存中的错误，而且还可以进行纠正。

相比没有使用 ECC 技术的个人电脑内存，内存颗粒中全部都用来存储数据即可。在 ECC 内存中每 64 比特的数据都需要额外的 8 比特数据作为校验位，用来辅助发现或者纠正错误。

图片

所以，高防服务器开篇的问题我们就有答案了。普通的内存条中全部颗粒都用来存储真正的数据。而 ECC 内存中除了数据外，还需要存储 8 比特的校验位。

在普通的 1R * 8 的内存中需要 64 / 8 = 8 个颗粒就够了。但是 ECC 内存中一次 IO 要传输 72 比特的数据，所以总共需要 72 / 8 = 9 个内存颗粒。

问题已经弄明白了。但是咱们「开发内功修炼」公众号的风格是不光要知道，还要弄懂原理。所以我们再接着看 ECC 纠错算法是如何工作的。

二、ECC 纠错原理

那么为什么 ECC 内存有了额外的 8 比特的冗余校验数据就能够发现和纠正错误了呢？我们先来看下最简单的奇偶校验。

2.1 简单的奇偶校验

简单的奇偶校验可以用来发现单比特翻转。注意重点关键字是“发现”和“单比特”。该算法只能用作发现，无法纠错。而且也只针对单比特翻转有效，无法处理两个比特同时翻转的情况。

其原理是在要监测的数据前面加入 1 比特的数据，用来保证整个二进制数组中（包括校验位）的 1 的个数是偶数。

例如下面是一个 8 比特的二进制数组。

图片

对于情况1：假设原始数据中已经是偶数个 1 了，所以校验位设置为 0 就可以了，这样整体上 1 的个数是偶数个。

对于情况2：假设原始数据中 1 的个数为奇数个，所以校验位需要设置为 1 ，以保证整个数组中 1 的个数是偶数个。由于校验位并不是真正的用户数据，所以并不影响数据的正确读取。

总的来说，在加完 1 比特校验位的二进制数组中，正确的情况下 1 的个数永远是偶数个。

如果有 1 比特位发生了翻转的话，必然会导致二进制数组中 1 的个数变成了奇数个。这样，我们通过观察数据中 1 的个数是不是偶数个就可以知道有没有单比特翻转发生了。

了解完原理你也就知道前面提到的简单奇偶校验的两个局限性了

一是只能发现出错了，但并不知道哪个位置出错，所以无法纠错。二是只能发现单比特翻转，对于两个比特的翻转无能为力。

2.2 海明码介绍

为了解决纠错和两个数据出错的问题，Richard Hamming 于 1950 年在简单奇偶校验算法的基础上提出了也叫海明校验码算法。Richard Hamming 本人也因为该算法获得了 1968 年的图灵奖。该虽然至今已经过去了 70 多年，但至今仍然广泛应用在服务器的 ECC 内存上。

首先要说的是海明码是有局限性的。对于以下几种情况：

如果 64 比特数据中发生了单比特翻转的话，海明码不但能够发现发生了错误，还能够找到错误的位置并纠正。如果发生了两个比特翻转，海明码只能够发现出了错误。但无法定位到具体的位置无法纠错，只能通过重传的方式来解决。如果发生了 3 个或者以上的比特翻转的话，海明码就无能为力了。

在实际中，内存中 64 比特数据中 3 个或者更多比特同时发生的概率非常非常的低。另外就是内存在运行上要求速度要足够的快，海明码用硬件实现起来性能损耗大约只有 2% - 3%。所以虽然海明码不能应对 3 比特以上的比特翻转，但目前仍然广泛地应用在服务器端的内存的错误检查和纠正上。在 SSD 硬盘中由于应用场景的不同，采用的是支持多比特翻转校验和纠错的 LDPC 码。

因为基于海明码的 ECC 内存不能处理 3 比特或以上的比特翻转，所以在安全对抗领域里有个专门的方向是研究如何实现在内存中人为故意制造 3 比特翻转实现攻击行为。以及如何对抗 3 比特翻转攻击。