Результаты исследования, проведенного специалистами компании Google и Университета Торонто, говорят о том, что ошибки в работе модулей памяти DRAM случаются намного чаще, чем предполагалось ранее. Выводы исследователей основаны на данных о работе нескольких десятков тысяч серверов самой Google в течение двух с половиной лет.
Большинство модулей памяти в современных серверных системах, в отличие от персональных компьютеров, снабжено средствами выявления и коррекции ошибок. Большинство выявленных ошибок удается исправить, и они не влияют на работу приложений. Однако ими, как выяснилось, страдает 8,2% всех модулей DIMM, причем уровень ошибок сильно зависит от аппаратной платформы. Неустранимые ошибки, после выявления которых модуль обычно заменяют, встречаются в 0,22% всех модулей DIMM. Более совершенные средства коррекции резко снижают число неустранимых ошибок. Износ модулей увеличивает уровень ошибок, а внешние факторы, в том числе температура, влияют не так сильно, как можно было бы ожидать.
Вопреки опасениям, новые модули памяти с повышенной плотностью записи не страдают более высоким уровнем ошибок.