Причины выхода RAID массивов из строя

      Комментарии к записи Причины выхода RAID массивов из строя отключены

Самая распространенная причина, по которой из строя выходят RAID массивы – это самое элементарное халатное отношение к своей работе системных администраторов. Все начинающие «мастера» почему-то рассчитывают, что в одну воронку бомба уж точно не попадет дважды. Возьмем, к примеру, обычный сценарий – в вашем массиве RAID 5 из строя выходит один жесткий диск. Это событие никоим образом не отразится на корректной работе массива, единственное, так это заметно уменьшится его скорость. Системный администратор если и заметит сбой вовремя, то предпринимать какие либо активные действия спешить явно не будет. Ведь он знает, что в таком состоянии массив может проработать некоторое время. И в этом заключается его главный промах. Восстановление RAID массива хлопотный процесс, который требует определенной подготовки со стороны админа.

Если накрывается медным тазом один диск, то приступать к резервному копированию стоит немедленно. Только после этого можно будет менять накопитель на новый и запускать ребилд.

Для чего вообще делать бэкап? Все просто – при ребилде массивов иногда они просто зависают. Как правило, такое случается в том случае, Если хоть на одном из дисков обнаружится бэд-блок в процессе чтения/записи. Контроллер будет пытаться считать этот злополучный сектор до последнего. Но вы то понимаете, что у него ничего из этого не получится?! В результате, длительное и бесполезное ожидание приведет к тому, что сервер упадет. После перезагрузки сервера вы обнаружите, что массив попросту развалился. Зависание в таком случае можно целиком и полностью повесить на совесть админа и урезать ему зарплат так 10 (он то уже начал мучить гугл с запросами «восстановление Seagate не распознается в BIOS»). К счастью, описанный сценарий чаще всего происходит на дешевых контроллерах. Будьте бдительны, вероятность сценария никто не отменял и для дорогих «железок»!

Чтобы избежать подобную ситуацию рекомендуем вам перед ребилдом на всякий случай проверить все диски массива на наличие бэд-блоков.

Еще одна распространенная причина отказа массива – одновременное выключение нескольких дисков. Как показывает практика, эта проблема часто возникает по вине SMART, которая фиксирует чрезмерное накопление бэд-блоков и отключает диски. Будьте внимательны, и как только обнаружите на одном диске бэд-блоки (хоть небольшое количество), начинайте подыскивать ему замену.