рефераты конспекты курсовые дипломные лекции шпоры

Реферат Курсовая Конспект

С помощью RAID-массивов

С помощью RAID-массивов - раздел Информатика, Порядок разработки и утверждения Рабочей программы учебной дисциплины ...

Одним из способов повышения надежности дисков является параллельное использование нескольких дисков — дисковых мас­сивов RAID (Redundant Array of Inexpensive Disks — избыточный массив недорогих дисков). Идея заключается в подключении груп­пы обычных (недорогих), как правило, однотипных дисков к RAID-контроллеру — устройству, которое представляет хост-компьютеру этот массив как один диск с улучшенными свойствами. В зависимо­сти от алгоритма представления диска различают следующие типы (уровни) RAID [11]. RAID 1 — дисковый массив с дублированием информации, так называемая схема с зеркальным ото­бражением данных (рис. 3.4). Два (или более) диска дублируют друг друга. Запись информации выполняется одновременно на все диски, чтение — с любого свободного. Отказ одного диска приводит только к снижению скорости чтения. Отказавший диск может быть заменен, и для ввода его в действие требуется просто копирование данных с оставшегося диска. Недостатками RAID 1 являются низкий коэффициент использования дискового пространства (всего 50 %, ниже, чем на всех дру-гих уровнях) и снижение скорости записи, т.к. она должна производиться согласо-ванно на два диска. RAID 1 прост в реализации, позволяет создать отказоустойчивую систему всего из двух дисков, самый большой его минус — высокая стоимость.

RAID 2 — схема резервирования данных с использованием кода Хэмминга для коррекции (рис. 3.5). Поток данных разбивается на слова таким образом, что коли-чество бит в слове равно количе­ству дисков и при записи слова каждый отдельный бит записывает ся на свой диск. Для каждого слова вычисляется код коррекции ошибок, который записывается на выделенные диски для хране­ния контрольной информации. Их число равно количеству бит в слове контрольной суммы. Например, если слово состоит из четы­рех бит, то под контрольную информацию отводится три диска. RAID 2 — один из немногих уровней, позволяющих обнаружи­вать двойные ошибки и исправлять одиночные. При этом он явля­ется самым избыточным среди всех уровней с контролем четности. Такая схема хранения подходит для приложений, где требуется передача большого объема данных (благодаря параллельному обращению к дискам). Однако она неприменима для задач с боль­шим количеством запросов малого объема (из-за сравнительно большого объема операций, который требуется для перераспреде­ления данных). RAID 2 относительно дорог, но при увеличении ко-личества дисков стоимость реализации снижается. Эта схема хранения данных при-меняется мало, поскольку плохо справляет­ся с большим количеством запросов, сло-жна в организации и име­ет незначительные преимущества перед уровнем RAID 3.

RAID 3 — отказоустойчивый массив с параллельным вводом/ выводом и диском контроля четности. Поток данных разбивается на блоки на уровне байт (хотя возможно и на уровне бит) и за­писывается одновременно на все диски массива, кроме диска, ко­торый выделен для хранения контрольных сумм, вычисляемых при записи данных. Поломка любого из дисков массива не при­ведет к потере информа-ции, ее можно восстановить вычислением операции «исключающее ИЛИ (XOR)», примененной к инфор­мации на оставшихся дисках. Этот уровень имеет намного мень­шую избыточность, чем RAID 2, в схеме которого большинство дисков, храня-щих контрольную информацию, нужны для опре­деления неисправного разряда. Поскольку отказ (ошибка чтения) каждого диска определяется его встроенным кон-троллером, RAID-контроллер обнаруживает ошибочный диск и вычисляет его бит через бит паритета. Благодаря разбиению данных на бло­ки RAID 3 имеет высокую производительность. При считывании информации не производится обращения к диску с контрольны­ми суммами (в случае отсутствия сбоя), что происходит всякий раз при операции записи. Поскольку при каждой операции вво да-вывода производится обращение практически ко всем дискам массива, одновременная обработка нескольких запросов невоз­можна. Этот уровень подходит для приложений с файлами боль­шого объема и малой частотой обращений (в основном это сфе­ра мультимедиа). Использование только одного диска для хра­нения контрольной информации объясняет тот факт, что коэффи­циент использования дискового пространства достаточно высок (и как следствие этого — относительно низкая стоимость). Кроме того, достоинством RAID 3 является незначительное снижение производительности при сбое и быстрое восстановление инфор­мации. Недостатком является сложность реализации.

RAID 4 — отказоустойчивый массив независимых дисков с об­щим диском контроля четности, во многом схож с уровнем RAID 3. Поток данных разделяется не на уровне байтов, а на уров­не блоков, каждый из которых записывается на отдельный диск. После записи группы блоков вычисляется контрольная сумма, ко­торая записывается на выделенный для этого диск (рис. 3.6). Бла­годаря большему, чем у RAID 3, размеру блока возможно одно­временное выполнение нескольких операций чтения. RAID 4 по­вышает производительность передачи файлов малого объема (за счет распараллеливания операции считывания). Но поскольку при записи должна изменяться контрольная сумма на выделенном дис­ке, одновременное выполнение операций невозможно (налицо асимметричность операций ввода и вывода). Этот уровень имеет все недостатки RAID 3 и не обеспечивает преимущества в скорости при передаче данных большого при передаче данных большого объема. Схема хранения разра­батывалась для приложений, в которых данные изначально разбиты на небольшие блоки, поэтому нет необходимости разбивать их дополнительно. RAID 4 — неплохое решение для файл-серверов, информация с которых в основном считыва-ется и редко записывается. Эта схема хранения данных имеет невысокую стоимость, но ее реализация достаточно сложна, как и восстановление данных при сбое.

RAID 5 — отказоустойчивый массив независимых дисков с рас­пределением контрольных сумм (массив с вращающейся четностью). Самый распространенный уровень. Блоки данных и контрольные суммы циклически записываются на все диски массива, отсутству­ет выделенный диск для хранения информации о четности: нет асим­метричности конфигурации дисков (рис. 3.7). В случае RAID 5 все диски массива имеют одинаковый размер, но один из них невидим для операционной системы. Например, если три диска имеют раз­мер 1 Гб, то фактически размер массива составляет 2 Гб, 1 Гб от­водится на контрольную информацию. Самый большой недоста­ток уровней RAID от 2 до 4-го — это наличие отдельного (физи­ческого) ди-ска, хранящего информацию о четности. Операции счи­тывания не требуют обраще-ния к этому диску, и, как следствие, скорость их выполнения достаточно высока, но при каждой опера­ции записи на нем изменяется информация, поэтому схемы RAID 2—4 не позволяют проводить параллельные операции записи. RAID 5 лишен этого недостатка, т.к. контрольные суммы записываются на все диски массива, что делает возможным выполнение нескольких операций считывания или записи одновременно.

Максимальное количество дисков в массиве — пять (данные занимают объем, соответствующий четырем дискам, объем одно­го диска — с контрольными суммами. Минимальное количество дисков — три (объем двух дисков с данными, одного — с конт­рольной суммой).

RAID 6 — это отказоус­тойчивый массив независимых дисков с распределением контрольных сумм, вычисленных дву­мя независимыми способами.Этот уровень во многом схож с RAID 5, но наличие двух не-за­висимых схем контроля четнос­ти позволя-ет сохранять работоспособность системы при одновременном выходе из строя двух накопителей. Для вычисления контрольных сумм в RAID 6 используется алгоритм, построенный на основе кода Рида—Сало-мона. При его выполнении применяются специальные таблицы, или он является итерационным процессом, использующим линей­ные регистры с обратной связью. Этот уровень имеет очень высо­кую отказоустойчивость, большую скорость считывания (данные хранятся блоками, нет выделенных дисков для хранения конт­рольных сумм), но из-за большого объема контрольной инфор­мации — низкую скорость записи. Он очень сложен в реализации, характеризуется низким коэффициентом использования дискового пространства (для пятидискового массива он составляет всего 60 %, ситуа-ция исправляется с ростом числа накопителей). RAID 6 по мно­гим характеристикам проигрывает другим уровням, поэтому на се­годняшний день не реализован ни одной фирмой, производящей RAID-системы. Все модели RAID 6, которые встречаются на рынке, как правило, являются небольшими модификациями RAID 5).

RAID 7 во многом похож на RAID 4 с возможностью кеши-рования данных. В состав RAID 7 входит контроллер со встроен­ным микропроцессором под управлением операционной системы с защитой информации (SOSsecure operation system). Она позво­ляет обрабатывать все запросы на передачу данных (как между отдельными дисками, так и между массивом и компьютером) асин­хронно и независимо. Блок вычисления контрольных сумм интег­рирован с блоком буферизации, для хранения информации о чет­ности используется отдельный диск, который может быть разме­щен на любом канале. Для повышения отказоустойчивости дис­ков используются четыре блока магнитных головок на каждый диск (рис. 3.8). RAID 7 имеет высокую скорость передачи данных и об­работки запросов, хорошее масштаби-рование (при увеличении числа дисков повышается скорость записи). Самым большим недостатком этого уровня является стоимость его реализации.

У RAID-массивов всех уровней есть общая харак­теристика: перационная си- 195

стема сервера, к которому они подключены, работает с ними как с единым логи-ческим диском. Это означает, что можно объединить различные RAID-уровни для создания массива массивов, где фи­зические диски заменены RAID-массивами второго уровня, кото­рые необязательно должны иметь ту же схему хранения дан-ных, что и массив первого уровня. Объединение массивов позволяет создать систе-мы хранения огромной емкости. В связи с техничес­кими трудностями восстановле-ния информации в случае сбоя RAID-массивы пятого уровня обычно содержат не более 5—6 дис­ков, их совокупной емкости может не хватить для хранения всей информации, но создание массива массивов решает эту проблему. Кроме того, ком-бинирование RAID-уровней позволяет исполь­зовать их преимущества и сглаживать недостатки. Обычно соеди­нение устроено таким образом, что сервер работает с высокопро­изводительным RAID-массивом, а низкопроизводительные исполь­зуются для обеспечения сохранности данных. Возможны и более сложные массивы, в которых используется двухступенчатые ком­бинации описанных уровней:

RAID 10—массив RAID 0, собранный из зеркальных дисков RAID 1, обеспечивает высокую скорость и надежность, но ценой большой избыточности. Максимальное количество дисков — де­сять (восемь дисков с данными, один диск с контрольной суммой и один резервный);

RAID 30—массив RAID 0, собранный из блоков RAID 3;

RAID 50—массив RAID 0, собранный из блоков RAID 5. обеспечивает отказо-устойчивость и высокую производительность.

Итак, идея создания RAID-системы заключается в следующем: из набора обычных дисковых накопителей создается массив, кото­рый управляется специальным кон-троллером и воспринимается сервером как единый логический диск большой емко-сти (как пра­вило, физических дисков, способных хранить такой объем инфор­мации, не существует). Высокое быстродействие системы обеспе­чивается возможностью параллельного выполнения нескольких операций вывода (ввода), а сохранность информации — ее дубли­рованием или вычислением контрольных сумм. Каждый уровень RAID имеет свои особенности, поэтому подходит для выполне­ния только определенного круга задач. Массивы RAID могут быть реализованы для главного ком­пьютера как аппаратно, так и программно.

Аппаратный RAID-контроллер представляет собой интеллек­туальное устройство со своим мощным микропроцессором и ин­терфейсами для подключения дисков, а также интерфейсом подклю­чения к главному компьютеру. RAID-контроллер может быть как внешним (отдельное устройство со своим блоком питания и отсе­ком для установки дисков), так и внутренним.

Большим недостатком внутренних контроллеров является их привязка к определен-ной платформе и операционной системе, под­час приходится сталкиваться с некор-ректной работой драйверов. Кроме того, эти контроллеры имеют ограниченные воз-можности по построению отказоустойчивых систем и масштабированию. Внут-ренние контроллеры RAID-массивов значительно различа­ются по своим характерис-тикам и стоимости. Их основные произ­водители — компании Mylex, AMI, Adaptec.

Внешняя RAID-система характеризуется более высокой надеж­ностью, поскольку их компоненты изначально подогнаны один к другому в отличие от сборных решений. Для настройки внешнего RAID-массива не требуется драйверов, заменить вышед-шие из строя диски значительно легче. Такие системы способны обслужи­вать запросы с нескольких серверов, следовательно, позволяют со­здавать сверхнадежные кластерные системы (к RAID-массиву под­ключены два сервера, выполняющие текущие задачи, при выходе из строя одного все функции берет на себя другой; про-изводитель­ность, конечно, снижается, но кластер остается работоспособным). Внеш-нюю RAID-систему и сервер, к которому она подключена, можно разнести на значи-тельное расстояние, что спасет информа­цию в случае, если в серверной комнате про-изойдет ЧП (пожар, затопление и т.д.). Единственным недостатком внешних RAID-си­стем является их высокая стоимость.

В качестве интерфейса дисков чаще всего используют шины SCSI (Small Computer System Interface), поскольку требуется под­ключение большого числа устройств. Есть и RAID-контроллеры с интерфейсом ATA (Advanced Technology Attachment), но это не ти­пично. В качестве интерфейса с хост-компьютером для внешних RAID-контроллеров могут использоваться SCSI или FCAL. Для внутренних RAID-контроллеров используется шина PCI. Функции RAID могут быть реализованы и программно сред­ствами операционной системы (например, такая возможность пре­дусмотрена в Windows NT). При этом в качестве интерфейсов дис­ков используются интерфейсы стандартных контроллеров (пред­почтительно SCSI, но допустим и ΑΤΑ). Программный RAID-мас­сив обеспечивает высокую отказоустойчивость, но требует боль­шой вычислительной мощности для обеспечения повышенного быстродействия.

В системах непрерывной готовности применяются сочетания RAID-массивов разных уровней. На рис. 3.9. приведена масшта­бируемая подсистема RAID COMPAREX OpenLine D1200, исполь­зуемая в универсальных ЭВМ архитектуры S/390. RAID-контрол­лер Ultra-SCSI разбивает информацию на блоки и распределяет ее по контроллерам Ultra-SCSI, которые размещают блоки на дис­ках. В системах реализованы массивы RAID 1, RAID 0 и RAID 5. Функции RAID могут быть реализованы и программно сред­ствами операционной системы (например, такая возможность пре­дусмотрена в Windows NT). При этом в качестве интерфейсов дис­ков используются интерфейсы стандартных контроллеров (пред­почтительно SCSI, но допустим и ΑΤΑ). Программный RAID-мас­сив обеспечивает высокую отказоустойчивость, но требует боль­шой вычислительной мощности для обеспечения повышенного быстродействия.

В системах непрерывной готовности применяются сочетания RAID-массивов разных уровней. На рис. 3.9. приведена масшта­бируемая подсистема RAID COMPAREX OpenLine D1200, исполь­зуемая в универсальных ЭВМ архитектуры S/390. RAID-контрол­лер Ultra-SCSI разбивает информацию на блоки и распределяет ее по контроллерам Ultra-SCSI, которые размещают блоки на дис­ках. В системах реализованы массивы RAID 1, RAID 0 и RAID 5. Для повышения готовности система снабжена дисками, находящимися в горячем резерве Для повышения готовности система снабжена дисками, находящимися в горячем резерве. Это позволяет заменять отказавшие диски в оперативном режиме. Для повышения отказоустойчивости все контроллеры продублированы.

 

 

харак­теристика: операционная си- 3.3.3. Понятие об отказоустойчивых вычислительных системах

Одной из основных задач построения вычислительных систем ос­тается обеспечение их продолжительного функционирования, обес­печивающего надежность, готовность и удобство обслуживания. Ре­шение этой задачи предполагает, в первую очередь, борьбу с неисп­равностями системы, порождаемыми отказами и сбоями в ее работе.

Повышение надежности обеспечивается путем снижения интен­сивности отказов и сбоев за счет применения электронных схем и компонентов с высокой и сверхвысокой степенью интеграции, сни­жения уровня помех, реализации облегченных режимов работы схем, поддержки необходимых тепловых режимов их, а также за счет совершенствования методов сборки аппаратуры. Единицей измерения надежности является среднее время наработки на отказ.

Повышение готовности предполагает подавление, в определен­ных пределах, влияния отказов и сбоев на работу системы. Это осу­ществляется с помощью средств контроля и коррекции ошибок, а также средств автоматического восстановления вычислительного процесса после проявления неисправности, включая аппаратурную и программную избыточность, на основе которой реализуются раз­личные варианты отказоустойчивых архитектур. Повышение готов­ности — способ сокращения времени простоя системы. Единицей измерения здесь является коэффициент готовности, который опреде­ляет вероятность пребывания системы в работоспособном состоя­нии в любой момент времени. Статистически коэффициент готовно­сти неизбыточной системы при организованном ремонте определя­ется как отношение среднего времени наработки на отказ к сумме этого времени и среднего времени восстановления, иначе говоря, среднее время между моментом обнаружения неисправности и мо­ментом возврата системы к полноценному функционированию. Очевидно, что основные эксплуатационные характеристики систе­мы существенно зависят от удобства ее обслуживания, в частности, от ремонтопригодности и контролепригодности.

В литературе по вычислительной технике все чаще употребля­ются термины «системы высокой готовности», «устойчивые и эла­стичные к сбоям и отказам системы», «системы непрерывной и по­стоянной готовности».

Высокая готовность. В конструкциях с высоким коэффициен­том готовности для минимизации планового и непланового време­ни простоя используют обычную компьютерную технологию. При этом конфигурация системы обеспечивает ее быс-трое восстановле­ние, после обнаружения неисправности, для чего в ряде мест исполь-зуются избыточные аппаратные и программные средства. Время, в течение которого программа, отдельный компонент или система простаивает, колеблется от несколь-ких секунд до нескольких часов. Обычно системы высокой готовности хорошо масштабируются.

Все системы высокой готовности обеспечивают устойчивость к отказам и сбоям в работе дисков и системы электропитания бла­годаря применению принципа избыточ-ности: RAID-структуры, ИБП и т.п. Следует отметить, что для современных систем высо­кой готовности характерно использование технологии «горячей» замены отказавшего узла.

Эластичность к сбоям. Ряд поставщиков компьютерного обо­рудования делит весь диапазон систем высокой готовности на две части, при этом в верхней части оказы-ваются системы, эластичные к сбоям. Эластичность к сбоям определяет более корот-кое время восстановления, которое позволяет системе быстро откатиться на­зад при обнаружении неисправности.

Устойчивость к сбоям. Устойчивые к сбоям системы («отказо­устойчивые системы») имеют в своем составе избыточную аппара­туру для всех функциональных блоков, включая процессоры, ис­точники питания, подсистемы ввода-вывода и подсистемы диско­вой памяти. Если соответствующий функциональный блок непра­вильно работает, всегда имеется горячий резерв и неисправность в любом блоке не может вывести систему из строя. В ряде отказоус­тойчивых систем избыточные аппаратные средства можно исполь­зовать для распараллеливания обычных работ. Время восстанов­ления в таких системах не должно превышать одной секунды.

Непрерывная готовность. Лучшими среди отказоустойчивых си­стем являются системы, обеспечивающие непрерывную готовность. В литературе по вычислительной технике все чаще употребля­ются термины «системы высокой готовности», «устойчивые и эла­стичные к сбоям и отказам системы», «системы непрерывной и по­стоянной готовности».

Высокая готовность. В конструкциях с высоким коэффициен­том готовности для минимизации планового и непланового време­ни простоя используют обычную компьютерную технологию. При этом конфигурация системы обеспечивает ее быс-трое восстановле­ние, после обнаружения неисправности, для чего в ряде мест исполь-зуются избыточные аппаратные и программные средства. Время, в течение которого программа, отдельный компонент или система простаивает, колеблется от несколь-ких секунд до нескольких часов. Обычно системы высокой готовности хорошо масштабируются.

Все системы высокой готовности обеспечивают устойчивость к отказам и сбоям в работе дисков и системы электропитания бла­годаря применению принципа избыточ-ности: RAID-структуры, ИБП и т.п. Следует отметить, что для современных систем высо­кой готовности характерно использование технологии «горячей» замены отказавшего узла.

Эластичность к сбоям. Ряд поставщиков компьютерного обо­рудования делит весь диапазон систем высокой готовности на две части, при этом в верхней части оказы-ваются системы, эластичные к сбоям. Эластичность к сбоям определяет более корот-кое время восстановления, которое позволяет системе быстро откатиться на­зад при обнаружении неисправности.

Устойчивость к сбоям. Устойчивые к сбоям системы («отказо­устойчивые системы») имеют в своем составе избыточную аппара­туру для всех функциональных блоков, включая процессоры, ис­точники питания, подсистемы ввода-вывода и подсистемы диско­вой памяти. Если соответствующий функциональный блок непра­вильно работает, всегда имеется горячий резерв и неисправность в любом блоке не может вывести систему из строя. В ряде отказоус­тойчивых систем избыточные аппаратные средства можно исполь­зовать для распараллеливания обычных работ. Время восстанов­ления в таких системах не должно превышать одной секунды.

Непрерывная готовность. Лучшими среди отказоустойчивых си­стем являются системы, обеспечивающие непрерывную готовность. А стоимости простоя системы остается достаточно сложной задачей, поскольку она связана не только с потерей работоспособности си­стемы, но существенно зависит и от организационной структуры конкретного предприятия и от места проявления неисправности.

3.3.3.1. Основные принципы построения систем непрерывной готовности

Реализация вычислений в режиме непрерывной готовности затрагивает практически все аспекты разработки системы — в ней не должно быть ни одного функционального узла, отказ которого может вывести из строя систему в целом. Существуют следующие принципы построения отказоустойчивых систем.

1. Модульность. Каждый модуль системы является единицей обслуживания и ремонта с ограничением распространения неисп­равности. В случае отказа модуля он заменяется на другой.

2. Быстрое проявление неисправности. Каждый модуль должен либо работать правильно, либо немедленно останавливаться.

3. Независимость отказов. Модули и связи между ними долж­ны быть разработаны так, что отказ одного из модулей никак не влиет на работу остальных.

4. Избыточность и ремонт. В системе должны быть заранее установлены или сконфигурированы запасные модули так, что при отказе одного из модулей запасной модуль может заменить его практически немедленно. Отказавший модуль может ремонтиро­ваться автономно, в то время как система продолжает работать.

5. Принцип дублирования дуплексных модулей.

Принцип быстрого проявления неисправности обычно реализует­ся с помощью двух методов: самоконтроля и сравнения. Средства самоконтроля предполагают, что при выполнении некоторой опе­рации модуль реализует и некоторую дополнительную функцию, позволяющую подтвердить правильность полученного состояния. Примерами этого метода являются коды обнаружения неисправно­сти при хранении данных и передаче сообщений. Метод сравнения основывается на выполнении одной и той же операции двумя или большим числом модулей и сопоставлении результатов компара­тором. В случае обнаружения несовпадения результатов работа приостанавливается. Методы самоконтроля доминируют в устрой ствах памяти и устройствах связи благодаря простоте и ясности ло­гики. Однако для сложных устройств обработки данных по эконо­мическим соображениям используют методы сравнения.

Принцип дублирования дуплексных модулей предполагает созда­ние некоторого «супермодуля» — комбинации двух модулей, по­строенных на принципах быстрого проявления неисправности. Такой «супермодуль» продолжает работать даже тогда, когда от­казывает один из субмодулей. Проиллюстрируем этот принцип на примере системы S/390 компании IBM (рис. 3.10). Дублирование дуплексных модулей требует большого объе­ма оборудования, но позволяет делать выбор одного из режимов работы: организацию либо двух независимых вычислений на прин­ципах быстрого проявления неисправности, выполняющихся на двух парах модулей, либо одного высоконадежного вычисления, выполняющегося на всех четырех модулях.

Для существенного увеличения уровня готовности избыточная конструкция должна обеспечивать возможность ремонта и замены отказавших модулей. Таким образом, в основе систем непрерывной готовности лежит аппаратная отказоустойчивая архитектура, состо­ящая из дублированных функциональных узлов, причем большин­ство этих узлов работает в режиме пошаговой блокировки.

3.3.3.2. Дублирование функциональных узлов и режим пошаговой блокировки


Режим пошаговой блокировки предполагает, что все дубли­рованные элементы некоторой подсистемы обрабатывают одну и ту же команду или данные в один и тот же момент времени. На­пример, в системах компании Stratus каждые два физических про­цессора (ЦП) объединяются парами и одновременно выполняют одну и ту же команду (рис. 3.11). При этом специальная схема срав нения в каждом такте проверяет, что оба ЦП получили одинако­вый результат. Если ошибки отсутствуют, работа процессоров продолжается. Если обнаруживается ошибка, то работа останав­ливается, но простая схема сравнения не может сообщить, в каком ЦП произошел сбой. Именно поэтому работающие в режиме по­шаговой блокировки пары ЦП также объединяются парами, об­разуя логический процессор из четырех физических ЦП.

В случае появления сбоя, т.е. ошибки на выходе одного из процессоров, встроенная в данную плату логика сравнения обна­ружит несоответствие логических сигналов с выходов процессор­ных кристаллов и автоматически изолирует выход данной платы от системных шин (рис. 3.11, б), а данная плата приступает к про­цедуре самотестирования. В то же время вторая плата ЦПУ, также содержащая пару процессоров, продолжает вычисления без малей­шего прерывания работы системы в целом. В случае, если самоте­стирование показывает, что плата исправна, она синхронизирует­ся со второй платой и продолжает работу. В противном случае плата ЦПУ индицирует свою неисправность включением красного светодиода на передней панели, в системный журнальный файл заносится соответствующая запись и система с неисправными ком­понентами сама дозванивается по сети удаленного обслуживания RSN (Remote Service Network) в сервисный центр компании произ­водителя (если таковой имеется) и сообщает о неисправности. Это позволяет обслуживающему персоналу компании определить ме­стоположение отказавшего узла и отправить подлежащий замене узел заказчику.

Таким образом, обнаружение сбоя осуществляется аппарат­ным способом с помощью использования логики сравнения, а мгновенное подавление (исправление) сбоя — с помощью аппа­ратной реализации мажоритарного принципа определения неисп­равного элемента (3 из 4).

3.3.3.3. Организация непрерывной обработки

Концепция обеспечения непрерывной обработки затрагивает буквально все аспекты построения системы, для этого:

— применяются дуплексные аппаратные средства, построен­ные на принципах самоконтроля; осуществляется «усиление» ядра операционной системы с целью повышения устойчивости к сбоям и отказам отдельных ком­понентов;

— обеспечивается проведение работ по модернизации, об­служиванию и администрированию системы в оперативном ре­жиме, что позволяет ликвидировать другие потенциальные ис­точники простоев.

Такой комплексный подход дает возможность поддерживать постоянный доступ к приложениям и данным и предохранять их от повреждений.

Работа системы начинается с диагностики всех компонентов при включении питания. В оперативном режиме все вычисления, операции с памятью и операции ввода-вывода выполняются па­раллельно на дуплексных аппаратных средствах. Каждая печат­ная плата проверяет себя на наличие аппаратных ошибок в каж­дом машинном такте. Если обнаруживается сбой в логике, систе­ма немедленно останавливает неисправную плату. Плата дуплекс­ного партнера продолжает выполнять программу в обычном ре­жиме и с нормальной скоростью.

Таким образом, даже если отказывает плата, никакого вмеша­тельства операционной системы не требуется. Отказавшая плата просто больше не участвует в работе, о чем автоматически сообща­ется в центр поддержки пользователей (Customer Assistance Center). Такой подход имеет то преимущество, что позволяет обнаружить в работе оборудования не только «жесткие» отказы, но также и вре­менные неисправности (сбои), что обеспечивает более высокий уро­вень готовности системы и повышает гарантию целостности данных.

Память системы дублируется и защищается кодами с исправ­лением ошибок Error correcting code, а логика контроллера па­мяти построена на принципах самоконтроля. Схемы поиска неис­правностей проверяют память на наличие ошибок и гарантируют, что даже в редко используемых ячейках памяти не появятся некор­ректируемые ошибки. При этом работа этих схем поиска неисп­равностей скрыта от приложений и не влияет на производитель­ность системы.

Дисковые накопители и контроллеры также дублируются, что­бы предотвратить появление неисправности, которая может повре дить данные или прервать работу системы. В случае отказа диска, все операции дискового ввода-вывода выполняются на исправном накопителе до тех пор, пока отказавшее устройство не будет заме­нено. После устранения неисправности система автоматически вос­станавливает диск. В данном случае прикладное программное обес­печение даже не подозревает о возникновении неисправности, а также о наличии избыточной аппаратуры.

3.3.3.4. Оперативная замена компонентов системы

Все конструктивные компоненты системы могут заменяться в оперативном режиме — пользователи имеют возможность «горя­чей» замены неисправных компонентов без какого-либо простоя и приглашения обслуживающего персонала. Новый компонент ав­томатически сам переводит себя в оперативный режим. Сокраще­ние плановых простоев является еще одним важным аспектом вы­числений в режиме непрерывной готовности. Примером заменяе­мых заказчиком компонентов могут служить центральные процес­соры. Однако и все остальные основные компоненты: модули па­мяти, диски, элементы системы питания и периферийные устрой­ства защищены подобным способом.

Некоторые компании-производители предлагают технологию обслуживания заказчиков, основанную на том, что все системы заказчиков подсоединены к высоконадежной сервисной сети миро­вого масштаба RSN, специально созданной для этих целей.

3.3.3.5. Система непрерывной готовности на базе

компьютеров Continuum Series 400 фирмы Stratus

В состав компьютеров серии 400 входят следующие подсистемы:

• процессорные блоки;

• основание системы;

• системная шина;

• стойка расширения дисков;

• подсистема питания;

• подсистема охлаждения.

На рис. 3.12 приведена обобщенная схема системы Continuum Series 400. Процессорный блок. Одним из двух главных конструктивных узлов системы является процессорный блок. В системе имеются два идентичных процессорных блока. В каждом процессорном блоке размещается плата «ЦП-память», вентиляторы системы ох­лаждения и источник питания. Модуль платы «ЦП-память» представляет собой материнскую плату, содержащую логическую секцию (оснащенные кэш-памя­тью модули ЦП PA-RISC — Precision Architecture [for] Reduced Instruction Set Computing — точная архитектура процессора с со­кращенным набором команд, а также модули памяти), и модуль контроллера консоли (с последовательными интерфейсами для свя­зи с консолью, RSN и источником бесперебойного питания).

Секция логики. Кристалл ΡΑ-RISC представляет собой высо­копроизводительный ЦП.

Модули «ЦП-кэш» реализованы в однопроцессорном и двух­процессорном исполнении. В каждом процессорном блоке при однопроцессорном исполнении размещается один логический (два физических) ЦП, а при двухпроцессорном исполнении — два ло­гических (четыре физических) ЦП.

Каждая плата «ЦП-память» содержит две работающие синхронно части (C-side и D-side), которые путем сравнения друг с другом обеспе­чивают обнаружение ошибок на плате. Расположенные в разных про­цессорных блоках платы-партнеры работают в режиме пошаговой блокировки. Появление неисправности на любой из плат вызывает переключение этой платы в нерабочее состояние. Подсистема ЦП и интерфейс системной шины полностью дублируются и сравниваются.

Модуль контроллера консоли. Каждый модуль контроллера консоли работает независимо от остальной части платы «ЦП-па­мять», на которой он расположен. Этот модуль выполняет функ­ции центрального управления всей системы:

—поддерживает три асинхронных порта: порт системной кон­соли, порт RSN и логический порт для связи с источником беспе­ребойного питания или с принтером консоли;

—служит в качестве центральной точки сбора данных в про­цессе обслуживания и диагностики системы;

—управляет и наблюдает за работой основного источника пи­тания;

—обеспечивает интерфейс консольных команд;

—содержит аппаратные схемы календаря/времени и память с батарейным питанием (nonvolaflve RAM), в которой хранятся дан­ные для загрузки системы;

содержит постоянную память (ID PROM), которая хранит такую информацию, как номер модели, серийный номер и т.п. Кроме того, в состав контроллера консоли входит постоянная память (PROM), организованная в виде нескольких разделов дан­ных, которые содержат коды про-грамм (фирменное программное обеспечение) диагностики платы, а также операций платы, выпол­няемых ею при работе в оперативном режиме и режиме горячего резерва. Эти коды программ диагностики и операций (как для опе­ративного режима, так и для режима горячего резерва) прожига­ются на плате на заводе-изготовителе.

Контроллеры консоли логически образуют пару (но не рабо­тают в режиме пошаговой блокировки), так что в этом смысле одна из плат всегда находится в оперативном режиме, в то время как другая — в состоянии горячего резерва. Контроллер консоли, ра­ботающий в оперативном режиме, является активным на шине контроллера консоли и взаимодействует с другими компонентами системы. Резервный контроллер консоли также рассматривается как активный на шине кон-троллера консоли, но не может взаимодей­ствовать с остальной частью системы; он изолирован от всех вне­шних устройств за исключением шины контроллера консоли.

Если происходит отказ контроллера консоли, работающего в оперативном режиме, аппаратура автоматически выполняет опе­рацию «переключения» на резервный. На новом оперативном кон­троллере консоли инициализируются все порты и операции вво­да-вывода продолжаются. Переключение на горячий резерв может быть иниции-ровано вручную путем объявления или удаления опе­ративного контроллера консоли.

Модули памяти устанавливаются на материнскую плату. В один логический процессорный блок может быть установлено до че­тырех модулей памяти — максимально в системе может быть восемь модулей.

В компьютерах компании Stratus реализованы устойчивые к сбо­ям подсистемы па-мяти. Помимо использования метода дублирова­ния, аппаратура способна обнару-живать многие сбои, которые не в состоянии выявить альтернативные конструкции, в основном пола­гающиеся только на определение четности данных либо на ЕСС-коды.

В серии Continuum используются мощные методы тестирова­ния статических и динамических отказов памяти, что гарантируе обнаружение любых типов неисправностей. Основание системы. В основании системы находятся три ос­новных компонента: подсистема ввода-вывода PCI, дисковые на­копители (8 шт. максимум) и источники питания основания систе­мы (2 шт.)

Основными компонентами подсистемы ввода/вывода являются:

—две карты мостов Peripheral Component Interconnect (PCIB);

—двойные шины PCI;

—до 14 карт адаптеров PCI (12 могут конфигурироваться пользователем).

Карты мостов PCI. Две карты PCIB осуществляют интерфейс между системной шиной (Xbus) Continuum 400 и двумя 8-слотовы-ми шинами PCI. PCIB обеспечивают изоляцию карт адаптеров PCI от процессорных блоков, так что неисправность процессорного бло­ка не может нарушить работу карты PCI. Каждая карта PCIB под­держивает дублированное соединение с системной шиной Continuum 400 и обычное соединение с физически отдельной двой­ной 8-слотовой шиной PCI.

Карты PCIB представляют собой устройства управления и ин­терфейса для карт адаптеров PCI. Каждая из них осуществляет ин­терфейс между ЦП и одной логичес-кой шиной PCI. Мосты PCIB управляют доступом адаптеров к шинам PCI, так что адаптеры PCI, в работе которых происходит сбой, не могут захватить шину.

На каждой карте PCIB размещается сменная флэш-карта. С этих перепрограмми-руемых ПЗУ осуществляется загрузка системы. Система может загружаться с любой из флэш-карт до тех пор, пока она имеет текущую версию программы начальной загруз­ки. ПЗУ ЦП (CPU PROM) в процессе загрузки представляет флэш-карту в виде диска, доступного только в режиме чтения. При запуске системы ОС загружа-ется с флэш-карты, при этом предполагается, что последняя содержит правильную версию ядра ОС. Если файл на флэш-карте не совпадает с файлом, суще­ствующим на корневом диске, на корневой диск переписывается файл с флэш-карты.

При выключении системы (по специальной команде) ОС сно­ва сравнивает содержимое файла на флэш-карте с содержимым фай­ла на корневом диске. Если содержимое этих файлов не идентично, ОС автоматически обновляет файл на флэш-карте, указанной с помощью символической ссылки, которая была создана во время запуска системы.

Шина PCI. Шина ввода-вывода систем Continuum 400 постро­ена в соответствии с промышленным стандартом PCI.

Каждая карта адаптера непосредственно доступна из любого процессорного блока через шину PCI. Специальная логика, реа­лизованная в каждом процессорном блоке, обеспечивает устойчи­вость к сбоям при работе с шиной PCI и защищает от неисправно­стей карт адаптеров.

Каждая из двух логических шин PCI имеет раздельную раз­водку питания, так что по крайней мере одна из карт дисковых контроллеров всегда этим питанием обеспечена.

PCIB занимает один из восьми слотов на каждой логической шине PCI, так что остается только семь свободных слотов. Но поскольку для размещения задублированных карт SCSI-адапте­ров также требуется по одному слоту, для организации ввода/вы­вода остается максимально шесть дублированных слотов PCI, ко­торые могут конфигурироваться пользователем. (Если использу­ется симплексный режим работы адаптеров PCI, то для организа­ции ввода/вывода в системе Continuum 400 оказываются доступ­ными максимально 12 слотов PCI.)

Логические схемы, управляющие работой системной шины в мостах PCI, построены на принципах самоконтроля, поэтому ин­терфейс Continuum 400 с подсистемой ввода-вывода устойчив к от­казам. Двойные шины PCI позволяют устанавливать в них дубли­рованные адаптеры, что минимизирует опасность выхода системы из строя в случае неисправности отдельного адаптера. На шинах PCI применяется внутренняя и внешняя проверка шлейфов.

В случае отказа PCIB, шины PCI, карты адаптера PCI или разъема для поддержки связности системы без прерывания ее ра­боты могут использоваться программные средства переключения на горячий резерв, например, избыточный сетевой интерфейс (RNI). Конечно, возможность переключения на горячий резерв зависит от того, поддерживается ли она программным обеспечением соот­ветствующих сетевых уровневых протоколов.

Системная шина представляет собой четыре распределенных шины «точка—точка», которые не дублируются. Это основное от личие от системной шины Continuum Series 600/1200, представляю­щей собой логически единую дублированную шину с расщепле­нием транзакций и мульти-плексированием адреса и данных, раз­деляемую всеми платами.

Хотя физически Xbus реализована на четырех шинах «точка— точка», протокол представляет ее как единую шину. В каждом кон­кретном цикле в системе межсоединений обрабатывается не более одной транзакции. Эта транзакция может выполняться всеми че­тырьмя шинами в случае дуплексного режима работы или только двумя шинами в случае симплексного режима работы.

Сигналы шины защищены картой памяти, четностью и про­веркой шлейфа, причем сигналы управления защищены с помо­щью кодов с исправлением ошибок и проверкой шлейфа.

Транзакция ЦП—ЦП выполняется с помощью операции взаи­модействия равноправ-ных подсистем, при этом она разбивается на две отдельных транзакции, поскольку XBus не имеет полностью вза­имосвязанных шин данных. В первой транзакции ЦП передает по­сылку PCIB. Во второй — PCIB передает информацию другому ЦП.

XBus поддерживает протокол обнаружения ошибок. В отли­чие от системной шины серии 600/1200 XBus пытается не только обнаружить ошибки шины, но также диагностировать источник ошибок.

Подсистема питания включает три основных сборочных узла:

• дублированные модули ввода напряжения питания;

• источники питания процессорных блоков;

• источники питания основания системы.

Каждый процессорный блок содержит источник питания. Не­исправность в источнике питания приводит к отказу всего процес­сорного блока, но не к прерыванию работы системы.

В основании системы имеются два источника питания подсис­темы ввода/вывода. Каждый блок обеспечивает дублированное ак­тивное питание дисковым накопителям и не дублированное пита­ние половине подсистемы ввода-вывода. В случае отказа источни­ка половина слотов PCI оказываются в нерабочем состоянии, но система продолжает работать.

В системах Continuum 400 не поддерживается никаких встро­енных систем бесперебойного питания. ИБП обеспечивает пере менное питающее напряжение и связан с системой с помощью пос­ледовательного интерфейса, подсоединяемого к одному из асинх­ронных портов контроллера консоли. Фирменное ПО контролле­ра консоли взаимодействует с ИБП и обеспечивает как индикацию отказа питания, так и выключение питания системы.

Система охлаждения. Каждый процессорный блок системы на базе охлаждается с помощью двух или трех вентиляторов, распо­ложенных на его задней стенке. Отказ вентилятора в каком-либо процессорном блоке приводит к отключению последнего.

Карты PCI, расположенные в основании системы, охлаждают­ся путем выкачивания воздуха вентиляторами охлаждения процес­сорных блоков. Дисковые накопители охлаждаются двумя вентиля­торами, расположенными на задней стенке источников питания ос­нования системы. Информация о температуре снимается с помощью датчиков и используется для управления скоростью вентиляторов.

– Конец работы –

Эта тема принадлежит разделу:

Порядок разработки и утверждения Рабочей программы учебной дисциплины

Ректор МИИТ... Б А Л вин... г...

Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ: С помощью RAID-массивов

Что будем делать с полученным материалом:

Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:

Все темы данного раздела:

I. ОБЩИЕ ПОЛОЖЕНИЯ
Порядок разработки и утверждения рабочей программы учебной дисциплины является системообразующим документом основной образовательной программы (далее - ООП). Порядок создан в целях обеспеч

Организационно-методические требования к рабочей программе учебной дисциплины
2.1. Основные задачи рабочей программы Рабочая программа учебной дисциплины является одной из ключевых элементов основной образовательной программы высшего профессионального образования,с

II. МЕТОДИЧЕСКИЕ РЕКОМЕНДАЦИИ ПО СОСТАВЛЕНИЮ РАБОЧЕЙ ПРОГРАММЫ УЧЕБНОЙ ДИСЦИПЛИНЫ
3.1. Титульный лист 3.1.1. На титульном листе в соответствии с Приложением 1, стр.1 указываются: - наименование учредителя; - полное официальное наименование вуза;

ЦЕЛИ ОСВОЕНИЯ УЧЕБНОЙ ДИСЦИПЛИНЫ
Целями освоения учебной дисциплины «История информационных технологий» являются: соответствие требованиями ФГОС ВПО; изучение учебной дисциплины; формирование у обучающихся определенного состава ко

И телекоммуникационных процессов
в информационных системахФункциональные или целевые вычислительные процессы в информационных системах реализуются в устройствах накопления и хранения информации, устройствах ввода

Терминального и сетевого оборудования
Современное сетевое оборудование — это, как правило, цифровые системы передачи информации, использующие в качестве среды распространения сигналов оптический кабель — волоконно-оптические системы пе

Аварийные сообщения
При возможных изменениях состояния отдельных элементов функция защиты на месте неисправности тотчас же вызывает гене рирование аварийного сообщения. Аварийные сообщения сохраняются в файле регистра

Статистические данные
Статистические данные сохраняются, как и данные вызовов, в MU-J. В отличие от автоматической регистрации журнальных данных регистрация статистических данных на диске должна быть инициализирована ко

Основные термины и определения
Как уже отмечалось ранее, информационная система — это сложная система, объединяющая в своем составе функциональные элементы (устройства) различные по физической Природе, составу, алгоритмам работы

Объектов технической эксплуатации
Сложные технические объекты (системы), рассчитанные на дли­тельный срок службы, создаются, как правило, ремонтируемыми. Переход системы из неработоспособного (предельного) состо­яния в раб

Восстанавливаемых объектов
При проектировании восстанавливаемых объектов требуется не только определять их эксплуатационную надежность, но и оце­нивать их общую эффективность использования, т.е. оценивать приспособленность о

Комплексные показатели надежности
Наиболее распространенными комплексными показателями являются показатели, характеризующие одновременно свойства работоспособности и ремонтопригодности восстанавливаемых объектов, а именно:

Информационных систем
Информационные системы представляют собой сложные тер­риториально распределенные системы, в состав которых входят тысячи комплектующих элементов, кроме того, им присуща слож­ная структура, сложный

Безотказной работы
В инженерной практике используют обычно два закона рас­пределения: дифференциальный и интегральный. Дифференциальный закон распределения плотности вероятно­сти каких-либо значений х показыва

Работоспособности элементов
Пусть в результате предварительных испытаний устройства или на основании его предыдущей эксплуатации известно, что распре­деление наработки между отказами достаточно близко к экспонен­циальному с п

Обслуживания
Под технологичностью обслуживания понимают совокупность свойств, характеризующих приспособленность объекта к техничес­кому обслуживанию.    

Структура системы технического обслуживания
Опыт эксплуатации показывает, что наиболее эффективными являются частично централизованные системы технического обслу­живания, имеющие несколько уровней. При использовании таких систем сокращаются

Комплекс организационно-технических мероприятий при техобслуживании
Техническое обслуживание — комплекс операций по поддер­жанию работо-способности или исправности технических объектов (систем) при использовании по назначению, ожидании, хранении, транспортир

Расчеты норм запасных элементов
Затраты на запасные элементы могут составлять значительную часть расходов на поддержание объектов в работоспособном со­стоянии. С другой стороны, отсутствие запасных элементов или задержка с их дос

Показатели надежности ЭВМ
Основными эксплуатационными характеристиками ЭВМ являются показатели надежности. Вероятность безотказной работы с заданной производительнос­тью pε(t) — вероят

К сбоям
В работе ЭВМ большое значение имеют сбои. Сбой (перемежающийся отказ) — это событие, заключающееся во временной утрате работоспособности объекта, характеризуемое возникновением ошиб

Блокирование кратковременных отказов с помощью источников бесперебойного питания
Серьезные проблемы в работе средств вычислительной техники могут возникать из-за некачественного электропитания и наличия статического электричества. Согласно статистике, по причинам, связанным со

Кластерные системы
Под кластерами традиционно понимается объединение не­скольких вычислительных систем (узлов), которые используются как единое целое для обеспечения доступа пользователей к прило­жениям, системным ре

Защита от вирусов
3.4.1.1Классификация вирусов Строгого определения компьютерного вируса в настоящее время пока не существует. Это объясняется тем, что практически все отличительные черты вируса (вне

ОЦЕНОЧНЫЕ СРЕДСТВА ДЛЯ ТЕКУЩЕГО КОНТРОЛЯ УСПЕВАЕМОСТИ, ПРОМЕЖУТОЧНОЙ АТТЕСТАЦИИ ПО ИТОГАМ ОСВОЕНИЯ ДИСЦИПЛИНЫ
№ п/п № семестра Раздел учебной дисциплины Виды контроля (текущий контроль, промежуточная аттестация, итоговый аттестация)

Ожидаемые результаты освоения учебной дисциплины (модуля) во взаимосвязи с компетентностной моделью выпускника (Таксономия Блума)
Знать (знание и понимание) Уметь (интеллектуальные навыки) Владеть (интеллектуальные навыки) Знание Воспроизведение важно

ТРАНСПОРТА
Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ПУ

ТРАНСПОРТА
Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ПУ

РАБОЧАЯ ПРОГРАММА УЧЕБНОЙ ДИСЦИПЛИНЫ
«Иcтория информационных технологий» Направление/специальность 230400.62 «Информационные системы и технологии» П

Хотите получать на электронную почту самые свежие новости?
Education Insider Sample
Подпишитесь на Нашу рассылку
Наша политика приватности обеспечивает 100% безопасность и анонимность Ваших E-Mail
Реклама
Соответствующий теме материал
  • Похожее
  • Популярное
  • Облако тегов
  • Здесь
  • Временно
  • Пусто
Теги