Недостоверность переданной информации была вызвана кратковременным сбоем, при этом ПЭ1 получил достоверные результаты счета, а ПЭ3 – недостоверные

Разработка отказоустойчивой операционной системы реального времени для вычислительных систем с максимальным рангом отказоустойчивости
Найти, подготовить и загрузить затребованную задачу; Управление взаимодействием частей системы (например, менеджеров процессов и файлов) Поддержка отказоустойчивости вычислительных систем средствами операционных систем реального времени ОС представляет собой совокупность информационно взаимосвязанных и согласовано функционирующих операционных систем каждого отдельного узла сети ВС Описание системных таблиц Модуль маршрутизатора Процедура голосования Инициализация Недостоверность переданной информации была вызвана кратковременным сбоем, при этом ПЭ1 получил достоверные результаты счета, а ПЭ3 – недостоверные Методика анализа отказов Оценка надежностных характеристик отказоустойчивой ВС Программное обеспечение модели отказоустойчивой ВС Программное обеспечение подсистемы проверки Обзор базовых ОСРВ для платформы TMS320C30 Проверка содержимого памяти Системные исследования Разработка алгоритмов Метод сквозного структурного контроля
148576
знаков
34
таблицы
0
изображений

1. Недостоверность переданной информации была вызвана кратковременным сбоем, при этом ПЭ1 получил достоверные результаты счета, а ПЭ3 – недостоверные.

Решение: отключении канала связи 3-1 происходит только при троекратном повторении сбоя.

2. Сбой возник на этапе обмена результатами голосования.

Решение: сбой фиксируется наличием “мусора” вместо стандартных значений, но «полноценное» обнаружение сбоя (если он повторится) произойдет на следующем такте.

В любом случае следует проводить еще один обмен в рабочей сети, для аккумуляции решений всех ПЭ, и определения достоверного вывода путем их сравнения.

После принятия окончательного решения об отказе связи 3-1, инициируется реконфигуратор, вносящий соответствующие изменения в таблицу связности (см таблицу 2.11).

Таблица 2.11

№/№

1

2

3

4

5


1

-1

0

-1

2

3


2

3

-1

0

1

2


3

-1

3

-1

0

1


4

1

2

3

-1

0


5

0

1

2

3

-1


Далее реконфигуратор проводит проверку на нарушение связности в рабочей сети. В данном случае изменяются статические маршруты ПЭ и связь между ПЭ1 и ПЭ3 осуществляется через ПЭ2.

Предположим теперь, что отказал ПЭ4. При этом ПЭ4 может вести себя двояко: либо наступил фатальный отказ и ПЭ не выдает результатов, либо выдает искаженные результаты. Во втором случае так же может быть два варианта: ПЭ сохраняет способность правильно осуществлять обмен и голосование. В этом случае ПЭ способен диагностировать собственную ошибку. В противном случае считается, что сбойный узел выдает результаты, не несущие информативной нагрузки (“мусор”). Проиллюстрируем все случаи.

После этапа сравнения информации, в системе может оказаться следующая информация (таблица 2.12).


Таблица 2.12

№ ПЭ Получены данные от ПЭ №

Данные от

ПЭ №

Не совпадают с данными от ПЭ №

Возможная причина:

Неисправность

ПЭ № или Линк №

1

4 , 5 4 1 , 5 4 1-4

2

5 , 1

Нет неисправности

3

1 , 2

Нет неисправности

4 Вариант 1

2 , 3

«мусор»

4 Вариант 2

2 , 3

4 2 , 3 4 4-3 , 4-2

5

3 , 4 4 3 , 5 4 5-4

После обмена результатами голосования, во всех узлах может оказаться информация, представленная таблицей 2.13.

Таблица 2.13

Данные голосования от ПЭ №

Возможная причина неисправности ПЭ № или Линк №

Вывод

Консолидированное решение

1

4 4-1



2

Нет неисправности



3

Нет неисправности



4 Вариант 1

«мусор»

Неисправность ПЭ4

Неисправность ПЭ4

4 Вариант 2

4 4-3 , 4-2



5

4 5-4




Вариант 1: Сообщение от ПЭ4, содержит «мусор», что говорит о неисправности ПЭ4 или его каналов связи. Однако ПЭ1 и ПЭ5 приняли решение о неисправности ПЭ4 или каналов связи 5-4, 4-1. Поскольку отказ сразу всех каналов связи ПЭ4 и отказ ПЭ4 события равнозначные, принимается решение об неисправности ПЭ4.

Вариант 2: Сообщение ПЭ4 подтверждает результаты голосования в тройке ПЭ4, ПЭ5, ПЭ1 и принимается решение об отказе ПЭ4.

После двух отказов (линка 3-1 и ПЭ4) ВС имеет вид (рис. 2.6)

Рис.2.6. Топология ВС после 2-х отказов

Таблица связности, измененная реконфигуратором, представлена таблицей 2.14. Обмен результатами счета теперь осуществляется следующим образом:

ПЭ1 -> ПЭ2 и ПЭ3;

ПЭ2 -> ПЭ3 и ПЭ5;

ПЭ3 -> ПЭ5 и ПЭ1;

ПЭ5 -> ПЭ1 и ПЭ2;

Таблица 2.14 Обновленная таблица связности

№/№

1

2

3

4

5


1

-1

0

-1

-1

3


2

3

-1

0

-1

2


3

-1

3

-1

-1

1


4

-1

-1

-1

-1

-1


5

0

1

2

-1

-1


Рассмотрим дальнейший процесс деградации системы. Отказ ПЭ5 аналогично легко диагностируется, благодаря связям с каждым ПЭ в системе. Предположим теперь, что произошел отказ канала связи 2-3. Напомним, что связь ПЭ1 и ПЭ3 осуществляется через ПЭ2.

Таким образом, в результате в узлах сети фиксируются следующие факты несовпадения результатов счета, представленные в таблице 2.15.


Таблица 2.15

№ ПЭ Получены данные от ПЭ №

Данные от

ПЭ №

Не совпадают с данными от ПЭ №

Возможная причина:

Неисправность

ПЭ № или Линк №

1

3,5 3 1 , 5 2 или 3 2-1 или 2-3

2

1,5

Нет неисправности

3

1,2
Нет совпадений Недостаточно данных

5

2,3

Нет неисправности

После обмена результатами голосования, в узлах может оказаться информация, представленная таблицей 2.16.

Таблица 2.16

ПЭ№

Данные голосования от ПЭ №

Возможная причина неисправности ПЭ № или Линк №

Вывод

Консолидированное решение


1

2 или 3 2-1 или 2-3




2

Нет неисправности



1

3

"мусор"

Неисправен Линк 2-3



5

Нет неисправности




1

2 или 3 2-1 или 2-3




2

Нет неисправности



2

3

"мусор"

Неисправен Линк 2-3



5

Нет неисправности


Неисправен Линк 2-3


1

"мусор"




2

"мусор"



3

3

Недостаточно данных

Неисправен Линк 2-3



5

Нет неисправности




1

2 или 3 2-1 или 2-3




2

Нет неисправности



5

3

Недостаточно данных

Неисправен Линк 2-3



5

Нет неисправности




Анализ ПЭ1, ПЭ2 и ПЭ5 возможных причин неисправности, показывает:

Результаты голосования от ПЭ2 подтверждают работоспособность ПЭ1, ПЭ5, каналов 2-1 и 2-5.

Результаты голосования от ПЭ5 подтверждают работоспособность ПЭ3, ПЭ2, каналов 3-5 и 2-5.

Данные ПЭ5 от ПЭ3 говорят о исправности канала связи 3-5.

Таким образом ПЭ1,ПЭ2 и ПЭ5 делают вывод о неисправности канала 2-3, маскируя неисправности по данным от ПЭ1.

Анализ ПЭ3 возможных причин неисправности, показывает:

Результаты голосования от ПЭ5 подтверждают работоспособность ПЭ3, ПЭ2, каналов 3-5 и 2-5.

“Мусор” от ПЭ1 может означать, что неисправен ПЭ1 или ПЭ2, или канал 1-2, или канал 2-3.

“Мусор” от ПЭ2 может означать неисправность ПЭ2 или канала 2-3.

Из условия ординарности потока отказов, одновременная неисправность ПЭ1 и ПЭ2 невозможна, как невозможно и сочетание 1-2 и 2-3. Таким образом из пунктов 2 и 3 следует отказ либо ПЭ2, либо канала 2-3. Пункт 1 опровергает отказ ПЭ2. Делается вывод об отказе канала 2-3.

Конфигурация, изображенная на рис. 2.6 является в какой-то мере критичной, поскольку используется транзитная связь через ПЭ2. Рассмотрим отказ ПЭ2 в этой же топологии. При этом, интерфейс обмена таков, что ПЭ2 в случае фатального отказа не передаст транзитную информацию (передаст «мусор»), в противном случае передаст ее без изменений.

В результате обмена результатами счета, в узлах сети могут фиксироваться следующие факты несовпадения, представленные в таблице 2.17.

Таблица 2.17

№ ПЭ Получены данные от ПЭ №

Данные от

ПЭ №

Не совпадают с данными от ПЭ №

Возможная причина:

Неисправность

ПЭ № или Линк №

1 Вариант 1

3,5 3 1 , 5 2 или 3 2-1 или 2-3

1 Вариант 2

3,5

Нет неисправности

2 Вариант 1

1,5

«мусор»

2 Вариант 2

1,5 2 1 , 5 2 1-2, 1-5

3 Вариант 1

1,2
Нет совпадений Недостаточно данных

3 Вариант 2

1,2 2 1 , 3 2 2-3

5

2,3 2 3 , 5 2 2-5

После обмена результатами голосования в зависимости от степени отказа ПЭ2, в работоспособных узлах может оказаться информация, представленная таблицей 2.18.


Таблица 2.18

ПЭ№

Данные голосования от ПЭ №

Возможная причина неисправности ПЭ № или Линк №

Вывод

Консолидированное решение


1

2 или 3 2-1 или 2-3



1 Вариант 1

2

"мусор"




3

"мусор"




5

2 2-5




1

Нет неисправности

Неисправен ПЭ2


1 Вариант 2

2

2 1-2, 2-5




3

2 2-3




5

2 2-5




1

"мусор"



3 Вариант 1

2

"мусор"




3

Недостаточно данных




5

2 2-5


Неисправен ПЭ2


1

Нет неисправности

Неисправен ПЭ2


3 Вариант 2

2

2 1-2, 2-5




3

2 2-3




5

2 2-5




1

2 или 3 2-1 или 2-3



5 Вариант 1

2

"мусор"




3

Недостаточно данных




5

2 2-5




1

Нет неисправности



5 Вариант 2

2

2 1-2, 2-5

Неисправен ПЭ2



3

2 2-3




5

2 2-5




Рассмотрим процесс принятия решения ПЭ1:

Вариант 1: «Мусор» от ПЭ3 и данные ПЭ2 говорят о неисправности ПЭ2 или линка 2-1. Диагноз ПЭ5 подтверждает неисправность ПЭ2. Таким образом каждая запись в ПЭ1 прямо или косвенно говорит о неисправности ПЭ2 или его связей. В силу ординарности потока отказов принимается решение об отказе ПЭ2.

Вариант 2: Один противоречивый результат маскируется тремя подтверждениями неисправности ПЭ2, так как одновременный отказ всех линков трактутся также как и отказ всего ПЭ2.

Аналогично в ПЭ3 и ПЭ5 в любом случае оказывается минимум два сообщения об отказе ПЭ2 или его связей. Как было отмечено выше вероятность отказа одновременно нескольких каналов связи существенно меньше вероятности отказа ПЭ, и вследствие предположения об ординарности потока отказов, делается вывод об отказе ПЭ2.

Рассмотрим деградацию системы после отказа линка 2-3. Топология системы представлена на рис. 2.7.

Рис. 2.7. Топология ВС после отказа линка 2-3.

Маршрутизатором были определены новые статические маршруты, для связи ПЭ1 и ПЭ3 и ПЭ2 через ПЭ5. В данном случае отказ ПЭ3 или линка 3-5 обнаруживается легко с помощью ПЭ5. Аналогично обнаруживаются отказы ПЭ1 и ПЭ2.

Рассмотрим отказ ПЭ5. В результате обмена результатами счета, в узлах сети могут фиксироваться следующие факты несовпадения, представленные в таблице 2.19.

Таблица 2.19

№ ПЭ Получены данные от ПЭ №

Данные от

ПЭ №

Не совпадают с данными от ПЭ №

Возможная причина:

Неисправность

ПЭ № или Линк №

1 Вариант 1

3,5 5 1 , 3 5 1-5

1 Вариант 2

3,5
Нет совпадений Недостаточно данных

2

1,5 5 1 , 2 5 2-5

3 Вариант 1

1,2

Нет неисправности

3 Вариант 2

1,2
Нет совпадений Недостаточно данных

5 Вариант 1

2,3 5

2 , 3

5 1-5, 3-5

5 Вариант 2

2,3

“мусор”

После обмена результатами голосования в зависимости от степени отказа ПЭ5, в работоспособных узлах может оказаться информация, представленная таблицей 2.20.

Таблица 2.20

ПЭ№

Данные голосования от ПЭ №

Возможная причина неисправности ПЭ № или Линк №

Вывод

Консолидированное решение


1

Недостаточно данных



1 Вариант 1

2 5 2-5


3

"мусор"




5

"мусор"




1

5 1-5

Неисправен ПЭ5


1 Вариант 2

2

5 2-5


3

Нет неисправности




5

5 1-5, 3-5


1

Недостаточно данных

2 Вариант 1

2 5 2-5


3

"мусор"




5

"мусор"


Неисправен ПЭ5


1

5 1-5

Неисправен ПЭ5


2 Вариант 2

2

5 2-5


3

Нет неисправности




5

5 1-5, 3-5


1

"мусор"



3 Вариант 1

2

"мусор"

Недостаточно



3

Недостаточно данных

данных



5

"мусор"




1

5 1-5

3 Вариант 2

2

5 2-5

Неисправен ПЭ5



3

Нет неисправности




5

5 1-5, 3-5


Анализ работоспособными узлами причин отказа показывает:

При полном отказе ПЭ5:

Анализ ПЭ1 и ПЭ2: “мусор” от ПЭ3 и ПЭ5 говорит о неисправности ПЭ5 или канала 1-5, а данные ПЭ2 однозначно говорят об отказе ПЭ5.

Анализ ПЭ3: “мусор” от ПЭ2, ПЭ3 и ПЭ5 говорит о неисправности ПЭ5 или канала 3-5. В данном случае это уже не важно, так как результатами голосования ПЭ3 обменяться ни с кем не сможет. В случае возникновения такой ситуации ПЭ анализирует – сколько узлов остается в системе, кроме него самого. Если больше двух, то он самостоятельно прекращает выдачу данных.

При отказе ПЭ5, с сохранением способности обмена, информации для его диагностирования хватает с избытком.

После обмена окончательными выводами ПЭ1 и ПЭ2 принимают решение об отключении ПЭ5. После реконфигурации, маршрутизатор обнаруживает изолированность ПЭ3 и посылает сигнал реконфигуратору об отключении ПЭ3.

Рассмотрим теперь функционирование ВС в составе трех ПЭ. Пусть остались функционировать ПЭ1, ПЭ2 и ПЭ5.

Рассмотрим отказ связи 2-5. В результате в узлах сети фиксируются следующие факты несовпадения результатов счета, представленные в таблице 2.21.

Таблица 2.21

№ ПЭ Получены данные от ПЭ №

Данные от

ПЭ №

Не совпадают с данными от ПЭ №

Возможная причина:

Неисправность

ПЭ № или Линк №

1

2,5

Нет неисправности

2

1,5 5 1 , 2

5 2-5

5

1,2 2 1 , 5 2 2-5

После обмена результатами голосования, в узлах может оказаться информация, представленная таблицей 2.22.

Таблица 2.22

ПЭ№

Данные голосования от ПЭ №

Возможная причина неисправности ПЭ № или Линк №

Вывод

Консолидированное решение


1

Нет неисправности

1

2 5 2-5

Неисправен 2-5



5 2 2-5


1

Нет неисправности

2

2

5 2-5

Неисправен 2-5

Неисправен 2-5


5

"мусор"




1

Нет неисправности

5

2

"мусор"

Неисправен 2-5



5 2 2-5


Анализ ПЭ1 предварительной информации подтверждает отказ линка 2-5, так как исправность ПЭ2 и ПЭ5 подтверждается информацией от ПЭ1.

Анализ ПЭ2 и ПЭ3 поступившей информации говорит о неисправности линка 2-5, в силу того, что ПЭ1 подтверждает правильность результатов ПЭ2 и ПЭ5.

Рассмотрим дальнейшее функционирование системы (рис. 2.9).

Отказ ПЭ5 и ПЭ2 диагностируется также, как было показано выше, так как не нарушается связность между двумя ПЭ. Отказ связи 1-5 воспринимается ПЭ1 и ПЭ2, как отказ ПЭ5. Аналогично, отказ связи 1-2 равносилен отказу ПЭ2.

В процессе функционирования в системе всегда существует старший ПЭ, который выдает объекту управления согласованные данные. Если после принятия консолидированного решения, обнаруживается сбой в старшем элементе, то старшим назначается другой ПЭ, имеющий максимальное количество связей или младший номер, если количество связей у всех ПЭ одинаково. В предыдущум примере (при изоляции ПЭ3) этот прием позволяет прекратить выдачу данных с изолированного ПЭ.

В данном варианте может возникнуть ситуация, когда ПЭ2 при отказе линка 1-2 принимает решение об отказе ПЭ1 и становится старшим элементом, как ПЭ с младшим номером. При этом он принимает решение об отключении ПЭ5. Одновременно ПЭ1 и ПЭ5 принимают решение об отказе ПЭ2 и в свою очередь исключают его из текущей конфигурации. Тогда наступает ситуация, когда одновременно на выход подаются два, возможно и разных варианта. Чтобы избежать такой ситуации, необходимы спецальные аппаратные или программно-аппаратные средства, которые в рамках данной работы не рассматриваются.

Если сделать предположение о равновероятности отказов в системе, изображенной на рис.2.9, то вероятность отказа линка 2-1, приводящая к неопределенности в системе, равна 0.2. Однако в реальных ВС вероятность отказа канала связи считается величиной на порядок меньшей, чем вероятность отказа ПЭ за этот же период времени.

Отказ канала 1-5 не приведет к неопределенности. ПЭ5 не станет старшим в любом случае и будет отключен. Отказ ПЭ1 также не приведет к неопределенности, управление возьмет на себя ПЭ2.

На предпоследнем этапе деградации системы в системе остается 2 исправных ПЭ, соединенных одним каналом связи. При на первый план в качестве диагностической информации выходят признаки исправности/неисправности, формируемые различными программно-аппаратными средствами контроля, такими как функциональный контроль вычислений с помощью специальных контрольных операторов, контроль входной информации по специальным признакам и контрольным суммам, контроль выходной информации по квитанции от приемника и тд.

Следует отметить, что «жесткое» использование признаков неисправности, вырабатываемых контрольными тестами аппаратуры, может привести к появлению ошибок второго рода («ложная тревога») и исключению из вычислительного процесса функционально-пригодной аппаратуры. Это приводит к необходимое применения гибких моделей совместного использования результатов голосования и признаков контрольных средств.



Информация о работе «Разработка отказоустойчивой операционной системы реального времени для вычислительных систем с максимальным рангом отказоустойчивости»
Раздел: Информатика, программирование
Количество знаков с пробелами: 148576
Количество таблиц: 34
Количество изображений: 0

Похожие работы

Скачать
172056
0
5

... первичной или первичной вместе со вторичной или только вторичной И. Если это - итог обработки информации, решения задачи, то такая информация называется результативной, результирующей. В процессе решения задач возникает промежуточная информация, которая часто в автоматизированных системах играет самостоятельную роль, определения направления путей завершения решения задачи. Результатная информация ...

Скачать
200314
8
2

... , практически, не используются. Проблема информатизации Минторга может быть решена путем создания Автоматизированной Информационной системы Министерства Торговли РФ (АИС МТ РФ) в соответствии с настоящим Техническим предложением.   ГЛАВА 2. МАТЕМАТИЧЕСКОЕ ОБЕСПЕЧЕНИЕ КОМПЛЕКСА ЗАДАЧ "СИСТЕМА ДОКУМЕНТООБОРОТА УЧЕРЕЖДЕНИЯ”. функции поиска и архивации 2.1. Постановка задачи и её спецификация ...

Скачать
152655
7
3

... дейст­вий одной из них; • обращение к внешним устройствам только через операционную систему, что по­зволяет программистам использовать уже написанные драйверы, и не заниматься проблемами обеспечения совместимости с ними вновь разработанных программ; • возможность использования звуковых и видеоприложений. В отличие от Windows З.х новая операционная система не нуждается в установке на компьютере ...

Скачать
214673
1
8

... Системы обработки информации. Защита криптографическая. Алгоритм криптографического преобразования. М.: Госстандарт СССР. ГОСТ 31078-2002. Защита информации. Испытания программных средств на наличие компьютерных вирусов. Типовое руководство. СТБ ИСО/МЭК 9126-2003. Информационные технологии. Оценка программной продукции. Характеристики качества и руководства по их применению. СТБ ИСО/МЭК ТО ...

0 комментариев


Наверх