Обеспечение бесперебойной работы вычислительных систем. Секрет вечной жизни

На сегодняшний день обеспечением резервного копирования занимаются сервера, будь то большое или малое предприятие. Поэтому говорить о бесперебойной работе нужно непосредственно сервера. Что требуется для бесперебойной работы сервера

Чтобы сервер работал бесперебойно нужно не только иметь мощную аппаратуру, но и дополнительное оборудование, квалифицированный персонал. Они и должны обеспечивать оптимальные условия для работы сервера.

1. К дополнительному оборудованию можно отнести:

кондиционирование серверных, то есть, систему охлаждения, вентиляции и т.д., которые не допускают перегрева оборудования;

различные датчики, предназначенные для контроля температурного режима в системе;

автоматические генераторы, которые включаются при отключении электропитания;

независимые магистрали, предназначенные для обеспечения оборудования питанием;

сторожевой таймер, который предупреждает о зависании сервера.

2. Квалифицированные специалисты осуществляют резервирование, замену, подключение основных элементов без отключения оборудования. Также бесперебойную работу обеспечивает наличие объемной памяти.

Как обеспечивается кондиционирование серверов

Сервер со вспомогательным оборудованием устанавливают в отдельном помещении, где должна обеспечиваться хорошая циркуляция воздуха. В помещении должны быть установлены кондиционеры, способные поддерживать оптимальную температуру и влажность. Также отдельно устанавливают систему вентиляции и охлаждения на серверные шкафы. Желательно, чтобы они могли определять, какой участок нуждается в большем охлаждении.



Как видно, для обеспечения бесперебойной и надежной работы сервера нужно приложить немало усилий и средств

Восстановление информации

В данном разделе будут детально расписаны процедуры восстановления информации:

Восстановление структуры файловой системы

В случае форматирования логического диска или раздела, структура и атрибуты данных не нарушаются, но изменяется либо инвентаризируется (приводится в начальное состояние) информация о расположении данных на данном накопителе.

При быстром форматировании обновляется малая часть файловой таблицы, часть служебных записей остается, необходимо лишь интерпретировать ее и прочитать данные в нужном порядке.

Полное форматирование может обновить всю файловую таблицу, поэтому восстановление структуры файлов и папок не всегда возможно. Для восстановления данных без информации о структуре можно использовать восстановление файлов по сигнатурам.

Если произошло повреждение файловой системы в результате программного сбоя или неисправности носителя, программы для восстановления данных могут восстановить часть информации, зависящую от объема повреждений.

Восстановление удаленных данных файловой системы

При удалении данных, на самом деле, данные физически остаются на накопителе, однако в файловой системе более не отображаются, а место на носителе, где они располагаются, помечается как свободное и готовое к записи новой информации. В данном случае атрибуты файлов изменяются. В случае записи в данный раздел или логический диск может произойти частичное или полное замещение данных, помеченных, как удаленные.

Подобные файлы можно легко прочитать и восстановить со всеми атрибутами и информацией о расположении, прочитав служебные записи файловой системы. Существуют как программы только для восстановления удаленных данных, так и комплексные решения, где восстановление удаленных данных - лишь одна из функций.

Восстановление по сигнатурам

В случае, когда реконструкция файловой системы невозможна в силу каких-либо причин, некоторые файлы все еще можно восстановить, используя восстановление по сигнатурам. При данном типе восстановления происходит посекторное сканирование накопителя на предмет наличия известных сигнатур файлов

Основной принцип работы алгоритмов сигнатурного поиска такой же, как у самых первых антивирусов. Как антивирус сканирует файл в поисках участков данных, совпадающих с известными фрагментами кода вирусов, так и алгоритмы сигнатурного поиска, использующиеся в программах для восстановления данных, считывают информацию с поверхности диска в надежде встретить знакомые участки данных. Заголовки многих типов файлов содержат характерные последовательности символов. К примеру, файлы в формате JPEG содержат последовательность символов “JFIF”, архивы ZIP начинаются с символов “PK”, а документы PDF начинаются с символов “%PDF-“.

Некоторые файлы (к примеру, текстовые и HTML файлы) не обладают характерными сигнатурами, но могут быть определены по косвенным признакам, т.к. содержат только символы из таблицы ASCII.

По результатам сканирования выдается, чаще всего, список файлов, отсортированных по типу. Информация о расположении файлов не восстанавливается.

Данный тип восстановления хорошо применять для восстановления фотографий с карт памяти, так как данные на карте однотипные и записываются, в общем случае, строго последовательно, без фрагментации.

Смешанное восстановление

Большинство программ позволяют применить одновременно несколько способов восстановления за одно сканирование. В результате выдается максимально возможный результат при использовании данной программы.

Восстановление из резервных копий

Самый надежный, простой и дешевый способ восстановления информации - восстановление информации из ранее сделанных резервных копий. Для создания резервных копий используется специализированное ПО, которое в том числе может выполнять восстановление данных.

Рассмотрим основные типы носителей и их неисправности.

Накопитель на гибком магнитном диске (НГМД)

Основной неисправностью является так называемое «размагничивание».

Встречается чаще всего при прохождении магнитных детекторов в магазинах, метро, аэропортах. Восстановить данные удаётся только с не размагниченных областей накопителя. Так же встречаются неисправности, связанные с физическим повреждением носителя, такими как царапины, сильное загрязнение. Каждый случай необходимо рассматривать индивидуально и только после этого прогнозировать результат восстановления информации.

Программно-аппаратный способ

Как говорилось выше, в этом способе следует уделить большое внимание именно типу накопителя информации. Варианты и способы восстановления начнем с яркого примера носителя информации.

Накопители CD/DVD/BR

Оптические накопители могут иметь разные причины невозможности чтения данных:

Механические

повреждение прозрачного слоя

повреждение отражающего слоя

Химические

разложение прозрачного слоя

разложение регистрируемого слоя (у записываемых дисков)

коррозия отражающего слоя

Нарушение организации данных

вследствие аппаратно-программных ошибок при записи данных

вследствие неправильных данных

Самыми частыми причинами нечитаемости дисков являются повреждение отражающего и прозрачного слоя, а также разложение регистрируемого слоя у записываемых дисков. В случае образования царапин на поверхности диска, возможно применить полирование рабочей поверхности, что приведёт к удалению нежелательных повреждений и улучшит чтение данных, однако при образовании трещин, использовать данный метод опасно, так как при последующем чтении диск может разрушиться в дисководе под действием центробежной силы. Повреждение фольгированного покрытия диска (старение металла, царапины) больше всего осложняет восстановление данных.

К данному типу накопителей можно отнести USB Flash, SSD-диски, карты памяти SD, miniSD, microSD, xD, MS, M2, Compact Flash.

Самые распространенные технические неисправности]

Логические неисправности

Возникают данные неисправности в самых различных случаях. Одна из самых распространенных причин - неправильное извлечение устройства из компьютера.

В случае логических неисправностей восстановить данные возможно с помощью программ для восстановления данных.

Механические повреждения

Диск прекратил корректную работу в результате какого-либо физического воздействия (падения, попадания влаги, изгиба, сжатия и т. д.). Причина неисправности, чаще всего, в поломке платы или разрушении контактов и компонентов.

Восстановить данные можно, если исправить поломку: заменить неисправный компонент или восстановить нарушенный контакт. Также можно считать данные напрямую с чипа памяти, используя специальное оборудование.

Восстановление данных производится как и в предыдущем случае: заменой компонентов либо чтением с чипов памяти напрямую.

Планирование восстановление работоспособности сети при аварийной ситуации

Один из наиболее полных и логичных образцов подобного документа был разработан Национальным институтом стандартов США (NIST) в 2001 году.

План восстановления функционирования системы устанавливает перечень и последовательность процедур, необходимых для восстановления нормального функционирования системы после наступлении чрезвычайных обстоятельств, повлекших отказ в доступности ресурсов системы. В результате выхода из строя отдельных элементов системы, физического разрушения помещений, пожара, наводнения, террористических атак и др.

Основная цель реализации Плана заключается в обеспечении быстрого и полного восстановления устойчивого функционирования информационной системы.

Поставленная цель достигается решением следующих задач:

определение порядка действий, процедур и ресурсов, необходимых для восстановления функционирования системы или обеспечения ее устойчивого функционирования в резервном варианте размещения технических средств и персонала;

определение штатного состава и основных обязанностей персонала оперативного штаба и аварийных групп из числа сотрудников банка по реализации мероприятий Плана восстановления, а также порядка организации эффективного взаимодействия между аварийными группами и управления ими в течение всего времени активности Плана восстановления;

определение порядка взаимодействия и координации действий оперативного штаба по реализации Плана с другими организациями и структурами (пожарные, медперсонал, милиция, спасатели и др.), которые, возможно, будут привлекаться к ликвидации последствий чрезвычайных событий, вызвавших нарушение нормального функционирования системы.

К примеру, специалисты NIST все мероприятия по выполнению Плана распределяют по трем этапам:

этап уведомления/активации Плана. Основные задачи, решаемые на данном этапе, – своевременная идентификация наступления чрезвычайных условий, обнаружение нанесенных системе повреждений, оценка ущерба, прогноз возможности восстановления функционирования системы и принятие решения о необходимости активации Плана восстановления системы;

этап восстановления. Основные задачи – восстановление функционирования системы по временной схеме (с использованием резервных средств и помещений), проведение комплекса работ по полному восстановлению работоспособности системы в объеме обычных условий;

этап воссоздания системы/деактивации Плана. Основные задачи – полное восстановление нормальной работы системы и деактивация Плана восстановления, возврат к нормальному функционированию.

Согласно исследованию компании McKinseyQuarterly, за последний год в США значительно возросло число компьютерных атак на корпоративные IT-системы. В исследовании McKinseyQuarterly сообщается, что число компьютерных атак (действия хакеров, вирусов, червей, недобросовестных работников и др.) возросло на 150% по сравнению с 2000 годом, составив в общей сложности 53000 случаев взлома систем информационной безопасности компаний.

Такой рост произошел в первую очередь из-за отношения к IT-безопасности как к области сугубо технологической. Это означает, что многими организационными и стратегическими решениями в компаниях попросту пренебрегали.

Реализуемость Плана основана на двух предположениях:

нормальное функционирование системы нарушено в результате наступления некоторого чрезвычайного события или цепи подобных событий. В результате система не способна реализовывать свои функции в объеме, требуемом для качественного обслуживания абонентов;

существует подготовленное помещение, которое выполняет функции резервного центра размещения технических средств системы. Персонал системы формирует необходимую информационно-вычислительную среду на основе технических средств резервного центра для восстановления функционирования системы по резервному варианту размещения в период действия Плана восстановления. Кроме того, резервный вариант размещения используется в течение всего времени, необходимого для восстановления функционирования системы по прежнему (либо новому) месту размещения.

Определяющей частью функционирования любой информационной системы является наличие современной материально-технической базы, в данном случае средств вычислительной техники и средств коммуникаций. Сейчас попробуем освятить этот вопрос применительно к состоянию дел в администрации Рыбинска.


  1. Аппаратное обеспечение.
В настоящее время в здании администрации используется около 100 рабочих станций (без учета компьютеров департамента финансов). 45 % этого парка уже перешли барьер технического и морального износа, еще 15% приблизились к этому пределу.

В первую очередь наблюдается несоответствие требований к вычислительной технике и решаемых на ней задач в следующих подразделениях администрации: общий отдел, департамент строительства и инвестиций, управление экономического развития. Помимо морального износа компьютеров (технические характеристики не обеспечивают требований установленных операционных систем и программного обеспечения), присутствует износ механический (это касается лазерных принтеров и электронно-лучевых мониторов).

Не все службы администрации укомплектованы компьютерами в достаточном количестве по числу сотрудников, осуществляющих документооборот, электронную корреспонденцию и выполняющих другие задачи, связанные с наличием вычислительной техники. Также не все подразделения обеспечены достаточным количеством принтеров и оптических устройств ввода информации (сканеров).

Принятие неотложных мер по исправлению сложившейся ситуации не терпит отлагательств. Чтобы безнадежно не отставать от требований, выдвигаемых техническим прогрессом в отрасли высоких технологий, необходимо ежегодно подвергать замене примерно пятую часть парка вычислительной техники.

Таким образом, по прошествии пяти лет будет завершаться цикл технического переоснащения, рекомендованный и диктуемый условиями развития рынка компьютерной индустрии. Примерная расчетная стоимость одного рабочего места составляет 27-29 тысяч рублей без учета программного обеспечения, таким образом годовые затраты на переоснащение парка вычислительной техники составят примерно 550-600 тысяч рублей.

Помимо приобретения новой техники для установки на рабочие места, необходимо создать резервный фонд средств вычислительной техники, заменяемых частей и расходных материалов, используемый в случае экстренных ситуаций, связанных с потерей работоспособности отдельных единиц действующего парка и обеспечения неотложных задач (например, при изменениях в структуре администрации или обеспечение избирательных комиссий).

2. Программное обеспечение.

Работа персональных компьютеров невозможна без соответствующего современного программного обеспечения. Операционные системы и офисные программные продукты, установленные на каждом рабочем месте, должны приобретаться как непременный компонент компьютера. Если специализированные программы, требующее поддержки производителем (например продукты 1С), приобретаются легально, то продукты Microsoft, установленные на каждом компьютере в настоящее время в администрации нелицензированы.

В силу недостаточного финансирования приоритеты сдвигались в пользу приобретения дополнительных аппаратных средств, экономя на программных. Ситуацию упрощает то, что особенно дорогостоящие продукты, необходимые для обеспечения работы серверов, заменены на свободно распространяемые и в чем-то более эффективные и производительные продукты семейства Unix. Использование их на рабочих станциях не приемлемо в силу достаточной сложности их освоения персоналом и проблем совместимости.

В последнее время в стране ужесточились требования по соблюдению авторских прав, созданы структуры при правоохранительных органах, осуществляющих контроль за соблюдением действующего законодательства в этой сфере. Поэтому необходимо срочное исправление текущей ситуации.

Стоимость необходимого минимума программного обеспечения составляет около трети стоимости компьютера. Существенной экономии средств можно достичь, участвуя в программе Microsoft по лицензированию продуктов для государственных и образовательных учреждений, приобретая только право использования продуктов, без носителей и документации.

Все вышесказанные решения относительно приобретения вычислительной техники и лицензионного программного обеспечения могут выступать как рекомендации для всех подразделений отдельных юридических лиц администрации.


  1. Локальная и корпоративная сеть.
Локально-вычислительная сеть (ЛВС) в здании администрации спроектирована и смонтирована в 2000 году, с учетом существующих на тот момент потребностей (витая пара, 100 мегабит). С тех пор произошло много изменений в организационной структуре администрации, добавилось более половины рабочих станций от прежнего количества (всего около 150). Ввиду того, что финансирование работ по монтажу сети было сокращено вдвое, она была построена, чтобы удовлетворить задачи текущего момента, без перспектив на дальнейшее развитие. И поэтому, уже давно мы столкнулись со следующими проблемами:

Высокая сегментированность сети. Недостаточное количество соединений в кабельной структуре и узкие межстенные отверстия делают невозможным подключение рабочих станций к существующему активному оборудованию. Используется просто добавление новых активных устройств, практически в каждый кабинет, что вызывает дополнительные ошибки в работе сети (коллизии). Соединительные провода кладутся поверх кабельных каналов, следствием чего является неэстетичный вид рабочих мест.

Возросший объем передачи данных по сети. Узким местом становятся участки между этажными и центральным коммутаторами.

Необходимо финансирование на поэтапную модернизацию ЛВС, которая включает в себя:

Замену активного оборудования на устройства со скоростью передачи 1 Гбит/с, с приоритизацией трафика и расширенными функциями управления;

Перекладка сегментов сети с учетом количества рабочих мест и одновременная прокладка дополнительных кабельных соединений с расчетом внедрения в перспективе IP телефонии и оборудования средств пожарной и охранной сигнализации (в первую очередь в левом крыле второго этажа, где размещаются департаменты строительства и инвестиций и управление экономического развития);

Модернизация и замена серверного оборудования, установка средств обеспечения бесперебойного питания и устройств сетевого хранения данных для резервного копирования.
4. Связь между подразделениями администрации.

Подразделения администрации размещаются в зданиях, территориально удаленных друг от друга. В настоящие время по арендованной медной паре (технология DSL, скорость передачи данных 0,5–2 Мбит/с) объединены ЛВС администрации и ЛВС следующих служб:

Департамент ЖКХ, транспорта и связи (Стоялая, 19);

Департамент недвижимости, департамент по управлению земельными ресурсами (связь с управлением градостроительства и архитектуры отсутствует),(Крестовая, 77);

Централизованные бухгалтерии управления образования (Крестовая, 19) и департамента здравоохранения и фармации (Преображенский пер., 2);

Департамент по социальной защите населения (нет связи с управлением по делам образования и департаментом здравоохранения и фармации, расположенными в этом здании),(Крестовая, 139);

Департамент культуры и спорта (Чкалова, 89)

Не осуществлено подключение (в том числе и из-за отсутствия технических возможностей):

Отдел ЗАГС (Гоголя, 10);

Отдел по делам несовершеннолетних и защите их прав (Расплетина,9);

Архивный отдел (Ухтомского, 8).

Большой проблемой является отсутствие высокоскоростного подключения к зданию по адресу Крестовая,77, где расположены службы, непосредственно заинтересованные в использовании единой информационной системы. Решением может быть объединение ЛВС департаментов в этом здании и организация радиоканала со зданием администрации (Рабочая, 1). Скорость передачи данных - 50 Мбит/с, стоимость оборудования и монтажных работ – 150-200 тыс. рублей.

Перспективным решением была бы прокладка волоконно-оптического кабеля по столбам электрического освещения от здания администрации (Рабочая, 1) до здания общественно-культурного центра (Чкалова,89). По предварительной оценке, стоимость разработки технического задания проекта по прокладке кабеля и его реализации составит 1.7-2.0 млн. рублей. Это позволило бы связать высокоскоростным каналом передачи данных (не менее 100 Мбит/с) все перечисленные выше подразделения администрации и создать внутреннюю телефонную корпоративную сеть с единой нумерацией, которая бы интегрировалась в цифровую телекоммуникационную сеть органов власти Ярославской области и решить в ближайшем будущем высокоскоростной обмен информации по линии административного управления всех уровней, в том числе создания Единой диспетчерской службы и систем оповещения ГУ МЧС.
5. Подготовка персонала

В заключение хотелось бы заострить внимание на следующем моменте. Для эффективного решения всех задач, связанных с информационными технологиями и просто использованием вычислительной техники, необходима соответствующая подготовка персонала. Непременным условием этого видится ввод в штатное расписание всех крупных структур администрации на уровне департаментов и управлений квалифицированных сотрудников, осуществляющих системное администрирование и обеспечивающих оперативный контроль за работоспособностью вычислительной техники и локально-вычислительных сетей, отвечающих за информационное взаимодействие. Сейчас этого нет в департаменте ЖКХ транспорта и связи и департаменте по культуре и спорту.

Помимо этого обязан добавить, что возросший объем работ по администрированию сети администрации с учетом требований к безопасности и защите информации требует большого количества времени и необходимо срочно вводить в структуру центра информатизации штатную единицу для решения этих вопросов.

Как говорилось ранее хорошая автомойка, в которой все сделано хорошо начиная от места ее расположения и маркетинга, заканчивая оборудованием и четкой работой персонала, представляет собой постоянно работающий конвейер. Для обеспечения бесперебойности работы конвейера требуется осуществление ряда обеспечивающих действий:

− снабжение автомойки средствами автохимии и аксессуарами. Ключевым фактором успешности этого процесса является прогнозирование расходов материалов. Заказы поставщикам должны отправляться не в момент, когда пена закончилась или у мойщиков больше нет тряпок, а своевременно и заранее, чтобы к описанному выше времени новая партия расходных материалов уже была в наличии.

− обеспечение контроля оборудования и своевременный ремонт/замена. Данная деятельность заключается в ежедневных осмотрах и регулярных диагностиках возможных проблем работы оборудования для предотвращения аварийного выхода из строя и, как следствие, простоя автомойки.

− составление графиков смен и распределение мойщиков по сменам.

− контроль выхода работников на работу, присутствия работников на рабочем месте в течение рабочего дня, опрятный вид работников и т.д.

− поиск и обучение новых сотрудников. Спецификой бизнеса автомоек является высокая степень текучести кадров, поэтому, даже имея полностью укомплектованную автомойку, необходимо осуществлять поиск новых кандидатов.

Прочие виды деятельности

Виды деятельности, которые не являются ключевыми для данного бизнеса, но также требуют внимания:

− маркетинг и продвижение (включает в себя разработку дизайна рекламных материалов для каждого из сегментов потребителей, подготовку рекламных материалов, их размещение и распространение)

− ведение бухгалтерии и финансовый учет (включает в себя прием платежей, ведение кассы, выдача заработной платы и расчет с поставщиками, ведение договоров с корпоративными клиентами, составление и сдача бухгалтерской отчетности).


Ключевые партнеры

Для успешной реализации бизнеса автомойки крайне важно установить долгосрочные и партнерские отношения с некоторыми контрагентами:

Арендодатель

В случае если автомойка реализуется на арендуемой земле, критически важным партнером является арендодатель, от которого будет во многом зависеть судьба предприятия. С собственником необходимо устанавливать долгосрочное взаимовыгодное сотрудничество, чтобы минимизировать риски вынужденного переезда автомойки.

Поставщик расходных материалов

Для обеспечения бесперебойной работы автомойки необходимо своевременно осуществлять поставки расходных материалов. Для реализации стабильных поставок необходимо заключить договор с одним или рядом поставщиков.

Предприятия партнеры по продвижению

Для реализации кросс-продвижения необходимо установить контакты с предприятиями из автомобильной сферы, а именно автосервисами, автомагазинами, автозаправками и т.п. для осуществления совместной маркетинговой деятельности.

Компания-производитель комплекса автомойки

В целях надлежащей эксплуатации комплекса оборудования автомойки и осуществления необходимого сервисного обслуживания имеет смысл поддерживать контакты с компанией производителем и другими организациями, оказывающими данные услуги.


Структура издержек

Основные издержки при реализации бизнеса автомойки – это:

Заработная плата

В автомойках принята сдельная форма оплаты труда, то есть мойщики и администратор получают зарплату, напрямую зависящую от количества вымытых автомобилей в виде процента от цены оказываемой услуги. Обычно оплата труда мойщиков составляет до 30% от стоимости услуг.

Аренда места размещения

В случае если комплекс автомойки располагается на территории, не находящейся в собственности, существенной статьей текущих затрат будет являться арендная плата. Размер арендной платы зависит от конкретного места размещения и договоренностей с собственником земли. Отношения с арендодателем регулируются договором, рекомендуется при заключении договора стремиться к максимизации сроков, на которые заключается договор.

Электроэнергия

Существенной статьей затрат является электроэнергия. Среднегодовое потребление одного поста автомойки зависит от его типа и оснащения. К примеру, среднегодовое энергопотребление двухпостовой автомойки составляет 20 кВ/ч с сильными колебаниями в зависимости от сезона (от 10 кВ/ч летом до 40 кВ/ч зимой). При расчете, исходя из данного в примере энергопотребления, постоянные затраты по этой статье составят в среднем 43 200 руб. (24 часа работы, 480 кВ в сутки, 3 руб/кВ).

Комплекс Oktell является сложным программным продуктом, обеспечивающим работу в составе сетевой программно-аппаратно инфраструктуры. Бесперебойный характер работы обеспечивается в разных пропорциях всеми частями системы: оборудованием, сетевыми каналами, качеством подключений и т.д. На работу также может оказывать влияние стороннее программное обеспечение: в первую очередь операционная система, ее составляющие части и их состояние, программные продукты, используемые одновременно с комплексом, и т.д.

Очевидно, что программный продукт самостоятельно не в состоянии полностью заботиться о всех составляющих частях системы. Например отключение электричества на длительный период или физический разрыв сетевого канала между сервером телефонии и сервером баз данных - классические примеры внешнего воздействия, в борьбе с которым любое программное обеспечение бессильно. Однако установкой дополнительного оборудования (аккумуляторных батарей или дублирующего сетевого канала соответственно) можно свести вероятность возникновения критического сбоя в контексте описанных примеров к минимуму.

Возможные сбои, возникающие в процессе активной работы сервера уже после ввода его в эксплуатацию по истечении некоторого периода стабильной работы могут иметь различные причины, однако могут быть классифицированы по направлениям. Каждое из направлений необходимо оценить на предмет вероятности возникновения и при необходимости обеспечить профилактику, подготовку персонала и оборудования, а также разработать перечень мероприятий, требующих проведения при возникновении тех или иных критических условий.

Общие проблемы оборудования (плат CTI или составляющих блоков серверной станции)

В зависимости от требований, предъявляемых к системе по обеспечению бесперебойности, могут быть разработаны различные методики борьбы с аппаратными проблемами. В любом случае при необходимости свести к минимуму возможное время простоя требуется дублирование различных узлов системы. Оценка возможных вероятностей и последствий зависит от конкретных условий внедрения. Дублирование может производиться как складированием в запас части подверженных особому риску агрегатов (плат CTI, материнских плат, плат оперативной памяти, телефонных аппаратов и т.д.), так и использованием серверных агрегатов, устойчивых к сбоям и порче составных частей. Например, в отдельных случаях не лишним будет использование в качестве сервера телефонии серверной станции с несколькими блоками питания, серверной материнской платой. Возможно также резервное хранение в запас дублирующего сервера с установленными и настроенными узлами - точными копиями основного. В случае возникновения критических проблем на сервере до момента выяснения и устранения производится полное холодное переключение с одной станции на другую с сохранением всех настроек, имени и IP адреса в сети.

Стоит помнить, что перечисленные варианты - возможное решение лишь аппаратных проблем.

В ряде случаев для удобства настройки и работы распределенной системы рекомендуется выносить БД на отдельный сервер. В этом случае обеспечение быстрого переключения на резервный сервер телефонии в случае аппаратных сбоев на основном производится на порядок проще, так как не требуется перенастройка и восстановление резервных копий БД.

Настоятельно рекомендуется после ввода в эксплуатацию настроенного сервера телефонии производить регулярное резервное копирование необходимых в работе данных: файлов сценариев, баз данных, других (возможно внешних) информационных блоков, участвующих в работе системы.

Также в целях обеспечения защиты от скачков в электросети и отключения электроэнергии рекомендуется снабдить сервер блоком бесперебойного питания. Очевидно, чтобы сервер продолжил обработку вызовов в условиях отсутствия электричества, необходимо, чтобы все узлы, обеспечивающие подключение сервера к внешним провайдерам используемой связи (свитчи, модемы, шлюзы, атс), также функционировали и были обеспечены альтернативными источниками энергии. Также в зависимости от режима работы комплекса может потребоваться настройка сценариев обработки вызовов на альтернативную схему работы при отсутствии операторов и пользователей, а также отсутствии доступа к внешним узлам.

Проблемы связи сервера с провайдерами, с интернет и другими блоками комплекса (АТС, шлюзами, телефонными аппаратами, компьютерами)

Доступ в интернет, обеспечение связи с внешним провайдером SIP и потоков E1 полностью возлагается на системного администратора. В случае нарушений и сбоев в работе каких-либо направлений необходимо иметь альтернативные каналы или условия быстрого устранения возникающих неисправностей. В некоторых случаях провайдеры обеспечивают мгновенное реагирование, и это может не быть критической проблемой, однако в некоторых других случаях по договору или по факту провайдер в состоянии затягивать разрешение возникающих проблем. Необходимо оцениться по ситуации и подготовить план мероприятий, требующих проведения в случае возникновения проблем со связью.

Связь внутриофисных компонентов также должна быть обеспечена системным администратором. Как физически кабелями, так и в плане настроек сетевых подключений.

Дополнительно имеет смысл предусмотреть резервные ветки принимающего звонки сценария, обеспечивающие корректную обработку поступающих вызовов в момент отсутствия связи по используемым рисковым каналам.

Изменения в составе операционной системы (изменение перечня или активности прочего программного обеспечения)

Комплекс работает в операционной системе семейства Windows и использует ее ресурсы. Системные ресурсы сервера разделяются также с другим программным обеспечением, осуществляющим одновременную работу. Возможны случаи, при которых активность сторонних программ может приводить к частичной недееспособности платформы Oktell. В частности, это случаи вредоносной модификации составных частей комплекса, системных файлов платформы FrameWork или ОС, чрезмерной активности, загружающей ресурсы станции: процессорное время, кэш записи/чтения с жесткого диска, сетевые интерфейсы, блокирующие действия на этапе обмена информацией, например файрволлы. Вирусные программы могут оказывать непосредственное влияние на различные уровни системы.

В качестве условий по обеспечению бесперебойности, связанной с вышеописанными проблемами, рекомендуется после настройки сервера не осуществлять установку непроверенного обеспечения, не активизировать ранее неактивные программы, осуществлять контроль за чистотой размещаемых на сервере файлов во избежание попадания вредоносных программ. Не рекомендуется давать прямой и общесетевой доступы к составляющим сервера неквалифицированным и низкоквалифицированным сотрудникам, ограничивать свободный доступ к серверу всех, кроме ответственных администраторов. Крайне осмотрительно производить модификации параметров сетевых интерфейсов, дополнительную настройку брандмауэров, файрволлов и антивирусов. Также настоятельно рекомендуется использовать серверную станцию только по назначению на всем протяжении периода эксплуатации комплекса.

Нехватка дискового пространства

В ходе работы комплекса в зависимости от условий работы осуществляется запись звуковых файлов, разрастание базы данных, также возможны другие причины уменьшения свободного дискового пространства. Система следит за объемом оставшегося места на диске с тем, чтобы предупредить и вовремя прекратить уменьшение места в критической зоне за счет собственных средств, отключая запись коммутаций.

Рекомендуется настраивать запись на дополнительные жесткие диски вместо стандартного системного диска с ОС. Периодически отслеживать изменения и заблаговременно менять или очищать диск от уже неактуальных данных. В систему встроен режим автоматического удаления записанных разговоров (в разделе общих настроек), а также профилактической очистки БД. При необходимости длительного хранения записей используйте внешние носители. Поскольку 1МБ вмещает 10 минут звукозаписи, то современные жесткие диски позволяют достаточно длительный срок вмещать информацию всего офиса. Периодическая смена жестких дисков или архивирование на внешний носитель позволит существенно раздвигать сроки нормальной эксплуатации в этой части.

Переполнение баз данных

В процессе работы (особенно в режиме call-центра) при плотной активной работе базы данных постепенно наполняются большим объемом разнородной статистической информации. Часть ее используется системой при построении стандартных встроенных отчетов, часть может быть использована при создании пользовательских отчетов. Однако в ряде случаев при конкретной настройке комплекса большой объем данных хранится напрасно. Это занимает место на диске, но еще больше мешает серверу баз данных осуществлять быстрый поиск и размещение в оперативной памяти. Разрастание данных в основных таблицах тем пагубнее, что при использовании определенных настроек (таких как, например, поиск наименее занятого оператора) комплекс в реальном времени использует статистическую информацию для маршрутизации. Так, при каждом переключении абонента на задачу неизбежно увеличивается время поиска по статистическим таблицам. Этот процесс плавно ведет к «застреванию» звонков на входе в задачу, и при пересечении допустимой границы ожидания массовым обрывам со стороны абонентов. Рекомендуется полностью формировать проекты перед тем, как осуществлять их настройку и активирование в системе. В ряде случаев информация, собираемая комплексом неинтересна, и можно продлить «легкую» работу, настроив автоматическую очистку таблиц. Также можно пользоваться встроенным режимом удаления данных старее указанной даты из всех оперативных таблиц и автоперестройкой индексов.

Чрезмерная перегрузка одной из составляющих систем выполняемыми одновременно задачами

В случае плотной работы большого числа операторов (или автоматических задач) возможны случаи, когда нагрузка на сервер баз данных возрастает до запредельных значений. В большей степени нагрузка ложится на жесткий диск и его кэш. В этом случае, даже если загрузка процессора в норме, не рекомендуется осуществлять некритичные ко времени процедуры: формировать сложные статистические отчеты, запускать работающие с БД служебные сценарии, проводить другие действия в БД. Совместно с предыдущим пунктом подобные условия могут приводить к неработоспособности или некорректным обработкам.

При формировании проектов рекомендуется предварительно производить анализ и распределение видов работ. В частности, выносить часть данных на другие серверы и строить отчеты на них, использовать внешние БД на других серверах и организовывать распределенную работу в БД модулей и сотрудников, работающих в реальном времени, и тех, кто может отложить до спада активности. В частности, как одна из мер, можно снизить до минимума пребывание в таких модулях call-центра как «Индикаторы», «Ресурсы», «Статистика». При необходимости управления ресурсами возможно отключение использования там наполнения на основе статистических данных.

Однако, стоит иметь в виду, что проблемы с перегрузкой начинаются не сами по себе, а в следствие разрастания оперативных таблиц, что описано в предыдущем пункте. Необходимо рассматривать ситуацию целиком и принимать комплексные решения по оптимизации работы БД. В случае организации сложных и критичных ко времени простоя call-центров, пользуйтесь советами и/или услугами центров внедрения.

13.12.2016, ВТ, 11:30, Мск

Современный мир все больше полагается на автоматизированные системы в самых разных областях человеческой деятельности. Растет число приложений, к непрерывной работе которых выдвигаются повышенные требования. Специалисты НПП «Родник» представляют коробочное решение Stratus everRun Enterprise, которое поможет быстро и просто обеспечить бесперебойную работу программного решения или сервиса.

По мере того как ИТ-системы становятся все более привычными, возрастают ожидания к их надежности - все меньше пользователей готовы мириться с простоями или отказами сервисов, от которых ожидаешь непрерывной работы. Для простых информационных или справочных систем отключение на небольшое время не слишком важно. Но для систем, ориентированных на работу и обслуживание пользователей, или корпоративных сервисов для сотрудников это уже менее терпимо.

Далее по степени критичности идут «служебные» системы, например, системы видеонаблюдения и обеспечения безопасности, системы управления зданиями или контроля и наблюдения за производством. Если подобные подсистемы отключатся из-за отказа управляющего ПО, это может привести к дорогостоящим, опасным и даже угрожающим жизни последствиям. С нефункциональной системой нет никакого способа узнать о возникновении чрезвычайной ситуации или оповестить сотрудников об обязательной эвакуации. Возможны и экономические потери от простоя подобных информационных систем, а иногда и юридические обязательства. В этом случае на надежности и отказоустойчивости лучше не экономить.

И, наконец, основные «производственные» процессы. В зависимости от предметной области (банковские системы, управление технологическими процессами, торговые системы и управление продажами и т.п.), такие решения могут быть разными по сложности и стоимости и обычно являются узкоспециальными. Обеспечение их непрерывной работы - важнейшая задача, и может решаться разными способами, в зависимости от масштаба систем и их взаимосвязанности.

Доступный сервис

С целью классификации компьютерные системы обычно разделяют по времени непрерывной работы, в процентах от общей длительности работы. Зачастую доступность сервиса или системы характеризуется параметром в 99–99,9% времени, и число «99,9» выглядит очень надежно. Но на практике это означает до 90 часов простоя в течение года, или же до полутора часов в неделю. Для восстановления работы такой системы обычно используется ее перезапуск, или восстановление из резервной копии.

Недостатки такого способа очевидны - эта процедура требует времени, что не всегда допустимо. Современные сервисы чаще всего работают на виртуальных машинах (ВМ), которые в случае сбоя требуется перезапустить.

Системы высокой доступности работоспособны 99,95–99,99% времени. Здесь используются кластерные системы и технологии, в которых выполнено то или иное запараллеливание сервисов и систем. «Высокая доступность», тем не менее, может означать до нескольких часов простоя в течение года. В зависимости от решения, дублирующий сервис или система могут находиться в так называемом «холодном» резерве, в этом случае для ее запуска требуется какое-то время. Также следует отметить сложность кластерных технологий и повышенные требования к квалификации ИТ-персонала. Кластеры сложны и отнимают много времени на развертывание, требуют тестирования и непрерывного административного контроля. Программное обеспечение обычно приходится лицензировать для каждого из серверов кластера. В результате в случае роста кластерной системы общая стоимость владения быстро растет.

Основные области применения Stratus everRun:

Системы видеонаблюдения и контроля доступа

Cиловые структуры

Финансы и банковские услуги

Телекоммуникации

Медицина

Государственный сектор

Производство

Транспорт и логистика

Непрерывная доступность (англ. fault tolerance) – до 99,999% времени. Такой уровень надежности системы достигается специализированными программными и аппаратными решениями. В зависимости от предметной области (управление технологическими процессами, банковские системы), такие комплексы могут быть очень разными по сложности и стоимости.
Но, как отмечалось выше, есть и менее требовательные сферы применения, от которых ожидается непрерывная работа. Сюда можно отнести системы управления зданиями, системы внешнего контроля (видеонаблюдения), системы контроля доступа, и тому подобные. Вряд ли пользователи будут счастливы, если пропадет сигнал со всех видеокамер и датчиков, или система вентиляции цеха или здания остановит работу.

Готовое решение

Специализированные ИТ-системы, как правило, сложны, требуют настройки и высокой квалификации персонала. Но если они пользуются успехом, то установка и обслуживание со временем упрощаются. Появляются готовые к развертыванию комплексы, не требующие повышенного внимания.

Для систем непрерывной доступности одним из таких решений является программный пакет everRun Enterprise компании Stratus. Он специально спроектирован так, чтобы обеспечить сохранение данных даже при аппаратных или программных сбоях.

Преимущества решения

При использовании everRun Enterprise приложение «живет» в двух ВМ на двух физических серверах. Если одна ВМ выходит из строя, приложение продолжает работать на другом сервере без перерывов или потери данных. Это достигается за счет постоянного считывания состояния работающей виртуальной машины и сохранения ее параметров. В случае сбоя последнее состояние системы переносится на параллельно работающую ВМ, так что выполнение приложений не прерывается. Серверы системы могут быть географически разнесены для повышения надежности.

Программное обеспечение Stratus everRun предназначено для того, чтобы обеспечить непрерывную работу служебных приложений и целостность собираемых данных. При этом система, разумеется, обладает функционалом и для быстрого аварийного восстановления в случае крупного отказа. Решения Stratus everRun базируются на использовании стандартного оборудования, и защищают любые приложения для MS Windows Server и Linux от отказов и сбоев в работе аппаратной части серверов.

Как отмечает представитель компании-интегратора «Родник» Иван Кириллов , «внедрение everRun Enterprise позволяет избежать построения сложной сетевой инфраструктуры, развертывания и настройки дополнительного управляющего ПО, а также затрат на обучение персонала, которые требуются при эксплуатации традиционных кластерных систем».

Как everRun Enterprise обеспечивает непрерывную работу и сохранение данных приложений, развернутых на виртуальных машинах