Professional Documents
Culture Documents
Управление инцидентами
Microsoft®
Функция управления сервисом 2
ii Управление инцидентами
Содержание
Краткая информация по управлению ......................................................................................... 1
Введение .......................................................................................................................................... 3
Краткий обзор управления инцидентами .................................................................................... 5
Задача и цели .............................................................................................................................. 5
Возможности ................................................................................................................................. 6
Ключевые определения ............................................................................................................... 6
Процессы и действия ...................................................................................................................... 9
Краткая информация по схеме процесса ................................................................................. 9
Обнаружение, самообслуживание и регистрация .................................................................... 12
Обнаружение .......................................................................................................................... 13
Самообслуживание ................................................................................................................ 13
Регистрация ............................................................................................................................ 19
Обработка сервисных запросов ..................................................................................................23
Классификация и начальная поддержка ................................................................................... 28
Классификация .......................................................................................................................29
Начальная поддержка ............................................................................................................35
Исследование и диагностика ...................................................................................................... 39
Процедура по серьезным инцидентам ...................................................................................... 50
Разрешение и восстановление ................................................................................................... 56
Закрытие ....................................................................................................................................... 59
Роли и обязанности ......................................................................................................................... 63
Менеджер по инцидентам ............................................................................................................63
Аналитики службы поддержки .................................................................................................... 63
Менеджер по серьезным инцидентам ....................................................................................... 64
Технические специалисты по поддержке ................................................................................. 65
Связь с другими SMF ...................................................................................................................... 71
Служба поддержки ....................................................................................................................... 71
Управление проблемами ............................................................................................................. 71
Управление изменениями ........................................................................................................... 72
Управление конфигурациями .................................................................................................... 72
Управление релизами ................................................................................................................ 72
Управление уровнем сервиса .................................................................................................... 72
Управление мощностью .............................................................................................................. 72
Управление доступностью .......................................................................................................... 73
Управление непрерывностью ИТ сервиса ..................................................................................73
Администрирование безопасности ............................................................................................. 73
Функция управления сервисом 4
2
Введение
В настоящем руководстве приводится подробная информация относительно SMF "Управление
инцидентами" для организаций, которые уже используют или собираются использовать
технологии Microsoft® в центре данных или другом типе вычислительной среды предприятия.
Это - одна из более чем 20 SMF, определяемых и описываемых в Microsoft Operations
Framework (MOF). Руководство предполагает, что читатель знаком с целью, исходными
данными и фундаментальными понятиями MOF, а также обсуждаемыми технологиями
Microsoft.
Краткий обзор MOF и его компаньона, Microsoft Solutions Framework (MSF), доступны в
руководстве Краткий обзор функции управления сервисом MOF. В этом обзорном руководстве
также приводится резюме по каждой из функций управления сервисом, определенных в MOF.
Подробная информация о понятиях и принципах каждого из подходов доступна в технических
статьях на сайте www.microsoft.com/mof.
Функция управления сервисом 7
3
Краткий обзор управления инцидентами
Процесс управления инцидентами стремится гарантировать то, чтобы обнаруживались
инциденты и регистрировались сервисные запросы. Регистрация гарантирует отсутствие
потерянных инцидентов или сервисных запросов, позволяя отслеживать регистрационные
записи, и предоставляет информацию, призванную помочь в действиях по планированию и
управлению проблемами. Процесс включает в себя использование технологии по обеспечению
клиентов средствами самообслуживания, предоставляя им гибкие и удобные интерфейсы к
функции поддержки, также снижая рабочую нагрузку и требования по персоналу для службы
поддержки.
Инциденты подвергаются классификации для того, чтобы гарантировать, что они правильно
располагаются по приоритетам и направляются к надлежащим ресурсам поддержки.
Управление инцидентами включает в себя начальные процессы поддержки, которые позволяют
проверять новые инциденты на известные ошибки и проблемы так, чтобы могли быть быстро
определены любые предварительно идентифицированные обходные пути.
Могут иметь место случаи, когда происходят серьезные инциденты, требующие реакции,
выходящей за пределы реакции, предусмотренной процессом для обычного инцидента.
Управление инцидентами включает в себя процесс для обработки таких серьезных инцидентов,
используя иерархическую или функциональную эскалацию, эффективную связь и формальные
планы возврата.
Задача и цели
Первичная задача SMF "Управление инцидентами" заключается в как можно более быстром
восстановлении нормальной работы сервиса и минимизировании неблагоприятного
воздействия на бизнес-операции, гарантируя, таким образом, поддержание возможных
наилучших уровней качества сервиса и доступности. Обычно нормальная работа сервиса
определяется в рамках соглашения об уровне сервиса (SLA).
Возможности
Управление инцидентами обрабатывает все обнаруженные инциденты и все сервисные
запросы, которые могут проходить через службу поддержки.
ITIL определяет инцидент как любое неожиданное событие, которое вызывает или может
вызвать прерывание или снижение качества сервиса.
Ключевые определения
Ниже приводятся ключевые термины, используемые в рамках процесса управления
инцидентами:
Инцидент. Любое неожиданное событие, которое вызывает или может вызвать прерывание
или снижение качества сервиса.
Группа начальной поддержки. Группа, которая обеспечивает самую первую линию поддержки
для обработки инцидентов и сервисных запросов. Персонал группы начальной поддержки
ответственен за осуществление попыток разрешения инцидентов при первом контакте
посредством идентификации известных обходных путей, используя диагностические сценарии
или свое собственное знание. Во многих организациях служба поддержки действует в качестве
группы начальной поддержки.
Известная ошибка. Инцидент или проблема, для которых известна первопричина и были
идентифицированы временный обходной путь или постоянный альтернативный вариант. Если
существует бизнес-событие, то будет выдан RFC, но в любом случае, если только инцидент не
устраняется изменением, будет иметь место известная ошибка.
Функция управления сервисом 9
Служба поддержки. Функция, которая обеспечивает важную точку ежедневного контакта между
клиентами, пользователями, ИТ сервисами и сторонними организациями. Служба поддержки не
только координирует процесс управления инцидентами, но также обеспечивает интерфейс со
многими другими ИТ процессами.
Сервисный запрос. Запросы о новом или измененном сервисе. Типы сервисных запросов
меняются в зависимости от организации, но общие запросы включают в себя запросы на
изменение (RFC), запросы на информацию (RFI), запросы на поставку и запросы на продление
сервиса.
4
Процессы и действия
На приведенном ниже рисунке показан жизненный цикл инцидента от начального его
появления до закрытия инцидента после подтверждения того, что проблема была решена.
Incident
occurs
Normal service
resumed
Подписи к рисунку:
Incident occurs - Инцидент возникает
Detected and recorded - Обнаруживается и регистрируется
Classified - Классифицируется
Investigated and diagnosed - Исследуется и диагностируется
Resolved and recovered - Разрешается и устраняется
Closed - Закрывается
Normal service resumed - Обычный сервис возобновлен
End to end ownership, tracking, and monitoring - Непрерывное владение, отслеживание и контроль
Подписи к рисунку:
Investigation and
diagnosis
Closure
Обнаружение
Для того чтобы инцидентами можно было управлять, их сначала необходимо обнаружить.
Традиционно, о большинстве инцидентов сообщают пользователи, сталкивающиеся с
проблемами при выполнении своих повседневных задач. Служба поддержки играет в этом
ключевую роль, действуя в качестве единственной контактной точки между пользователями и
ИТ. Эта единственная контактная точка помогает гарантировать, чтобы все информируемые
инциденты и сервисные запросы обрабатывались последовательно, сводя к минимуму
задержки в работе персонала по поддержке, таким образом, позволяя ему работать более
эффективно.
Примечание, касающееся технологии. В организациях используется широкий диапазон систем управления событиями. Они
включают в себя внутренние сценарии, разработанные для обеспечения основного контроля отдельных систем и приложений,
коммерческие продукты управления системами, а также комплексные решения для управления предприятиями.
Одни решения нацелены на определенные платформы, в то время как другие предлагают использование многоплатформенных
функциональных возможностей. Выбор надлежащих инструментальных средств является критическим фактором для организации,
поскольку эти инструментальные средства часто представляют собой значительные инвестиции, как в терминах стоимости, так и в
терминах установки. Многие инструментальные средства первоначально были спроектированы для определенной платформы.
Несмотря на то, что сейчас они предлагают многоплатформенную поддержку, качество такой поддержки может оказаться не
сопоставимым с качеством первоначальной платформы.
Для стратегических платформ должны использоваться признанные промышленностью высококачественные системы управления
событиями. Хорошая межплатформенная система управления должна быть в состоянии объединять события от одного или более
продуктов, для того чтобы облегчить работу операторов. После приобретения такой системы они смогут также обеспечить контроль
для систем, которые не считаются достаточно стратегическими для того, чтобы обеспечить собственный заказной контрольный
инструмент.
Контролируемые пороги должны тщательно анализироваться. Для разных целей могут потребоваться различные пороги.
Определенная метрика может иметь порог, который соответствует целям в рамках SLA, так, чтобы нарушения SLA могли быть
идентифицированы. Однако управление инцидентами требует более низкого порога предупреждения, для того чтобы действие
могло быть предпринято прежде нарушения SLA. Часто требуется период настройки для идентификации порогов, которые
предоставляют время на принятие действия, но которые не инициируются слишком часто в течение обычной операции.
Самообслуживание
Средства самообслуживания предоставляют ИТ клиентам повышенную гибкость и управление
при связывании с организацией по поддержке. В среде самообслуживания клиенты могут
обращаться в службу поддержки. Возможные варианты могут включать в себя обычное
телефонное оборудование, беспроводные устройства и обычные клавиатурные устройства,
используя либо технологию браузера, либо доступ к средствам запроса, внедренным в
инструмент службы поддержки. Независимо от используемого метода, должна присутствовать
система управления для гарантии согласующегося уровня качества сервиса. Существуют
отличия, которые должны быть распознаны и запланированы при работе с различными
средами доступа. Для эффективной работы концепции крайне важным фактором является
точный дизайн.
Функция управления сервисом 15
Для того чтобы выполнить эту эффективную стратегию, служба поддержки должна
идентифицировать типы запросов, с которыми они имеют дело, решить, какие типы
удовлетворяют решению самообслуживания, и затем разработать решение. Если эти действия
выполняются успешно, то организации смогут освободить свои технические ресурсы для того,
чтобы сосредоточиться на более сложных или исключительных проблемах.
Методы контакта
Для того чтобы решение самообслуживания оказалось успешным, оно должно быть удобным для
использования, так чтобы пользователи чувствовали себя уверенными в его применении и полагали, что
оно предлагает им ценную альтернативу обращению в службу поддержки другими способами.
Функция управления сервисом 17
Независимо от того, как клиенты входят в среду самообслуживания, их вход должен быть подтвержден и
должны быть собраны метрики. Это действие включает в себя анализ трендов сделанных запросов
(успешных и неудачных), объемы установленных контактов, производительность среды
самообслуживания и изменения в методе контакта. Данная информация помогает идентифицировать
улучшения сервиса, а также демонстрирует эффективность сервиса и предоставляет информацию по
рентабельности инвестиций.
К основным получаемым данным относятся:
Средства или режим входа.
Дата и время входа.
Идентификация пользователя.
Вопросы, которые были заданы, и средства, к которым осуществлялся доступ.
Тип средств
Режим входа определяет средства, доступные для запрашивающего лица. При использовании
компьютерного входа, например, с помощью клавиатуры, необходимо обеспечить стандартный веб-
интерфейс и поисковые серверы. Они могут быть объединены с инструментом поддержки или основаны
на инструменте третьей стороны.
С переустановкой пароля может быть связан типичный запрос, имеющий большой объем, но
являющийся относительно простым. При наличии подготовленного решения самообслуживания,
аналитикам службы поддержки больше не нужно принимать участие в переустановке паролей.
Служащие, нуждающиеся в переустановке своих паролей, могут обратиться к средству
самообслуживания, ответить на несколько вопросов аутентификации и последовательно пройти через
контролируемый процесс для переустановки пароля. При смене пароля всегда рекомендуется
отправлять запрашивающему лицу информационное письмо по электронной почте в качестве
предосторожности относительно безопасности.
Новые запросы, сделанные через средства самообслуживания, должны быть зафиксированы в системе
службы поддержки и, как и для всех других запросов, им должен быть назначен номер инцидента для
обеспечения проверки и возможности последующего контроля прогресса. Такая связь со службой
поддержки особенно важна, когда самообслуживание позволяет запрашивающим лицам изменять
данные или пароли. Также это гарантирует, что запросы самообслуживания автоматически включаются в
анализ тренда. Определенный анализ этих данных позволяет улучшать сервис и выполнять
всесторонний анализ тренда.
Доступная информация зависит от стиля запроса. Если запрос основан на использовании компьютера
или интернета, то возможен доступ к различным источникам данных, включая следующие:
Отслеживание инцидента и проблемы
График будущих изменений.
Примечания по поддержке поставщика.
Обучающий материал.
Обновления программного обеспечения.
FAQ-информация.
Сервисные каталоги.
Прейскуранты.
Содержание, точность и своевременность информации должны тщательно поддерживаться. Должны
быть определены и согласованы четкие роли и обязанности, с тем чтобы не возникало никакой
двусмысленности. Информация, доступная через любую форму средства самообслуживания, должна
тщательно контролироваться и проверяться, для того чтобы гарантировать соответствие региональным
инструкциям. При этом особое внимание должно уделяться соглашениям по защите данных и
конфиденциальности.
Примечание, касающееся технологии. Использование технологии браузера для поддержки самообслуживание может увеличить
трафик в сети организации. Поэтому важно контролировать пропускную способность сети и ее компонентов. Технология
распознавания речи постоянно улучшается и, вероятно, будет все больше и больше использоваться в средствах
самообслуживания.
Например, пользователь может захотеть получить копию FAQ, поэтому могут быть предусмотрены опции
ответа, которые включают автоматическую отправку электронной почты запрашивающему лицу.
После возвращения требуемой информации пользователь должен иметь возможность
усовершенствования запроса на основе текущего запроса, выбора дополнительных опций меню или же
инициации нового запроса. При разработке сценариев крайне важно выполнить полную проверку для
того, чтобы гарантировать, что пользователь никогда не остается без правильного или соответствующего
выбора, включая возможность возврата в любой точке к опции несамостоятельного получения справки.
Если у пользователя возникает желание сделать второй запрос, то процесс должен предоставить
пользователю возможность ввода другого запроса без необходимости повторной регистрации. Доступные
здесь опции должны тщательно оцениваться, поскольку может возникать необходимость принятия во
внимание проблем, касающихся безопасности. В то время как автоматизированные системы, как
правило, могут являться более управляемыми по той причине, что проверки правильности, касающиеся
безопасности, должны быть точно соответствующими, может оказаться предпочтительнее обрабатывать
запросы на расширенный доступ к приложениям посредством личного контакта.
Если пользователи не способны найти то, что они ищут, или же достигли конца доступных опций, то им
необходимо задать вопрос, желают ли они обратиться в службу поддержки. Контакт со службой
поддержки может представлять собой от простого оставления сообщения до полного запроса о
требуемой информации. Необходимо принять во внимание методы, посредством которых этот тип связи
контролируется и управляется, при этом обязательно нужно зарегистрировать, что этот запрос уже
являлся неудавшимся запросом самообслуживания, для того чтобы могли быть сделаны
усовершенствования среды самообслуживания, если это возможно.
Здесь требуются тесные рабочие связи с управлением инцидентами и проблемами, в особенности, если
средство самообслуживания нацелено на уменьшение числа простых, обычных обращений за
поддержкой, типа замены картриджа с тонером у принтера. Главной целью должно являться
обеспечение эффективного, ориентированного на клиента, средства запроса, которое дает возможность
обрабатывать обычно задаваемые вопросы без привлечения службы поддержки. Информация должна
постоянно проверяться для того, чтобы гарантировать, что она является точной и отражает текущее
состояние информации, касающейся поддержки (и сервиса).
Масштабируемость
Решение самообслуживания дает возможность очень гибкой реакции в организациях, когда имеет место
быстрый рост. Как правило, на принятие на работу и обучение персонала по поддержке в ответ на
увеличенные требования, например в результате слияния компаний, может уйти несколько недель.
Технология самообслуживания может удовлетворить большую часть требований для расширенного
сервиса без таких ограничений по времени, но для этого необходимо, чтобы используемая система была
способна к масштабированию для удовлетворения будущих требований.
Телефонный сервис с привлечением персонала является самым дорогим методом обеспечения
поддержки по причине требуемого персонала. Технология и оборудование также являются
дорогостоящими для установки и поддержки, но вероятно, потребность в использовании телефонного
сервиса будет существовать всегда для того, чтобы иметь дело с исключениями, в противоположность
стандартным запросам о поддержке. Для автоматизированных ответов метод первичной реакции требует
существенных начальных инвестиций, но при этом он обеспечивает быструю и осуществимую отдачу от
инвестиций. Современные оценки свидетельствуют о том, что стоимость надлежащим образом
разработанного, доступного через интернет самообслуживания может составлять менее 5 процентов от
эквивалентной обычной поддержки.
Большинство научных исследований показывают, что люди предпочитают ограниченное взаимодействие
(в смысле короткой продолжительности) с нечеловеческим интерфейсом, а большинство людей
предпочитает человеческий контакт. Однако, правильно адресованные, спроектированные и
реализуемые решения самообслуживания могут рассматриваться клиентами как выгодные, как имело
место с банкоматами (ATM). Ключевые причины успеха ATM - они удобны и просты, расширяют обычное
время сервиса, будучи доступными круглосуточно 7 дней в неделю, и часто обеспечивают более
быструю альтернативу ожиданию в очереди для оказания сервиса кассиром-человеком.
Функция управления сервисом 20
Регистрация
Все обнаруженные инциденты и сервисные запросы должны быть зарегистрированы с тем, чтобы их
можно было отслеживать для гарантии того, что ни один из них не потерян. Регистрация всех контактов
также предоставляет информацию, необходимую для инициализации действий и уменьшения
определенных типов запросов. Например, служба поддержки может обнаружить, что большой процент от
поступающих запросов приходит от людей, просто спрашивающих номер телефона. Исследование
может показать, что буклеты с внутренним телефонным справочником значительно устарели. После
этого может быть принято решение по публикации внутреннего телефонного справочника в интранете,
где его удобнее поддерживать. Эта инициатива не только уменьшает число телефонных звонков в
службу поддержки, но и увеличивает эффективность бизнеса, предлагая персоналу удобный доступ к
самой последней информации. Если запросы номеров телефонов не регистрировались, то масштаб
проблемы будет установить трудно и, возможно, проблема будет существовать неопределенно долго без
обращения на нее внимания.
Информация об инциденте должна регистрироваться в базе данных в инструменте службы поддержки.
Для каждого инцидента необходимо заполнить регистрационную запись инцидента и ввести следующую
информацию:
Уникальный регистрационный номер.
Дата и время регистрации.
Идентификационные данные о лице, регистрирующем инцидент.
Идентификационные данные о лице, сообщившем об инциденте (включая фамилию, отдел,
местоположение и контактную информацию).
Метод контакта.
Информация о затронутых конфигурационных единицах (CI).
Описание симптомов и любых кодов ошибок.
Действия, необходимые для преодоления затруднения.
Для сервисных запросов требуется существенная часть из представленной выше основной информации,
хотя описание симптомов должно быть заменено информацией о требуемом сервисе. Некоторые типы
сервисных запросов могут иметь свой собственный инструмент регистрации запроса, типа системы
управления изменениями для RFC, в то время как другие запросы, типа уникальных запросов пакетного
задания, с меньшей вероятностью будут иметь определенные системы хранения данных и поэтому
должны регистрироваться в виде регистрационных записей инцидента для отслеживания.
Идентификационные данные об инициаторе запроса (типа фамилии, отдела, местоположения и
контактной информации) должны проверяться относительно регистрационных записей, хранящихся в
базе данных клиентов, предпочтительно являющейся частью базы данных управления конфигурациями
(CMDB). Эта процедура позволяет хранить самую последнюю информацию в регистрационных записях,
содержащих данные о клиентах. В зависимости от среды, процедура может также включать вопросы о
коммерческой информации (например, номер контракта) и проверку, связанную с обеспечением
безопасности, для подтверждения подлинности.
Каждому инциденту или сервисному запросу необходимо присвоить уникальный регистрационный
идентификатор. Этот идентификатор должен предоставляться инициатору запроса. Идентификатор
может использоваться для быстрого определения местоположения надлежащей регистрационной
записи, если инициатор обращается снова, для того чтобы обновить регистрационную запись или
отследить прогресс выполнения проверки. Если инциденты произошли из-за события или
предупреждения, полученного от инструмента контроля или управления событиями, то в
регистрационную запись инцидента необходимо включить регистрационный номер события или
предупреждения.
Функция управления сервисом 21
Другие запросы, например уникальные запросы пакетного задания, с меньшей вероятностью будут
иметь определенные средства хранения данных и должны зарегистрироваться в виде регистрационных
записей инцидента для отслеживания.
В зависимости от типа сервисного запроса, от инициатора запроса требуется различная информация.
Например, информация, требуемая для планирования уникального пакетного задания, будет сильно
отличаться от информации, требуемой для запроса на приобретение. Служба поддержки должна
гарантировать регистрацию всей информации, требуемой для обработки необходимого сервисного
запроса.
Тип получаемых сервисных запросов существенно отличается в разных организациях. Для обработки
каждого сервисного запроса отличного типа в организации должна существовать процедура или
технологический процесс. Это будет гарантировать последовательную обработку всех запросов
определенного типа. Если начинают появляться запросы нового типа, то должна быть составлена,
согласована и распределена соответствующая процедура.
Большинство из этих процедур могут представлять собой простые интерфейсы, описывающие, как
подавать новый запрос в процесс, выполняемый другой SMF или частью бизнеса. Примерами такого
типа запросов могут быть запросы приобретения и RFC. Процедуры сервисных запросов должны
гарантировать регистрацию всей необходимой информации и ее последующую передачу
соответствующему процессу.
Другие сервисные запросы могут потребовать намного более сложных процедур или технологических
процессов. Примером является запрос на установку системы для нового служащего. Процесс может
включать в себя создание новых учетных записей: сетевой и электронной почты, получение служащим
полисов безопасности для подписания, предоставление доступа к приложениям, организацию учебных
занятий по ознакомлению с ИТ и вопросами безопасности, обновление внутреннего телефонного
справочника, обновление CMDB, предоставление и конфигурирование нового оборудования, например,
портативного компьютера и телефона.
Примечание, касающееся технологии. Для таких более сложных запросов полезно использовать систему управления
технологическими процессами, с тем, чтобы разбить запрос и отслеживать индивидуальные рабочие действия, одни из которых
могут происходить параллельно, в то время как другие будут находиться в состоянии ожидания, так как зависят от других действий.
Инструментальные средства управления технологическими процессами могут помочь в разработке процедур технологического
процесса посредством создания блок-схем, которые описывают действия и зависимости, а также в создании группы, требуемой для
выполнения каждого действия и зависимости.
Функция управления сервисом 26
Update service
desk
Close service
request
End
прогресс по запросу, как кажется, замедляется, то служба поддержки подтверждает текущую ситуацию,
контактируя с причастной группой и, в случае необходимости, расширяет действия по инциденту для
гарантии удовлетворения целей сервиса. Если запрос должен быть переназначен другой группе, то
служба поддержки снова будет выполнять это действие.
После того, как запрос считается решенным, служба поддержки должна связаться с инициатором и
подтвердить, что он удовлетворен решением, после чего закрыть запрос, убедившись в обновлении
регистрационной записи. Для некоторых запросов может быть приемлемым отправка инициатору письма
по электронной почте с информацией о том, что запрос был решен, и обеспечение контакта в службе
поддержки, если инициатор не удовлетворен решением. Письмо, направленное по электронной почте,
должно сообщить инициатору о том, что решение будет считаться принятым, а запрос закрытым, если
служба поддержки не получит ответ в пределах определенного периода времени (например, трех
недель). В зависимости от инструмента службы поддержки, возможно автоматизирование отправки
инициатору стандартного письма по электронной почте после ввода состояния решенного запроса и
автоматическое закрытие запроса, если в течение заданного периода времени не вводится обновление.
В тех случаях, когда отслеживание группой поддержки не требуется (обычно по причине того, что запрос
был немедленно выполнен, а инициатор уведомлен), служба поддержки будет гарантировать обновление
регистрационной записи запроса и затем закроет запрос.
Примечание, касающееся технологии. Некоторые типы сервисных запросов имеют определенные инструментальные средства, в
которых они регистрируются и отслеживаются. Эти инструментальные средства могут быть решениями внутренней разработки или
сторонними продуктами. Они могут существовать отдельно от инструментов службы поддержки или же быть интегрированы в них.
На приведенном ниже рисунке показан пример такого инструмента, используемого для регистрации и отслеживания запросов на
изменение.
На приведенном ниже рисунке показан пример инструмента по созданию запроса на изменение (RFC).
Типы сервисных запросов, для которых нет определенного инструмента, должны регистрироваться и
отслеживаться с использованием регистрационных записей инцидента. На приведенном ниже рисунке
показан пример запроса пакетного задания, выполненный в этом формате.
Классификация
Инциденты должны классифицироваться таким образом, чтобы их можно было обрабатывать
максимально эффективно с соответствующим разрешением. Классификация - это процесс
категоризации инцидента и присваивания ему приоритета. Классификация является очень важной
первой стадией в управлении инцидентами, поскольку она определяет последующее предпринимаемое
действие. Классификация используется для:
Определения сервиса или оборудования, к которым имеет отношение инцидент.
Ассоциирования любого соответствующего соглашения об уровне сервиса (SLA), соглашения уровня
эксплуатации (OLA) или подкрепляющего контракта (UC).
Идентификации соответствующей группы решения.
Определения приоритета инцидента.
Идентификации оценки рабочей нагрузки.
Действия в качестве соответствующего критерия для идентификации предыдущих инцидентов,
известных ошибок или известных проблем.
Большинство инцидентов могут возникать регулярно, например, переустановки пароля, поэтому их
классификация будет известна. Другие инциденты потребуют исследования прежде, чем они могут быть
классифицированы, и для достижения этого могут использоваться различные методы.
Аналитики службы поддержки могут использовать диагностические сценарии, которые:
Контролируют полноту собираемой информации.
Используют логику и проводят опрос по контролируемым параметрам.
Контролируют терминологию, используемую для соответствия ожиданиям группы поддержки.
Ссылка на регистрационные записи CMDB:
Подтверждает технические данные по конфигурации клиента.
Может идентифицировать предыдущие инциденты, касающиеся оборудования.
Идентифицирует использование неправомочного программного обеспечения.
Идентифицирует любые требуемые обновления.
Проверка по CMDB
Если существуют различия, идентифицируемые при проверке по CMDB, то важно составить для
управления конфигурациями отчет об исключении для корректирующего действия, которое будет
предпринято. Факт исключения мог бы указывать на неправомочное изменение или поломку в процессе
изменения. Пример отчета об исключении может иметь следующий вид:
Дата: 01 апреля 2002
Номер регистрационной записи CI: Software1000
Зарегистрированные данные: Excel 2000 версия 8.5
Указанные данные: Excel 2000 версия 7
Примечание, касающееся технологии. Важно, чтобы служба поддержки имела прямой доступ к CMDB, в идеале - посредством
использования интегрированного набора инструментальных средств службы поддержки. Интеграция дает возможность
автоматически заполнять ключевые поля регистрационной записи инцидента из CMDB, когда в регистрационной записи инцидента
зарегистрированы только фамилия клиента или его телефонный номер. Это позволяет запрашивать проверку правильности
данных CMDB и идентификацию любых исключений, не говоря уже о предоставлении возможности службе поддержки
осуществлять контроль и предпринимать активные меры на очень ранней стадии при инциденте (это может повысить
эффективность службы поддержки и увеличить доверие клиента).
Функция управления сервисом 31
В приведенном ниже примере выполняется поиск номера каталога (CI), но конфигурационные единицы могут также выбираться по
имени, владельцу, представляющему, отделу или местоположению.
Диагностические сценарии
Диагностические сценарии, или сценарии поиска и устранения неисправностей, предоставляют помощь
инициатору запроса при разрешении инцидентов и, как правило, используют структурированный процесс
вопрос-ответ-действие. Сценарии могут использоваться для обработки обычных типов инцидентов или, в
случае необходимости, для выполнения первоначальной сортировки и сбора информации до
регистрации запроса и направления его группе второй линии.
Сценарии могут также использоваться для запроса оператора на получение дополнительной
определенной для ошибки информации. Например, для случая “Невозможность печати” можно
автоматически запросить об очереди печати и именах серверов, которые затем регистрируются как часть
информации запроса. Пример сценария “Невозможность печати”:
1. Пользователь регистрирует запрос в службе поддержки. Могут указываться симптомы
“Невозможность печати”, “Сообщения об ошибках принтера" или “Плохое качество печати”.
2. Подтвердите пользователя:
a. Фамилия.
b. Местоположение.
c. Добавочный номер телефона.
3. Запросите информацию о принтере:
a. Название.
b. Местоположение.
c. Инвентарный номер.
d. Тип (сетевой или локальный).
e. Число людей, затронутых ошибкой.
4. Проверьте регистрационную запись CMDB, для того чтобы подтвердить указанную информацию и
составить отчет об исключении, если это требуется.
5. Назначьте категорию “проблемы печати”.
6. Выберите подкатегорию, указывающую тип выполняемой печати (по сети или локально).
Функция управления сервисом 32
Категории и приоритеты
Используемые категории классификации отличаются в зависимости от организации, но они всегда
должны согласовываться между ИТ организацией и бизнес-сообществом. Между этими группами может
существовать конфликт, поскольку последняя ИТ организация носит, прежде всего, технический
характер, в то время как бизнес-сообщество таковым, возможно, не является.
Если категории классификации слишком сильно основаны на технической стороне, то аналитики
технической поддержки должны уметь переводить симптомы, описанные бизнес-пользователями, в
технические эквиваленты. При таких обстоятельствах существует большая вероятность возникновения
ошибок и трудностей во время приведения в соответствие, а также могут возникать трудности в переходе
к среде самообслуживания, если бизнес-сообщество не может легко интерпретировать информацию.
Функция управления сервисом 33
Тщательный выбор категорий поможет точному направлению группам решения, если группа начальной
поддержки не может решить инцидент, а согласованность классификации инцидентов облегчает
назначение средств самообслуживания.
Ниже приводятся примеры категорий:
Аппаратные средства
Процессор
Память
Жесткий диск
DVD ROM
Монитор
Клавиатура
Программное обеспечение
Электронная таблица
Текстовый процессор
Офисное приложение
Независимо от выбранных категорий, наиболее важным аспектом является то, что в начальную стадию
разработки должны быть привлечены представители как персонала по поддержке, так и бизнес-
пользователи, поскольку изменять категории станет труднее с увеличением объема связанных с ними
данных.
Примечание, касающееся технологии. При выборе инструмента поддержки необходимо принять во внимание разработку
категорий классификации, поскольку в этом отношении одни инструментальные средства являются менее гибкими, чем другие.
Если используется неадекватный инструмент анализа, то ключевая информация может быть отнесена к полям текста в свободном
формате, который препятствует анализу тренда и развитию самообслуживания. Это особенно важно при отсутствии на месте
CMDB, поэтому весь анализ будет регистрироваться в регистрационной записи инцидента.
Служба поддержки должна определить, какие службы и SLA затронуты сообщенным инцидентом,
поскольку это позволит установить соответствующий приоритет. CMDB должна использоваться в
качестве источника информации при определении затронутых сервисов и SLA.
Установление приоритетов является важным аспектом управления инцидентами, поскольку оно
суммирует характеристики инцидента и определяет полный подход к его разрешению.
Приоритет инцидента обычно определяется отношениями между его воздействием и
безотлагательностью, по которым, в свою очередь, определяется намеченное время разрешения
инцидента. Например, инцидент с высокими степенями воздействия и безотлагательности получит
высокий приоритет, в то время как инцидент с высокой степенью воздействия и низкой
безотлагательностью получит более низкий приоритет, как и инцидент с низким воздействием и высокой
безотлагательностью. Неправильная классификация приоритета не позволит эффективно выполнять
управление инцидентами.
Приоритет инцидента должен основываться на следующем:
Затронутые или потенциально затронутые сервисы и SLA. Соглашения об уровне сервиса
формализуют отношения между сервис-провайдером и клиентской базой. Для обеспечения
правильной классификации инциденты должны быть связаны с надлежащим SLA. Это позволит
быстро и точно устанавливать безотлагательность инцидента и его воздействия на бизнес, поскольку
SLA идентифицирует затронутый сервис, пользователей этого сервиса и последствия прерывания
сервиса. Оно также регистрирует ожидаемые интервалы времени для возврата в нормальный режим
и договоренности о просьбах планирования непрерывности бизнеса. Любые связанные OLA и UC
также должны приниматься во внимание.
Любой относительный приоритет, связанный с назначенной категорией. Категории могут
использоваться для определения относительных приоритетов с целью оказания персоналу помощи в
определении приоритета, который необходимо присвоить каждому инциденту. Относительные
приоритеты должны действовать в качестве отправной точки, определяя фактический приоритет,
который будет присвоен инциденту.
обеспечение
Программное Офисное приложение 2
обеспечение
Однако такое представление не делает отличий между областями бизнеса, поэтому для всех
проблем, связанных с электронными таблицами, будет назначен, и возможно неправильно, один и
тот же приоритет.
Производство Электронная 3
таблица
Текстовый 2
процессор
Офисное 2
приложение
Распределение Электронная 3
таблица
Текстовый 3
процессор
Офисное 3
приложение
все еще высокое воздействие и проблема становилось более срочной, в 1998 г. безотлагательность
увеличилась снова, и так далее.
В приведенной ниже таблице показан пример системы кодировки приоритета на основании воздействия
и безотлагательности.
Таблица 5. Система кодировки приоритета на основании воздействия и безотлагательности
Воздействие
Высокое Среднее Низкое
Высокая
Безотлагательность Средняя
Низкая
Запланированное время разрешения инцидента должно быть тщательно продумано, с тем, чтобы оно
соответствовало согласованным адресатам сервиса. На основе запланированного времени разрешения
может быть задано время автоматической эскалации. Для серьезных инцидентов запланированное
время разрешения не указано, поскольку эти инциденты по своему характеру лежат за рамками
"обычных" инцидентов, поэтому время разрешения инцидента для них существенно изменятся. За
эскалацию во время серьезных инцидентов отвечает менеджер по серьезным инцидентам.
Начальная поддержка
Начальная поддержка - это процесс, с помощью которого служба поддержки может разрешать инцидент
к удовлетворению клиента независимо от любых других областей поддержки. Служба поддержки может
достигать такого результата, сопоставляя сообщаемый ей инцидент с известной ошибкой и предоставляя
клиенту информацию об известном решении или обходном пути. В этом случае регистрационная запись
инцидента должна быть связана с регистрационной записью известной ошибки, с тем, чтобы все
затронутые пользователи могли быть идентифицированы, когда будет доступно постоянное решение, а
также для помощи при обзоре приоритета для решения известных ошибок.
С другой стороны, аналитик службы поддержки может обеспечивать информацию о решении из личного
опыта или специальных знаний, полученных из определенной учебной программы. Если ни один из этих
вариантов не возможен, то аналитик службы поддержки, возможно, должен обратиться к базам знаний
для сопоставления симптомов, описанных клиентом. Если какой-либо источник предлагает решение, то
должна быть обновлена база данных известных ошибок, а в регистрационной записи инцидента должна
быть зарегистрирована подробная информация по решению. Можно также проинформировать
менеджера по конфигурации, с тем, чтобы также была обновлена CMDB.
Известная ошибка - это регистрационная запись предварительно сообщенного и разрешенного
инцидента. Будет иметь место если не полное решение, то, по крайней мере, доступный обходной
способ. Если существует база данных известных ошибок, то она должна быть доступна для всех
аналитиков службы поддержки и должна тщательно поддерживаться. В ряде случаев обходное решение
Функция управления сервисом 36
может примяться временно, в то время как разрабатывается полное решение или же ожидается релиз
новой версии программного обеспечения. Это может занять время, и ошибка может затронуть многих
пользователей. Используя информацию, зарегистрированную в SLA, служба поддержки может
идентифицировать бизнес-пользователей, подвергаемых опасности, и принять превентивные меры,
выдавая предупреждение о потенциальной проблеме и сообщая о существовании обхода.
Примечание, касающееся технологии. Базы знаний могут разрабатываться внутри организации, см. пример на приведенном
ниже рисунке, с возможным использованием базы данных или специальных инструментальных средств CRM, или же
обеспечиваться поставщиками, используя технологию браузера. Для внутренней разработки необходимо включить определение
обязательных полей, использование ключевых слов и методологию поиска. Необходимо установить единственную точку
монопольного использования для управления содержанием. Также должно быть включено отслеживание посетителей, для того
чтобы можно было проверять использование базы. По мере развития базы она будет использоваться чаще, поэтому важно
отслеживать степень и возможности использования, так как это предоставит полезную информацию для анализа тренда.
инцидентов часто являются хорошим источником информации, предоставляя данные о том, как
подобные инциденты были разрешены в прошлом. Здесь главной становится потребность полного
обновления регистрационных записей инцидентов с четким кратким описанием симптомов и
предпринятых действий.
Если инцидент соответствует одному или более предыдущим инцидентам, то это может являться
индикацией того, что в их основе существует проблема. Если возникают сомнения, то об этом
необходимо сообщить управлению проблемами. В этом случае управление проблемами должно решить,
нужно ли создавать новую регистрационную запись проблемы или нет.
Примечание, касающееся технологии. Согласование инцидентов, проблем и ошибок наиболее эффективно можно выполнить,
если используется интегрированный инструмент. Даже если реализован интегрированный инструмент, все преимущества могут
быть потеряны, если этот инструмент не применяется последовательно во всей организации поддержки. Если инциденты,
проблемы и известные ошибки регистрируются и обновляются контролируемым и непротиворечивым способом, то результирующие
данные позволят осуществить намного более продуктивное согласование и регистрацию. Жизненно важно поддерживать
монопольное использование инструмента и осуществлять контроль для гарантии того, что все стороны, обращающиеся к
инструменту, используют его непротиворечивым образом, как определено в задокументированных процедурах. В идеальном
варианте это непротиворечивое и контролируемое использование инструмента должно присутствовать в самом начале его
внедрения, поскольку зачастую очень трудно переустанавливать политику использования после того, как группы начнут применять
инструмент для своих собственных индивидуальных стандартов.
Если организация использует локальные службы поддержки, то согласование часто может выполняться только в локальном
масштабе, ограничивая потенциал для совместного использования накопленного знания, создаваемого в инструментальных
средствах. Глобальные организации будут испытывать большие трудности в достижении интеграции, так как затраты, язык и
инфраструктура могут делать использование единственного инструмента трудным или даже невозможным. Кроме того, некоторые
бизнес-процессы могут концентрироваться в определенных странах/регионах и находиться в ограниченном общем интересе, делая
интеграцию менее ценной.
Персонал группы начальной поддержки мог бы решать инциденты при использовании своего
собственного неявного знания, созданного в течение продолжительного времени. Организации могут
увеличивать уровень неявного знания, доступного в службе поддержки, предоставляя бизнес-персоналу
возможность перехода в организацию поддержки, принося свой опыт бизнес-процессов и приложений
вместе с ними. Формальное обучение также может использоваться для увеличения доли инцидентов,
разрешаемых при первом контакте. Однако здесь проблемой является время, а также знание. Часто
персонал группы начальной поддержки может чувствовать, что он обладает знаниями для дальнейшего
исследования конкретного инцидента, но инцидент нужно передать группе решения из-за давления
поступающих запросов. Принятие решения относительно того, сколько времени должно быть потрачено
на начальную поддержку инцидента, является ключевым вопросом для службы поддержки и имеет
последствия на всей цепочке поддержки.
По возможности персонал должен стараться разрешать инциденты в течение начальной поддержки,
обеспечивая рекомендации по решению, пока это не будет влиять на ответ и обработку поступающих
запросов. “Первый запрос предопределяет успех” - ценная метрика и ключевой компонент
удовлетворения клиента и снижения затрат. Когда решение, как предполагается, достигнуто, инциденты
должны двигаться к процессу закрытия.
В тех случаях, когда группа начальной поддержки не смогла разрешить инцидент, он должен быть
назначен группе решения на основании классификации инцидента. В зависимости от типа инцидента,
группа решения может являться внутренней группой или внешним поставщиком. В любом случае служба
поддержки сохраняет монопольное владение инцидентом и ответственна за контроль и отслеживание
прогресса инцидента.
Начальная группа поддержки должна иметь доступ к деталям любых соглашений о поддержке
предприятия, включая законтрактованные уровни сервиса, детали контракта, время сервиса и
ожидаемое время реакции. Когда инциденты расширяются до внешних поставщиков жизненно важно,
чтобы персонал поддержки, контактирующий с поставщиком, имел всю необходимую информацию. Для
каждого внешнего контракта должен составляться и поддерживаться перечень данных, требуемых при
регистрации запроса. Эта информация обычно включает в себя номер контракта или соглашения,
идентификатор сайта, детали о затронутых продуктах (модель и серийные номера аппаратных средств,
версии программного обеспечения и уровни исправления), а также рекомендацию по уровню
необходимого для поставщика приоритета. Некоторые контракты разрешают регистрировать при
указанных контактах только новые запросы. Если дело обстоит таким образом, то должен быть
современным и доступным перечень указанных контактов.
Примечание, касающееся технологии. Интерфейсы для передачи инцидентов внешним поставщикам являются более
интегрированными, чем обращение к поставщику по телефону или факсу. Два наиболее общих сценария являются следующими:
Внешние поставщики имеют свою собственную очередь в пределах инструмента поддержки организации и имеют доступ для
обновления регистрационных записей инцидента и принятия по ним решения. Поставщики ответственны за контроль своей
очереди и прогресс любых назначенных ей инцидентов.
Инструмент поддержки организации имеет интерфейсную связь с инструментом внешнего поставщика. Когда очереди
поставщика назначается инцидент, в инструменте поставщика регистрируется соответствующая регистрационная запись
инцидента. В зависимости от уровня интеграции, первоначальная регистрационная запись инцидента автоматически
Функция управления сервисом 38
обновляется, когда обновляется регистрационная запись поставщика (или через регулярные интервалы времени), или же
организация имеет доступ для чтения в средство самообслуживания поставщика для того, чтобы получать обновления
прогресса.
Ключевые факторы успешного достижения этого уровня интеграции являются следующими:
Интерфейс для использования персоналом поддержки должен быть максимально автоматизированным и не громоздким.
Интерфейс должен иметь надлежащие уровни доступности и надежности.
Интерфейс должен предоставлять обеим сторонам соответствующую безопасность.
Должны быть четко задокументированы и поняты обязанности по контролю и прогрессу инцидентов.
Запланированное время разрешения и приоритеты должны быть надлежащим образом определены между организациями и
четко поняты.
Должны быть поняты обязанности по поддержке интерфейса, включая осведомленность о влиянии изменений в одном
инструменте поддержки на процессы и инструмент другой организации.
Функция управления сервисом 39
Исследование и диагностика
На рисунке 14 показана блок-схема процесса исследования и диагностики.
Подписи к рисунку:
Re-allocate to appropriate team -
Переназначение соответствующей
группе
B Allocate support I Yes - Да
staff Functional escalation required? -
Требуется эскалация
функциональных возможностей?
Re-allocate to
No - Нет
appropriate team Assess incident Malicious Intent suspected? -
details
Ожидается злоумышленное
Yes
намерение?
Allocate support staff - Назначение
Functional CMDB персонала поддержки
No Assess incident details - Оценка
escalation Gather facts
required? информации об инциденте
Gather facts - Сбор фактов
Matches known error? -
Yes Соответствует известной ошибке?
Matches Link incident to Matches existing problem? -
known error? known error Соответствует существующей
проблеме?
No
Investigation and
diagnostic data search - Поиск
Matches
existing
Yes Is there a Yes Link incident to данных исследования и
workaround? problem record диагностики
problem?
Preserve evidence and notify
No No
security team - Сохранение
доказательства и уведомление
Investigation and No Problem Yes Problem
группы безопасности
diagnostic data management
search accept match?
management Management escalation required? -
Требуется эскалация управления?
Perform management
Malicious intent No escalation - Выполнение эскалации
suspected?
управления
Link incident to known error -
Preserve evidence
Yes
and notify security
Workaround or Yes Can it be No Связывание инцидента с
solution identified? tested?
team известной ошибкой
Is there a workaround? -
No Yes Существует обходной путь?
Problem management
Management Test workaround accept match? - Принимает ли
No No
escalation Major incident? or solution управление проблемами
required? соответствие?
Yes Workaround or solution identified? -
Yes
Идентифицированы ли обходной
путь или решение?
Perform Major incident? - Серьезный
No Tested Yes
management
successfully?
инцидент?
escalation
Major incident process - Процесс
серьезного инцидента
G E Link incident to problem record -
H F
Связывание инцидента с
Major incident Resolution регистрационной записью
process and recovery
проблемы
Problem management - Управление
проблемами
Can it be tested? - Может ли быть
выполнена проверка?
Test workaround or solution -
Проверка обходного пути или
решения
Tested successfully? - Проверка
прошла успешно?
Resolution and recovery -
Разрешение и восстановление
Рисунок 14. Блок-схема процесса исследования и диагностики
Функция управления сервисом 40
Примечание, касающееся технологии. Доступно широкое разнообразие технологий для оказания помощи группам решения в их
управлении очередями. Они включают отображение состояния очереди в пределах офисной зоны группы решения с
использованием больших мониторов или специально разработанных электронных дисплейных панелей. Большие электронные
дисплейные панели могут конфигурироваться для отображения ключевых выводов из множества различных систем, включая
системы службы поддержки и системы управления событиями. На приведенном ниже рисунке показан пример очереди группы
решения.
Функция управления сервисом 41
если это может быть сделано удаленно без необходимости затрачивания времени на поездку, то это
соответствует цели. Однако, если на какой-нибудь стадии в течение жизненного цикла инцидента
становится видно, что посещение, несмотря на время поездки, приведет к более быстрому разрешению,
то этот вариант также необходимо принять во внимание. В рассмотрение следует включить оправдание
затрат, связанных с посещением, относительно влияния увеличения времени разрешения инцидента. В
то время как политика должна минимизировать превышение времени, проведенного в пути, организации
должны гарантировать, что они не исключают оправданные посещения и таким образом не продлевают
инциденты.
Необходимо рассмотреть структуру организации поддержки и то, должен ли персонал поддержки
располагаться в центре или же быть распределен по различным местам. Как правило, распределение
увеличивает сложность и, следовательно, затраты организации поддержки. Однако часто структура
должна разрабатываться для того, чтобы удовлетворять согласованным уровням сервиса. Например,
если согласованный уровень сервиса требует локального ответа в течение одного часа, а данное
местоположение удалено от других точек поддержки, то требуется определенная форма местного
присутствия. В зависимости от вовлеченных затрат, использования безопасности, простоты найма и
уровня требуемой поддержки, организации могут рассматривать использование аутсорсинга для
локальной поддержки в протяженных местоположениях.
Примечание, касающееся технологии. Для оказания помощи в минимизировании потребности локальных посещений
доступными являются удаленные инструментальные средства поддержки. Эти инструментальные средства включают в себя
утилиты, позволяющие удаленно просматривать файлы регистрации и запускать административные утилиты на удаленных
компьютерах. Всегда должны приниматься меры, направленные на гарантию безопасности этих систем от неправомочного
использования.
Может иметь место повышение функциональных возможностей при использовании удаленных инструментальных средств,
позволяющих персоналу поддержки просматривать то, что пользователь испытывает на удаленной системе и, в случае
необходимости, переключать на себя систему для исследования инцидента и применять любые действия, связанные с его
разрешением. Эти инструментальные средства являются также необходимыми, когда персонал поддержки ответственен за
системы, расположенные в удаленных или автоматических машинных залах.
После того, как персонал поддержки сможет понять инцидент, он должен идентифицировать, почему этот
инцидент происходит и как можно разрешить проблему или использовать для нее обходной путь.
Управление инцидентами интересуется непосредственной причиной инцидента, а не возможными
основными первопричинами, которыми интересуется управление проблемами. Например, управление
инцидентами может идентифицировать причину инцидента как "заблокированный" или "зависший"
файловый сервер и для решения данной проблемы требуется перезагрузка сервера. Вместе с этим
управление проблемами должно определить, была ли эта проблема изолированным инцидентом или же
в его основе существует проблема, которая вызывает блокировку этого, и возможно других, файловых
серверов.
Несмотря на всесторонние процессы управления изменениями и релизами, вероятно, что некоторые
инциденты будут все еще возникать из-за внесенных изменений. Если происходит инцидент и никакую
непосредственную причину идентифицировать невозможно, то персонал поддержки должен
проконтролировать, какие изменения произошли недавно, для того чтобы проверить, были ли они
уместными. Формальное управление изменениями не только стремится воспрепятствовать
возникновению дальнейших инцидентов из-за изменений, но также гарантирует, что, когда такие
инциденты действительно происходят, будет доступна полная информация о сделанных изменениях.
При диагностировании сложных инцидентов персонал поддержки должен изучить все доступные
доказательства и затем разбить инцидент на более простые модули.
Для гарантии организованного и логического подхода полезно представить проблему в графическом
виде, нарисовав ее на бумаге, белой доске или же с помощью программного инструмента. Это может
быть блок-схема, поток данных или сетевая диаграмма. Подходящее графическое представление может
помочь идентифицировать вовлеченные компоненты и интерфейсы, а, следовательно, и потенциальные
проблемные точки. В этот момент может потребоваться мозговой штурм для идентификации всех
возможных проблемных точек. Если существует несколько потенциальных проблемных точек, то может
быть применено взвешивание, которое оценивает воспринимаемую вероятность каждой проблемной
точки, позволяя определить непосредственную причину инцидента и избавиться от проверки каждой
проблемной точки. Взвешивание может позволить расположить по приоритетам исследовательские
действия.
Для того чтобы персонал поддержки мог воспроизводить инциденты и тестировать обходные пути вдали
от реальной среды, он должен иметь доступ к испытательным средам, отражающим реальную среду (или
ее часть) настолько близко, насколько это возможно. Несмотря на то, что редко можно точно
воспроизвести размер и рабочую нагрузку реальной среды, значительные выгоды можно получить от
масштабированной испытательной среды. Обоснование стоимости испытательных сред может
представлять собой трудную задачу. Однако эти инвестиции должны быть сделаны для того, чтобы
предотвратить постоянный цикл, в котором производятся изменения (используя процессы управления
Функция управления сервисом 46
End
или приложение, что позволяет обсуждать затруднения и общее знание совместно с персоналом
поддержки из других организаций, которые работают с такими же продуктами.
Примечание, касающееся технологии. Некоторые инструментальные средства группы поддержки позволяют прикреплять к
регистрационным записям инцидентов электронное доказательство типа файлов регистрации, регистрационных записей событий
или журналов заданий. Персонал, работающий с инцидентом, может открывать приложенные документы непосредственно из
регистрационной записи инцидента, вместо того, чтобы искать их.
После того, как возможный обходной путь или решение были идентифицированы, их необходимо
протестировать вдали от реальной среды, если это возможно. В прошлом слишком часто возникала
такая ситуация, когда изменения, реализуемые для решения одного инцидента, приводили к множеству
других инцидентов. Во избежание этого персонал поддержки должен тестировать предложенные обходы
или решения настолько всесторонне, насколько это возможно, и затем передавать любые необходимые
изменения конфигурационной единицы (CI) для реализации через процессы управления изменениями и
управления релизами.
Если тестирование демонстрирует, что предложенное решение работать не будет, то должны
продолжиться процессы исследования и диагностики, которые должны осуществляться до тех пор, пока
не будет идентифицировано успешное решение. Если тестирование прошло успешно, то решение может
быть подвергнуто процессу разрешения и восстановления.
В любое время в течение исследования и диагностики инцидента может возникнуть необходимость
объявления серьезного инцидента. Серьезные инциденты - это инциденты с высокой или потенциально
высокой степенью воздействия, требующие реакции, которая лежит за рамками, установленными для
"обычных" инцидентов. Как правило, такие инциденты требуют координации по всей компании,
эскалации управления, мобилизации дополнительных ресурсов и усиленных связей. Несмотря на то, что
инцидент может подозреваться как "серьезный" при первоначальном его обнаружении, персонал
поддержки должен подтвердить его рамки и степень воздействия прежде, чем будет инициализирована
процедура по серьезным инцидентам. Инциденты, подозреваемые как "серьезные", должны
регистрироваться с высоким приоритетом и уведомлением соответствующей группы решения так, чтобы
она могла как можно быстрее подтвердить рамки и степень воздействия.
Организации должны документировать критерии, в соответствии с которыми они идентифицируют
серьезные инциденты. Например, банк, занимающийся обслуживанием мелкой клиентуры, может
считать, что любой инцидент, воздействующий на нормальный сервис в 20 или более филиалах, должен
классифицироваться как серьезный инцидент. Подозреваемые серьезные инциденты должны
помечаться для дежурного менеджера инцидентов, который отвечает за принятие решения о
необходимости инициализации процедуры по серьезным инцидентам на основании доказательств и
после консультации с соответствующими сторонами.
Во время серьезных инцидентов процесс исследования, диагностики, разрешения, восстановления и
закрытия все еще продолжается. Однако процедура по главным инцидентам следит за этими действиями
и обеспечивает повышенные координацию, ресурсы и связь.
Если инцидент не является серьезным инцидентом, то он может все еще нуждаться в некоторой форме
эскалации. Эскалация - это механизм, помогающий разрешать инцидент в пределах согласованных
целей сервиса. Существуют две формы эскалации: эскалация управления, или иерархическая
эскалация, и эскалация функциональных возможностей.
Эскалация управления, или иерархическая эскалация, может выполняться на любой стадии в течение
жизненного цикла инцидента, если предполагается, что инцидент не будет решен удовлетворительно или
вовремя. Персонал службы поддержки и групп решения отвечает за расширение инцидента до
управления, как только становится вероятным неудовлетворительное или несвоевременное решение.
Эскалация должна инициализироваться как можно скорее, с тем, чтобы у управления оставалось время
на оценку ситуации и осуществление корректирующего действия. Корректирующие действия могут
использоваться для назначения дополнительных ресурсов или поиска специализированных навыков
откуда-либо, как внутри организации, так и вне ее.
На протяжении жизненного цикла инцидента также должна рассматриваться потребность в эскалации
функциональных возможностей. Эскалация функциональных возможностей касается передачи
инцидента другому персоналу поддержки, который лучше оснащен для продвижения инцидента и
достижения разрешения в пределах согласованных целей сервиса. В ярусной структуре поддержки это
действие может включать в себя передачу инцидента от группы второй линии группе третьей линии; а в
структуре на основе платформы это может являться назначением более опытному персоналу в пределах
группы или же назначения другой группе, поскольку категория инцидента отличается от категории,
предполагаемой вначале. Эскалация функциональных возможностей также включает в себя
рассмотрение инцидента с внешними ресурсами поддержки и поставщиками.
Все действия по эскалации должны регистрироваться в регистрационной записи инцидента.
Примечание, касающееся технологии. Инструментальные средства группы поддержки позволяют осуществлять автоматическую
эскалацию на основе затраченного или оставшегося времени, пока не будут достигнуты цели сервиса. Время эскалации должно
Функция управления сервисом 48
быть тщательно спланировано, так, чтобы не были превышены цели уровня сервиса. Нижним ярусам поддержки необходимо
предоставить разумное время для разрешения инцидентов, с тем, чтобы уменьшить воздействие на более дорогостоящие ресурсы
“верхнего яруса”.
Организации могут принимать решение по внедрению автоматического управления и эскалации функциональных возможностей,
основываясь на факторах времени. Автоматические действия во многих случаях могут просто включать в себя уведомление
соответствующих лиц о том, что для определенного инцидента должна осуществляться эскалация, с тем, чтобы они могли
предпринять соответствующие действия. Инструментальные средства могут остановить “часы эскалации”, если инцидент
находится в определенном состоянии, например, “ожидает доказательства”, если персонал поддержки запросил дополнительную
информацию и ожидает контакта для ее предоставления, или же "разрешен", когда инцидент считается разрешенным, но
аналитики поддержки ожидают подтверждения этого от инициатора перед закрытием запроса. В таких случаях, когда прогресс
зависит от инициатора, “часы эскалации” могут быть остановлены. Однако менеджер по инцидентам должен следить за тем, что
персонал поддержки не “использует систему”, запрашивая дополнительные "трудные для получения" доказательства, с тем, чтобы
увеличить время, в течении которого он должен исследовать проблему.
Функция управления сервисом 49
Подписи к рисунку:
G
New major incident? - Новый серьезный инцидент?
Existing major incident - Существующий серьезный
инцидент?
Yes - Да
New major Yes Flag to duty No - Нет
incident? Incident Manager
Restoration team review due? - Необходима
проверка группой восстановления?
No
Existing Perform management review - Выполнение
major incident
управлением проверки
Assess suspected Perform management escalation - Выполнение
Restoration Yes major incident
team review
Restoration team управлением эскалации
review meeting
due? Issue agreed progress statements - Составление
согласованных заявлений по прогрессу
No
Duty Incident
Management team review due? - Необходима
Is this a major No Manager to проверка группой управления?
Perform Yes
incident monitor situation at Management escalation? - Эскалация управления?
Management regular intervals
management
team review
Review and Update communications plan and agree progress
review update restoration
due?
plan
Yes statements - Обновление плана связей и
согласование заявлений по прогрессу
No
H Change allocated resources? - Изменение
Issue initial
notifications назначенных ресурсов?
Perform
Investigation and Investigation and Diagnosis - Исследование и
Management Diagnosis
management
escalation? Issue restoration диагностика
escalation
Yes team progress Restoration team review meeting - Обзорное
report
собрание группы восстановления
No Assign major Confirm facts and Review and update restoration
incident manager build team
plan - Обзор и обновление плана восстановления
Update Issue restoration team progress
communications report - Составление отчета о прогрессе группы
plan and agree
progress восстановления
statements Agree
Hold planning Allocate /direct required resources - Распределение
communication
plan
meeting требуемых ресурсов и управление ими
Flag to duty Incident Manager - Уведомление
дежурного менеджера по инцидентам
Issue agreed Change Yes Allocate / direct Assess suspected major incident - Оценка
progress allocated
statements resources?
required resources сомнительного серьезного инцидента
Agree restoration
plan Is this a major incident - Это серьезный инцидент?
No Issue initial notifications - Выдача начальных
уведомлений
I Assign major incident manager - Назначение
менеджера по серьезным инцидентам
Investigation and Agree communication plan - Согласование плана
Diagnosis связей
Agree restoration plan - Согласование плана
восстановления
Duty Incident Manager to monitor situation at regular
intervals - Менеджер по инцидентам должен
регулярно контролировать ситуацию
Investigation and Diagnosis - Исследование и
диагностика
Confirm facts and build team - Подтверждение
фактов и создание группы
Hold planning meeting - Проведение собрания по
планированию
Рисунок 20. Блок-схема процедуры по серьезным инцидентам
Процедура по серьезным инцидентам предлагает дополнительно координацию по всей компании,
ресурсы, вовлечение управления и связь в тех случаях, когда воздействие или потенциальное
воздействие инцидента требует реакции, выходящей за рамки той, которая обеспечивается процедурами
управления обычными инцидентами.
Функция управления сервисом 51
восстановления, с тем, чтобы они могли видеть то, что было до этого, и по каким действия они и другие
ресурсы должны воздействовать теперь.
Менеджер по серьезным инцидентам должен гарантировать, что любые необходимые договоренности
относительно перемещения разрешены для персонала поддержки.
После того как только процедура по серьезным инцидентам начнет реализовываться, планы будут
согласованы, а ресурсы распределены, необходимо выполнить стандартное исследование жизненного
цикла инцидента, диагностику, разрешение, восстановление и закрытие. Отличие от главного инцидента
состоит в том, что инцидентом владеет менеджер по серьезным инцидентам, который и координирует
инцидент, а планы восстановления и координации регулярно проверяются и поддерживаются на всем
жизненном цикле инцидента.
Группа восстановления должна регулярно проводить обзорные собрания, с тем, чтобы обсудить
прогресс, обновить план восстановления и выпустить отчет о достигнутых результатах группы
восстановления. Менеджер по серьезным инцидентам может посещать некоторые, но не обязательно
все, обзорные собрания. Интервал между обзорными собраниями должен меняться в зависимости от
объема деятельности. Например, в течение интенсивной фазы исследования собрания должны
проводиться чаще, чем в течение более позднего периода, когда персонал просто ожидает
подтверждения того, что действия по разрешению оказались успешными.
Также должны проводиться регулярные собрания группы управления, для того чтобы держать все
стороны информированными, обсуждать прогресс и решать, когда требуется эскалация управления.
Менеджер по серьезным инцидентам должен способствовать проведению всех собраний группы
управления по прогрессу. И снова, интервал между обзорными собраниями должен меняться согласно
уровню деятельности.
В течение серьезного инцидента может возникнуть необходимость выполнения эскалации управления.
Если инцидент становится более критическим, а у партнеров и клиентов осуществляется эскалация
управления, то необходимо расширить понимание инцидента по цепочке управления. Нужно избегать
таких ситуаций, когда старший менеджер или директор первыми узнают об инциденте от своих коллег в
организации партнера или клиента.
Если имеет место эскалация управления или изменение членов группы восстановления, то должен
регулярно обновляться план связи. Менеджер по серьезным инцидентам ответственен за соглашение
или за получение соглашения для всех заявлений обновления связи перед их выпуском.
С прогрессированием серьезных инцидентов менеджер по серьезным инцидентам должен гарантировать
размещение, распределение и координацию любых дополнительных требований к ресурсам.
Некоторые серьезные инциденты могут требовать использования бизнес-сообщества организации и
планов непрерывности сервиса. Необходимо рассмотреть, как сотрудничают между собой процедура по
серьезным инцидентам и планы непрерывности сервиса и где определены обязанности. Во время
серьезного инцидента менеджер по серьезным инцидентам должен принять решение о том, когда
необходимо привлечь план непрерывности сервиса, и нужно ли это делать вообще, с тем, чтобы
восстановить сервис или сохранить доказательство в случае злоумышленного намерения.
Функция управления сервисом 55
Разрешение и восстановление
На приведенном ниже рисунке показана блок-схема процесса разрешения и восстановления.
Подписи к рисунку:
Perform recovery actions -
E Problem Выполнение действий по
Management In the case of a major восстановлению
incident, the major incident RFC required? - Требуется RFC?
process continues to
coordinate restoration and
Yes - Да
communications No - Нет
throughout the resolution Perform resolution actions -
and recovery phase. Выполнение действий по
разрешению
Yes
Resolution successful? - Решение
RFC required? Raise RFC успешно?
Is recovery required? - Требуется ли
восстановление?
No
Closure - Закрытие
Problem Management - Управление
проблемами
Change Raise RFC - Выдача RFC
Perform resolution Change (and Release) Management
(and Release)
actions
Management - Управление изменениями (и
релизами)
Change implemented correctly? -
Изменение выполнено правильно?
Inform change management whether
any RFCs should be backed out -
Информирование управления
Change изменениями о том, должны ли
Resolution No No Major Incident какие-либо RFC быть отклонены
implemented
successful? Process
correctly? Investigation and Diagnosis -
Исследование и диагностика
Yes Yes
In the case of a major incident, the
major incident process continues to
Perform recovery Inform change
coordinate restoration and
actions management communications throughout the
whether any RFCs resolution and recovery phase - В
should be backed случае серьезного инцидента
Is recovery out процесс по серьезным инцидентам
Yes required? продолжает координировать
восстановление и связь на стадии
разрешения и восстановления
No
Major Incident Process - Процесс по
серьезным инцидентам
F
C
Investigation and
Diagnosis
Closure
Действия по разрешению - это действия, которые должны быть предприняты для того, чтобы разрешить
непосредственную причину инцидента, например, замена неисправного жесткого диска или установка
заплат в приложение базы данных для предотвращения повреждения таблицы.
Действия по восстановлению - это действия, которые все еще должны предприниматься, как только
действия по разрешению будут завершены, а все компоненты вернутся в нормальное рабочее
состояние. В случае повреждения жесткого диска действие по разрешению заключается в замене диска,
что решает причину инцидента. Однако все еще требуется действие по восстановления, заключающееся
в восстановлении содержания диска. Для приложения базы данных применение заплатки является
действием по разрешению, которое разрешает инцидент; при этом все еще необходимы действия по
восстановлению для возврата данных к непротиворечивой точке и рестарта сервиса базы данных. В
зависимости от инцидента, действия по разрешению и восстановлению, возможно, должны выполняться
разными группами.
Инциденты могут перемещаться в стадию разрешения и восстановления из-за обходного пути или
решения, идентифицируемых в фазе исследования и диагностики, или же вследствие обнаружения
управлением проблемами обходного пути или решения проблемы, которая имела один или несколько
нерешенных инцидентов, связанных с ней. Для последнего сценария управление проблемами отвечает
за идентификацию и проверку обходного пути проблемы или же за разрешение и последующую передачу
информации управлению инцидентами. Управление инцидентами отвечает затем за выполнение
разрешения, восстановления и закрытие всех инцидентов, связанных с регистрационной записью
проблемы.
После идентификации действий по разрешению персонал управления инцидентами часто должен
обращаться к процессу управления изменениями для выполнения любых изменений, требуемых для
решения инцидента. Это гарантирует, что изменения надлежащим образом проверяются и
регистрируются, и что учитываются планы возврата. Управление инцидентами должно контролировать
прогресс действий по разрешению через процессы управления изменениями и релизами.
Некоторые инциденты могут разрешаться без необходимости использования RFC. Часто они
представляют собой процедурные проблемы, в которых инцидент возникал из-за “человеческой ошибки”
или неправильного следования процедур.
После выполнения действий по разрешению, управление инцидентами будет отвечать за подтверждение
того, что действия по разрешению были успешными. Если действия не были успешными, то первое, что
необходимо сделать - это проверить, что все изменения были осуществлены правильно. Если
обнаруживается, что изменения были выполнены неправильно, то должен использоваться процесс
управления изменениями для отмены неправильных изменений и планирования нового выполнения.
Если любые RFC были выполнены правильно, но инцидент не был разрешен, то инцидент должен быть
возвращен в процесс диагностики и исследования. Используя процесс управления изменениями
персонал управления инцидентами должен решить, должны ли осуществленные изменения быть
отменены. Во многих случаях осуществленные изменения, возможно, не потребуют отмены, поскольку
они являются полезными. Например, для опробования и разрешения определенного инцидента можно
было бы использовать последний пакет обновления. Если бы это действие не разрешило определенный
намеченный инцидент, то было бы разумно сохранить последний пакет обновления, поскольку это
должно разрешить или предотвратить другие инциденты.
После того, как действия по разрешению будут успешно осуществлены, должны быть выполнены любые
действия по восстановлению. Эти действия по восстановлению часто включают в себя обеспечение того,
чтобы сервис снова стал доступным для пользователей после разрешения инцидента. Действия по
восстановлению должны выполняться до тех пор, пока сервис не восстановится в нормальное
состояние.
Если рассматриваемый инцидент был обработан как серьезный инцидент, то должна продолжаться
процедура по серьезным инцидентам наряду с процессом разрешения и восстановления, обеспечивая
повышением уровня координации, связи и планирования.
После выполнения действий по разрешению и восстановлению регистрационная запись инцидента
должна быть помещена в "разрешенное" состояние и назначена аналитикам службы поддержки,
ответственным за подтверждение разрешения вместе с инициатором.
Примечание, касающееся технологии. Интегрированные наборы инструментальных средств управления сервисом, которые
позволяют осуществлять интеграцию базы данных управления конфигурации (CMDB) с сервисными запросами, регистрационными
записями инцидента, регистрационными записями проблемы, известными ошибками, адресатами уровня сервиса и RFC,
предоставляют организациям важный инструмент для поддержания их инвестиций в процессы управления сервисом.
Уровень интеграции, обеспечиваемый этими инструментальными средствами, позволяет извлекать максимальную выгоду от
управления сервисом. Хотя SMF MOF могут внедряться по отдельности, выгоды могут быть реализованы более полно через более
широкое внедрение, принося интегрированный набор процессов, которые поддерживают и усиливают друг друга.
Функция управления сервисом 58
Инструментальные средства могут позволить персоналу управления инцидентами использовать RFC, связанные или
ассоциируемые с регистрационными записями инцидента, позволяя отслеживать прогресс через отдельный интерфейс вместо
того, чтобы входить в многочисленные приложения и повторно вводить основную информацию.
Функция управления сервисом 59
Закрытие
На приведенном ниже рисунке показана блок-схема процесса закрытия.
In the case of a major Подписи к рисунку:
incident, the major incident Ensure incident details fully updated - Обеспечение
process continues to полного обновления информации об инциденте
C
coordinate restoration and Suspect this is a new problem or known error? -
communications Подозревается, что это - новая проблема или
throughout the resolution
известная ошибка?
and recovery phase.
Yes - Да
No - Нет
Ensure incident Assign closure category - Назначение категории
details fully закрытия
updated Customer confirms resolution? - Заказчик
подтверждает разрешение?
Was this a major incident? - Это был серьезный
инцидент?
Close incident - Закрытие инцидента
Liaise with problem
Suspect this is a management to Liaise with problem management to create problem
new problem or create problem or or known error record where appropriate -
known error? Yes known error record Поддержание связи с управлением проблемами
where appropriate для создания регистрационной записи проблемы
или известной ошибки, если это возможно
No Update incident details - Обновление информации
об инциденте
Investigation and Diagnosis - Исследование и
Assign closure диагностика
category Flag to problem management for review -
Уведомление управления проблемами для
проверки
In the case of a major incident, the major incident
process continues to coordinate restoration and
Major Incident communications throughout the resolution and
Customer Process
Update incident recovery phase. - В случае серьезного инцидента,
confirms
details процесс по серьезным инцидентам продолжает
resolution? No
координировать восстановление и связь на
Yes
стадии восстановления и разрешения.
Major Incident Process - Процесс по серьезным
инцидентам
F
Investigation
and Diagnosis
No
Close incident
Очень важно, чтобы список категорий закрытия был всесторонним и поддерживался надлежащим образом. Если персонал не
может найти категорию закрытия, соответствующую инциденту, с которым он имеет дело, то у персонала может быстро возникнуть
привычка выбора случайной категории, только для того чтобы инцидент мог быть закрыт. Поэтому поле категории закрытия не
должно иметь значения по умолчанию. Может быть задана категория закрытия “соответствующая категория отсутствует”, для того,
чтобы дать персоналу выбор на случай, когда он не может выявить категорию закрытия, соответствующую инциденту. Во
избежание использования такой категории, как всеобъемлющей, все случаи ее применения должны детально рассматриваться.
Для менеджера по инцидентам персонала управления проблемами может генерироваться сообщение, информирующее о том, что
была выбрана опция “соответствующая категория отсутствует”. Каждый такой случай должен быть исследован и должно быть
предпринято соответствующее действие для того, чтобы определить новую категорию или сообщить соответствующему персоналу
о категории закрытия, которая должна использоваться.
Ситуация должна находиться под контролем, с тем, чтобы категории закрытия применялись надлежащим образом.
Наконец, функция службы поддержки состоит в выполнении "независимой" проверки, для того, чтобы
подтвердить, что инициатор удовлетворен полученной поддержкой и соглашается с тем, что инцидент
был разрешен. Эта проверка предотвращает ситуации, когда инициаторы обращаются для проверки
прогресса по инциденту, который все еще затрагивает их, а им сообщается о том, что инцидент был
закрыт, потому что персонал поддержки посчитал, что разрешил его. Подобные ситуации ставят в
неудобное положение не только организацию поддержки, но также оказывают очень плохое влияние на
удовлетворение клиента.
Аналитики службы поддержки должны контролировать инциденты, помещаемые в разрешенное
состояние, и связываться с инициатором для подтверждения разрешения. В зависимости от числа
существовавших инцидентов, проверка может быть выполнена по телефону или по электронной почте.
Часто может использоваться комбинация этих способов - с использованием общения по телефону для
первоочередных инцидентов и критических или чувствительных сервисов, и применением электронной
почты для стандартных, повседневных инцидентов и пользователей, с которыми трудно связаться по
телефону.
Функция управления сервисом 62
Примечание, касающееся технологии. После завершения действий по разрешению и восстановлению, регистрационные записи
инцидента должны быть установлены в состояние "разрешенный".
Инструментальные средства могут быть сконфигурированы таким образом, чтобы автоматически послать по электронной почте
письмо (с использованием стандартного шаблона сообщения, направляемого по электронной почте) инициаторам инцидента, как
только их инцидент будет помещен в состояние "разрешенный". Направляемые по электронной почте сообщения должны
содержать регистрационный номер инцидента, зарегистрированные дату и время, а также краткое описание симптомов инцидента,
полученных при начальной регистрации. В письме должно указываться, что инцидент в настоящее время считается разрешенным,
но если дело обстоит не так, или же если инициатор неудовлетворен разрешением, то он может либо ответить по электронной
почте, либо обратиться в службу поддержки по телефону. В письме также необходимо сообщить, что при отсутствии ответа в
пределах определенного периода времени (возможно, несколько недель, для того чтобы охватить случаи, когда инициатор,
например, находится в отпуске), то инцидент будет закрыт. Инструмент должен автоматически закрывать инцидент в случае
отсутствия ответа к концу указанного периода.
Инструментальные средства должны автоматически уведомлять управление проблемами о любых инцидентах, которые были
отмечены как серьезные инциденты. Это без труда может осуществляться посредством электронной почты.
Если инициатор сообщает о том, что инцидент не был разрешен удовлетворительно, то аналитик службы
поддержки должен обновить регистрационную запись инцидента, включая приоритет, если он теперь
является другим, и затем или переназначить инцидент группе решения или осуществить эскалацию
инцидента. Возникают ситуации, когда персонал поддержки сделает все, что он в состоянии сделать
своими текущими ресурсами, но инициатор все еще остается не удовлетворенным ситуацией. Проблемы
производительности являются типичным примером этого, когда инициатор неудовлетворен временем
ответа, но любые корректирующие меры, выполняемые персоналом поддержки, вносят лишь небольшие
отличия или же не дают их вовсе, поскольку критическим параметром является текущая сетевая
инфраструктура и для улучшения ситуации необходимы значительные инвестиции. В этом случае мало
что можно получить от возвращения инцидента группе решения, и аналитик службы поддержки должен
вместо этого расширить инцидент либо до ответственного менеджера сервиса, если таковой имеется,
либо непосредственно до управления проблемами. Очевидно, что это случай, когда может помочь
наличие согласованных адресатов сервиса для времени ответа, когда их достижимость фактически
должным образом установлена до их согласования.
В случае серьезных инцидентов, параллельно процессу закрытия должна выполняться процедура по
серьезным инцидентам, гарантируя расширенные уровни координации, связи и планирования.
Управление проблемами должно быть уведомлено о том, когда закрываются серьезные инциденты,
поскольку оно отвечает за проведение проверок для установления первопричины и возможности другой
обработки инцидента. Управление проблемами должно пытаться идентифицировать, как
воспрепятствовать повторению таких или подобных инцидентов.
Функция управления сервисом 63
5
Роли и обязанности
Основные роли и связанные с ними обязанности для управления инцидентами были определены в
соответствии с лучшими методиками, принятыми в производстве. Организации, возможно, должны
комбинировать некоторые роли, в зависимости от своего размера, структуры и основных соглашений об
уровне сервиса, существующих между ИТ отделом и обслуживаемым бизнесом.
Важно помнить о том, что ниже приводятся описания ролей, а не работ.
Роли, требуемые в процессе управления инцидентами:
Менеджер по инцидентам
Аналитик службы поддержки
Менеджер по серьезным инцидентам
Специалист по поддержке
Менеджер по инцидентам
Роль менеджера по инцидентам включает в себя ответственность за непрерывное владение процессом
управления инцидентами, для гарантии последовательного прогресса всех инцидентов согласно
состоянию их приоритета. В противном случае, индивидуальные группы решения могли бы работать по
своим собственным приоритетам, приводя к дорогостоящему и неэффективному процессу поддержки.
Там, где непрерывные обзор и ответственность не существуют, организации могут ограничиваться
ярусами поддержки, работающими по своему собственному набору кодов приоритета и
запланированному времени разрешения без указания структуры относительно того, как инциденты
должны обрабатываться, обновляться или подвергаться эскалации. Часто это становится причиной
споров между группами, приводя к низкому удовлетворению клиента, увеличению расходов и
разочарованию персонала.
Во многих организациях роли менеджера по инцидентам и менеджера службы поддержки выполняет
один и тот же человек. Часто роль назначается лицам, ответственным за управление группами
поддержки первой линии или же первой и второй линии.
Для того чтобы инциденты могли подвергаться эскалации, когда это требуется, менеджер по инцидентам
всегда должен быть доступен в течение времени сервиса. Во время критических инцидентов, менеджер
по инцидентам ответственен за принятие решения о необходимости инициализации процедуры по
серьезным инцидентам.
Менеджер по инцидентам должен также отвечать за контроль выполнения процесса управления
инцидентами и стремиться постоянно улучшать процесс.
Основные обязанности менеджера по инцидентам включают в себя:
Управление производительностью и эффективностью процесса управления инцидентами.
Составление информации по управлению.
Возможность управлять работой персонала поддержки первой и второй линии.
Разработку и поддержку системы управления инцидентами.
Операционная система
Аппаратные средства
Локальная сеть
Средства
Выход
Для каждого уровня предусмотрена роль технического специалиста по поддержке, который является
ответственным за участие в группе решения всякий раз, когда инцидент связан с данным уровнем.
Специалисты по поддержке также активно вовлечены в идентификацию проблем и известных ошибок.
Для решения различных типов проблем и известных ошибок в ИТ организации могут быть
задействованы многочисленные индивидуальные группы. Эти “группы решения” должны иметь свою
очередь в инструменте управления проблемами, которому назначены проблемы, требующие их
специальных знаний. Не все группы решения будут чисто "техническими" группами, но все они могут
выполнять некоторую форму функции экспертной поддержки. Примерами "нетехнических" групп решения
могли бы являться процедурные эксперты или группы, ответственные за обучение, обработку RFC или
обработку запросов для изменения согласованных уровней сервиса. Персонал в этих группах
осуществляет экспертную поддержку. Не обязательно весь персонал экспертной поддержки является
внутренним, поскольку множество групп решения могут быть сформированы внешними поставщиками.
Персонал, выполняющий роль поддержки проблемы, вряд ли будут иметь всестороннее знание всех
областей в пределах ИТ инфраструктуры, тем более, что продолжают появляться новые технологии.
Персонал, занимающийся экспертной поддержкой, ответственен за использование знаний специалистов
для содействия управлению проблемами в исследовании и решении проблем.
Если действия по разрешению идентифицированы, то персонал экспертной поддержки должен
выполнить эти действия под контролем процессов управления изменениями и релизами. После
достижения разрешения, данный персонал должен обновить регистрационную запись проблемы и
возвратить ее персоналу поддержки проблемы для закрытия.
Группы экспертной поддержки должны также стараться идентифицировать основные проблемы и
уведомлять о них управление проблемами.
В представленной ниже таблице приведены обязанности технических специалистов по поддержке.
Таблица 7 - Обязанности технических специалистов по поддержке
Роль Основные обязанности
Технический Обработка сервисных запросов.
специалист по
поддержке Контроль деталей инцидента, включая затронутые конфигурационные
приложений единицы.
Исследование и диагностика инцидентов и проблем (включая их разрешение,
где это возможно).
Обнаружение возможных проблем и уведомление управления проблемами.
Разрешение и восстановление назначенных инцидентов.
Работа в качестве члена группы восстановления, если это требуется во
время серьезных инцидентов.
Выполнение действий по исправлению известных ошибок.
Технический Обработка сервисных запросов.
специалист по
поддержке Контроль деталей инцидента, включая затронутые конфигурационные
связующего единицы.
программного
обеспечения Исследование и диагностика инцидентов и проблем (включая их разрешение,
где это возможно).
Обнаружение возможных проблем и уведомление управления проблемами.
Разрешение и восстановление назначенных инцидентов.
Работа в качестве члена группы восстановления, если это требуется во
время серьезных инцидентов.
Выполнение действий по исправлению известных ошибок.
Функция управления сервисом 66
единицы.
Исследование и диагностика инцидентов и проблем (включая их разрешение,
где это возможно).
Обнаружение возможных проблем и уведомление управления проблемами.
Разрешение и восстановление назначенных инцидентов.
Работа в качестве члена группы восстановления, если это требуется во
время серьезных инцидентов.
Выполнение действий по исправлению известных ошибок.
Выполнение запросов конечных пользователей на восстановление данных.
Функция управления сервисом 68
6
Связь с другими SMF
SMF "Управление инцидентами" связана в архитектуре MOF со многими описанными ниже SMF.
Служба поддержки
Служба поддержки исполняет роль исходного шлюза для многих ИТ процессов, включая процесс
управления инцидентами. В отношении многих других ИТ процессов служба поддержки просто передает
к ним запросы; однако для процесса управления инцидентами связь между службой поддержки и
процессом управления инцидентами намного теснее.
Служба поддержки действует в качестве интерфейса между бизнесом и ИТ, и, в этом случае, между
бизнесом и процессом управления инцидентами.
Менеджер службы поддержки ответственен за повседневную координацию процесса управления
инцидентами. Служба поддержки выполняет регистрацию, классификацию и начальную поддержку
управления инцидентами. После того как инциденты будут назначены группе решения, служба
поддержки сохраняет за собой ответственность, осуществляя мониторинг и отслеживание всех
инцидентов.
Если служба поддержки функционирует успешно, то многие сервисные запросы и инциденты могут быть
обработаны и решены без выхода за пределы деятельности службы поддержки.
Служба поддержки является ключевым компонентом в отношении удовлетворения клиента процессом
управления инцидентами.
Управление проблемами
Управление проблемами и управление инцидентами тесно связаны друг с другом, но они сосредоточены
на разных полюсах в организации поддержки.
В то время как управление инцидентами сфокусировано на как можно более быстром восстановлении
нормального сервиса, управление проблемами сосредоточено на идентификации и разрешении
основных проблем и их первопричин.
Управление инцидентами предоставляет управлению проблемами большое количество информации,
требуемой для идентификации существования основных проблем. Управление проблемами анализирует
статистику по инцидентам для идентификации появления многократных инцидентов или тенденций
роста для определенных типов инцидентов.
В свою очередь, управление проблемами стремится разрешить основные причины этих инцидентов, для
того чтобы предотвратить их повторное появление.
Управление проблемами сохраняет также информацию о существующих проблемах и известных
ошибках, включая известные обходные пути и решения. Управление инцидентами использует эту
информацию для обеспечения более быстрого разрешения инцидентов.
Управление проблемами ответственно также за оценку серьезных инцидентов после их разрешения.
Цель таких оценок состоит в том, чтобы идентифицировать основные причины, предотвратить любое
повторное появление, идентифицировать механизмы запуска, которые могут использоваться для
раннего обнаружения любого повторного появления, а также идентифицировать, насколько хорошо был
обработан инцидент, с тем, чтобы улучшить будущие реакции.
Функция управления сервисом 71
Управление изменениями
Если управление инцидентами идентифицирует действия по разрешению, которые требуют изменений
конфигурационных единиц, то эти изменения осуществляются под контролем процесса управления
изменениями.
Контроль, обеспечиваемый процессом управления изменениями, сокращает количество изменений,
которые должны быть возвращены, и гарантирует документирование планов возврата в том случае, если
они требуются. Координированное тестирование изменений снижает шанс на последующие инциденты,
вызванные выполнением изменений.
Управление изменениями также предоставляет управлению инцидентами полезную информацию
относительно последних изменений, затронутых конфигурационных единиц и причин для изменений.
Управление конфигурациями
Управление конфигурациями предоставляет важную информацию, используемую в течение процесса
управления инцидентами. База данных управления конфигурациями (CMDB) содержит информацию,
которая может использоваться для:
Обеспечения и проверки информации об инициаторе запроса.
Предоставления информации относительно конфигурационных единиц (CI).
Содействия классификации инцидентов, посредством индикации сервисов и SLA, на которые
воздействует проблема конкретных CI.
Идентификации отношений и зависимостей между CI.
Идентификации идентичных или подобных CI с целью сравнения.
Идентификации альтернативных маршрутов и обходных путей.
Регистрации изменений конфигурационных единиц из-за RFC.
Управление релизами
Некоторые действия по разрешению, идентифицируемые управлением инцидентами, требуют
выполнения изменений, которые должны внедряться и развертываться как релизы. Эти релизы
координируются и управляются процессом управления релизами.
Аналогично управлению изменениями, управление релизами обеспечивает эффективное планирование,
тестирование и координацию, которые гарантируют, что эти релизы будут развертываться при
минимальных инцидентах.
Управление мощностью
Управление мощностью помогает управлению инцидентами обеспечивать достаточную мощность для
инструментальных средств службы поддержки, инструментальных средств диагностики инцидентов и
средств самообслуживания.
Функция управления сервисом 72
Управление доступностью
Управление доступностью интересуется воздействием инцидента на доступность сервиса. Управление
инцидентами предоставляет информацию относительно числа и продолжительности перерывов сервиса,
включая их причину и действия, предпринятые для разрешения этой проблемы.
Управление доступностью стремится уменьшить воздействие и вероятность будущих перерывов
сервиса, предпринимая меры по предотвращению и смягчению воздействия.
Администрирование безопасности
Администрирование безопасности связывается с процессом управления инцидентами для гарантии
существования процедур обработки инцидентов безопасности. Эти процедуры стремятся обеспечить
быструю реакцию на любые связанные с безопасностью инциденты, гарантируя также сохранение
доказательств в тех случаях, когда подозревается злоумышленное намерение.
Администрирование безопасности предоставляет рекомендации по типу и характеристикам
доказательства, требуемого для юридических и дисциплинарных разбирательств.
Администрирование безопасности также проводит оценку всех инцидентов безопасности с целью
предотвращения их повторного появления.
Приложения
Приложение A: Используемые технологии
Все скриншоты, используемые в настоящем документе, за исключением примера базы знаний, взяты из
приложения управления сервисом Redbox FOX IT, которое объединяет функции управления
конфигурациями, управления изменениями, службы поддержки, управления инцидентами, управления
проблемами и управления операциями для содействия организациям в обеспечении поддержки
мирового класса своим ИТ службам.
Скриншот базы знаний взят из приложения поддержки Microsoft TechNet.
Функция управления сервисом 74
Регистрационный
идентификационный номер
инцидента
Дата/время возникновения
инцидента
Дата/время регистрации инцидента
Дата/время объявления о серьезном
инциденте
Контактная информация об
инициаторе
Состояние инцидента
Основной затронутый сервис
Краткое описание инцидента
Функция управления сервисом 75
В этом разделе представлено полное описание воздействия, затронутых сервисов, адресатов сервиса,
находящихся под угрозой / имеющих нарушения, а также соответствующих предельных сроков.
Описание воздействий
Главное
контактное
лицо (лица)
по бизнесу
Руководитель
(и) группы
восстановлен
ия
Персонал
группы
восстановлен
ия
Дополнительн
ые
контактные
лица
Функция управления сервисом 77
Исследование инцидента
Заявление об описании инцидента
Данный раздел включает в себя заявление о том, какие затруднения испытываются в настоящее время.
Это заявление может расширяться с получением дополнительной информации об инциденте.
Информация об инциденте
В этом разделе приводится подробная информация об инциденте, включающая в себя:
Симптомы.
Затронутые/вовлеченные конфигурационные единицы.
Описания сервисов.
Любые уместные диаграммы, отображающие сетевую инфраструктуру/поток данных.
План действий
В этом разделе должна содержаться подробная информация по действиям, которые
планируются на основании идей, указанных в предыдущем разделе. Действиям должны быть
присвоены приоритеты на основе оценок вероятности.
Действие Назначенный Запланированная Дата/время Состояние
персонал дата/время для завершения
действия действия
Законченные действия
После завершение запланированных действий они должны быть зарегистрированы в этом
разделе, а в невыполненный план действий должны быть добавлены любые последующие
идентифицированные действия.
Действие Назначенный Дата/время Результаты
персонал завершения
действия
Последующая оценка
Этот раздел должен использоваться для документирования даты, времени и места последующей
оценки группы восстановления, включая любую информацию, например, инструкции по
проведению совместной телеконференции.
Дата
Время
Место
Функция управления сервисом 80
Дополнительная информация
Функция управления сервисом 81