Уровень компенсаций по SLA или не превращайте бизнес в «русскую рулетку»

6 Ноября 2015
Многие горячие головы предлагают устанавливать очень высокий уровень компенсаций за нарушение SLA, чтобы показать, что оператор играет всерьез и уж в этом ДЦ на бесперебойности не экономят ни денег, ни внимания руководства. Однако у реальных руководителей эта идея поддержки не находит. Если не холодный расчет, то, как минимум бизнес-интуиция удерживает их от этого. Попробуем разобрать, какие реальные резоны тут отражены.

Казалось бы, если оператор ДЦ назначит за аварийное отключение компенсацию сопоставимую с годовой платой, то для клиента это будет гарантией, что его партнер приложит все усилия для того, чтобы эксплуатация была бесперебойной. Но на практике это не работает.

Даже в самом хорошем ДЦ аварии случаются. Предположим, что системы нашего ДЦ имеют уровень надежности, допускающий примерно одну аварию за три года, что, в общем-то, соответствует реальной статистике хороших ДЦ. Эта авария может случиться и в первый год, и во второй, и в третий. К концу третьего года, скорее всего, наш  ДЦ заработает заметный доход, который позволит пережить выплату большой компенсации (о премиях, конечно, придется забыть). Но такая же авария на первом году станет реальной удавкой для бизнеса, выбив оборотные средства, включая эксплуатационный бюджет.

Более того, приняв аварии независимыми в смысле статистики, мы получим оценку вероятности двух аварий в течение первого года примерно в 1/9, что совсем не мало.

Если облака для вас
не просто теория
Широкий спектр услуг
по выделенным северам
и мультиклауд-решениям
Конфигурация VPS и бесплатный тест уже через 2 минуты
Организация вашей IT-инфраструктуры на основе мультиклауд-решения
Таким образом, назначая «разорительную» компенсацию мы получим следующее:

  1. Придется существенно поднять расценки, ведь рано или поздно компенсацию придется платить.
  2. Возникает значительный риск полного разорения оператора ДЦ. Для этого достаточно пары аварий подряд. И клиенту придется срочно переезжать  из закрывающегося ДЦ.
  3. Если случилась авария, то нужно найти ее причины и принять меры, чтобы не допустить повторения. Но меры, как правило, требуют расходов, а бюджет оператора получит сильнейший удар после выплаты большой компенсации. В результате ему придется экономить на техническом обслуживании.

Таким образом, обещать клиентам большую компенсацию оператору ДЦ не просто невыгодно, но и опасно. В то же время не очень понятно, что с этой компенсацией делать клиенту. Вряд ли солидная компания может заложить в свой бюджет строку «компенсация за аварию в ДЦ, вероятность 1/3».

В любом случае риск инфраструктурных сбоев будет ненулевым и не приходится ожидать, что бизнес стоимостью в десятки миллионов (типичный ДЦ) сможет полностью компенсировать соответствующие риски миллиардному бизнесу (типичный клиент финансового сектора).

Серьезному клиенту важен не объем компенсации, а свидетельства того, что риски возникновения сбоев находятся под контролем и принимаются адекватные меры для их минимизации. Для остаточного уровня риска должен быть оценен ожидаемый ущерб в условиях конкретной бизнес-модели клиента. Исходя из этой оценки клиент решает, принять этот риск, или его хеджировать (застраховать), или реализовать отказоустойчивую ИТ-систему, распределенную по нескольким ДЦ.

В любом случае стоит начать с проверяемых  свидетельств того, что деятельность осуществляется в управляемом режиме, а управленческие решения, относящиеся к поддержанию бесперебойности, базируются на реальных  фактах. Возможно, этот совет звучит несколько абстрактно, но на самом деле это стержень любой системы менеджмента качества, и его «приземление» и воплощение в является главными задачами руководителей на направлении системного обеспечения бесперебойности.

Автор: Начальник отдела управления проектами - Михаил Золотарев
Получить консультацию специалиста