Инцидент-менеджмент: как перестать бояться критов в продакшне

Коммуникация и процессы

Google Outlook Apple

Доклад принят в программу конференции

Целевая аудитория

Опытные разработчики и руководители, которые несут ответственность за функциональность, часто сталкиваются с необходимостью быстрого реагирования на непредвиденные, масштабные проблемы клиентов и критические ошибки. Для кого дорога цена неисправности, будь то финансовые потери или снижение лояльности пользователей.

Тезисы

Скачать презентацию Все презентации конференции

Ничто так не бодрит томными вечерами, как обнаружение крита в продакшне. В современном мире инциденты в IT-системах могут приводить к тяжелым последствиям, включая финансовые и репутационные потери. Доклад фокусируется на методах обнаружения, реагирования и предотвращения инцидентов, чтобы обеспечить стабильность и надежность сервисов.

В докладе мы ответим на ряд вопросов:
* как быстро находить неполадки, выявлять причины их возникновения и устранять их?
* какие технические и процессные решения позволят уменьшить количество инцидентов?
* нужно ли искать виноватых или можно найти другой путь решения проблем?
* можно ли прийти к надёжности постепенно?
* какие шаги в культуре и процессах можно предпринять для развития зрелого и надежного сервиса?

А также рассмотрим несколько примеров, в которых мы успешно (и не очень) применяли эти практики.

Дмитрий Чеканов

Яндекс

Руководитель группы разработки интерфейсов в Яндекс.Директе. Путем проб и ошибок пришел к тому, что душа лежит к продуктовой разработке. До работы в Яндексе не задумывался о полезности рекламы.

Яндекс

Яндекс — технологическая компания, которая создает инновационные продукты на основе машинного обучения и нейронных сетей. Команда талантливых математиков и программистов развивает самую популярную в России поисковую систему и более 85 пользовательских сервисов, которые помогают людям в повседневных заботах.

Видео

Мнение Программного комитета о докладе

Андрей Смирнов

Дмитрий в докладе поможет понять, как эффективно работать с инцидентами, повышая надежность сервисов, и с примерами покажет, как предотвратить потерю данных, репутации и денег. Вы узнаете, как быстро обнаруживать и устранять проблемы, минимизировать простои и улучшать процессы без поиска крайних.