Paylate
DevOps-инженер · Москва
Пришёл на позицию инженера по сопровождению инфраструктуры, но масштаб задач быстро вышел за рамки типового DevOps. Первое, что я сделал — понял, что у нас нет единого окна в инфраструктуру: Zabbix показывает одни метрики, Docker — другие, логи Camunda 8 разбросаны по разным системам, а чтобы понять, застрял ли бизнес-процесс в Zeebe, нужно лезть в три разные панели.
Я решил это, разработав собственную Internal Developer Platform. Веб-приложение на C# и Blazor, которое в реальном времени агрегирует состояние всех сервисов: системные метрики (CPU, RAM, Disk, Uptime), статус контейнеров, метрики оркестрации Zeebe/Camunda 8 — Process Cpu Time, RocksDB, Stream Processor, количество партиций, счётчиков и гаугов. Отдельный модуль отслеживает активные инстансы бизнес-процессов, застрявшие задачи и инциденты. Ещё один — агрегирует логи с фильтрацией по компонентам и уровням критичности. Всё это в одном интерфейсе для 50+ инстансов.
Параллельно стал единственным инженером за весь IT-ландшафт в Узбекистане. Полное управление облачной инфраструктурой в Yandex Cloud и VK Cloud: Camunda 8 (Zeebe, Operate, Tasklist), CRM, LMS, MLFlow для машинного обучения, RabbitMQ, Graylog, PostgreSQL и Elasticsearch. Среда смешанная — Ubuntu и Windows Server — с VPN и маршрутизацией между офисами и облаком. На мне лежал жизненный цикл баз данных, включая высоконагруженные инстансы MSSQL: бэкапы, оптимизация, безопасность данных для DWH и бизнес-приложений.
Отдельная история — миграция BackOffice на .NET 10 и React 18–19. Не просто апгрейд: при переходе всплыли критические конфликты зависимостей и несовместимости кастомных библиотек с новыми версиями React. Разработал полифиллы и прослойки совместимости, мигрировал зависимости на приватный реестр ProGet с аутентификацией, написал кастомные конвенции IModelFinalizingConvention для обхода проблем EF Core с MSSQL-триггерами и OUTPUT clause. Переработал пайплайны GitLab CI: починил интеграционные тесты, настроил Code Coverage через Cobertura и отчёты Allure, устранил проблемы с кэшированием и артефактами.
Для ускорения работы с инцидентами внедрил Kodacode — AI-ассистент для анализа логов, генерации кода инфраструктуры и отладки. Мониторинг и оповещения настроены через Zabbix с интеграцией в Telegram и MS Teams.
Kubernetes · Docker · GitLab CI/CD · C# · Blazor · PostgreSQL · MSSQL · Elasticsearch · Ansible · Yandex Cloud · VK Cloud · Zabbix · HashiCorp Vault · SonarQube · ProGet