Компетенции
Области специализации и ключевые навыки
Архитектура высоконагруженных систем
Высокая доступность
Построение систем с избыточностью компонентов. Multiple availability zones, replication, failover механизмы, health checks, automatic recovery.
Масштабирование
Горизонтальное и вертикальное масштабирование. HPA, VPA, Cluster Autoscaler в Kubernetes. Проектирование stateless-сервисов.
Отказоустойчивость
Circuit breakers, bulkheads, retries с exponential backoff. Chaos engineering для проверки устойчивости систем.
Микросервисы
Декомпозиция монолитов, bounded contexts, взаимодействие между сервисами (sync/async), управление данными.
CI/CD и автоматизация
Continuous Integration
Автоматическая сборка и тестирование. Статический анализ, unit/integration тесты, параллельное выполнение.
Continuous Delivery
Автоматическое развёртывание. Rolling update, blue-green, canary deployments. GitOps с ArgoCD.
Security в пайплайнах
Сканирование образов (Trivy, Snyk), SAST/DAST, проверка секретов, security gates перед деплоем.
Artifact Management
Управление Docker-образами (Harbor, GitLab Registry), пакетами (Nexus, Artifactory). Версионирование, retention.
Облачные платформы
Миграция в облако
Перенос инфраструктуры и приложений. Оценка готовности, выбор стратегии (rehost, refactor, rebuild), поэтапная миграция.
FinOps
Оптимизация затрат. Анализ использования, right-sizing, reserved/spot instances, бюджеты и алерты.
Multi-cloud
Инфраструктура с несколькими провайдерами. Абстракция через Terraform, Kubernetes.
Managed Services
Использование управляемых сервисов: Managed Kubernetes, Managed Databases, Serverless.
DevSecOps
Управление секретами
HashiCorp Vault для хранения и генерации секретов. Интеграция с Kubernetes, динамические секреты, ротация.
Сканирование уязвимостей
Регулярное сканирование образов, зависимостей, IaC. Интеграция в CI/CD, приоритизация и исправление.
Compliance
Соответствие требованиям: PCI DSS, ФЗ-152. Аудит логов, контроль доступа, шифрование данных.
Network Security
VPC, Security Groups, Network Policies. Сегментация сети, ограничение доступа, WAF, DDoS protection.
Мониторинг и Observability
Метрики
Prometheus для сбора, Grafana для визуализации. SLI/SLO, алерты, дашборды.
Логирование
ELK Stack для централизованного сбора. Структурированные логи, корреляция, retention.
Трассировка
Jaeger/Zipkin для distributed tracing. OpenTelemetry, выявление узких мест.
Incident Management
Процессы реагирования. On-call, эскалация, postmortem. Интеграция с PagerDuty, Telegram.
SLI/SLO
Определение индикаторов и целей. Error budgets, burn rate alerts.
Alerting
Настройка алертов в Prometheus/Alertmanager. Маршрутизация, silencing, ингибирование.