Endpoint стал медленным после релиза — где искать причину

После релиза endpoint стал медленным, latency выросла до секунд, а “быстрые оптимизации” почти не помогают. Разбор типового production-кейса: где искать bottleneck, почему N+1 — не единственная причина и когда нужен Performance Triage.

После релиза endpoint стал отвечать секундами

Это типовой production-сценарий: до релиза всё было в рабочем диапазоне, после выката latency выросла, часть запросов начала упираться в таймауты, а команда пытается тушить проблему локальными оптимизациями без реальной локализации источника деградации.

Обычно в этот момент уже пробуют добавить кеш, включить eager loading, поправить пару запросов или срочно накинуть индекс. Иногда это даже даёт краткосрочный эффект, но чаще причина глубже: система тратит время не в одной точке, а в целой цепочке лишних действий.

Где обычно находится реальная причина

N+1 в неожиданных местах, включая вложенные relation, accessors и сериализацию
лишние запросы в циклах и сервисах, которые вызываются поэлементно
тяжёлый write path, когда часть логики синхронно пишет больше, чем кажется
медленные join или фильтрация по неудачному условию
деградация не в SQL, а в DTO, policy, observers, listeners или каскаде побочных действий

Почему “быстрые оптимизации” часто не помогают

Потому что без профилирования hot path команда обычно оптимизирует не bottleneck, а ту часть системы, которая просто кажется подозрительной. В результате время уходит на второстепенные улучшения, а реальный узкий участок остаётся на месте.

Отдельная проблема — смотреть только на количество SQL-запросов. Даже если их стало меньше, endpoint всё ещё может тормозить из-за тяжёлой гидрации моделей, синхронной обработки коллекций, сериализации ответа или побочной логики после основного запроса.

Что нужно проверять в первую очередь

какой именно участок hot path даёт основную задержку
где система делает работу поэлементно вместо batch-подхода
есть ли синхронная побочная логика, которую не нужно держать в критичном request
что показывает execution plan у тяжёлых запросов
нет ли лишней работы в accessors, transformers, resource-слое и listeners

Что реально помогает

профилирование полного execution path, а не только SQL
сокращение лишней работы до формирования ответа
batch-обработка там, где система до этого жила поэлементно
вынос побочных действий из критичного пути ответа пользователю
точечная правка SQL, индексов и схемы чтения только после локализации bottleneck

Практический вывод

Если endpoint после релиза стал отвечать 2–3 секунды, причина редко бывает в одной “неудачной строке”. Обычно это комбинация: N+1, лишняя синхронная работа, плохой запрос и отсутствие batch-подхода там, где он нужен.

Поэтому правильный порядок такой: сначала найти фактический bottleneck, потом убрать лишние действия, и только после этого уже добавлять точечные оптимизации вроде кеша или индексов. Иначе можно потратить много времени и почти не сдвинуть latency.

Когда здесь нужен paid diagnostic, а когда можно заходить сразу

Если уже понятно, какой endpoint деградировал и проблема воспроизводится на реальном сценарии, обычно можно заходить сразу через Performance Triage. Если же команда видит только общий симптом “после релиза стало медленно”, а гипотез слишком много, лучше начинать с короткого paid diagnostic: он позволяет быстро локализовать bottleneck и не тратить недели на оптимизацию не того участка системы.

Endpoint стал отвечать 2–3 секунды после релиза: где искать реальную причину