Выпуск

За кулисами DevOps — как ИИ меняет бизнес-процессы

Один из ключевых трендов в бизнесе на 2026 – развертывание собственной ИИ инфраструктуры. Как бизнесу просчитать риски и понять, стоит ли игра свеч? На этот и другие вопросы дал ответ сооснователь ИТ-интегратора НИКСИС с экспертизой в DevOps, DevSecOps, MLOps Станислав Тибекин.

Послушать выпуск

0:00 8:55
Скачать выпуск

Транскрибация выпуска

Всем привет! Меня зовут Станислав Кебекин из системного IT-интегратора Никсис. И это новый выпуск Кейсов - подкаста, в котором нет ведущего и каждый раз меняются гости, рассказывая о своих кейсах. В этот раз кейсом делиться с вами буду я. Поехали!

Сегодня я буду говорить о собственной LLM-инфраструктуре в 2026 году. Стоит ли игра свеч или это дыра в бюджете компании? Если следить за трендами, то 26-й год уже сейчас четко обозначил один вектор. Компании забирают LLM под свой контроль. Если 2-3 года назад все бежали экспериментировать с OpenAI, то сейчас ко мне. Как к IT-интегратору в отношении DevOps, MLOps, IOps приходят с совершенно другими задачами. Только за первую неделю февраля 26-го года у нас было 5 заявок с одинаковым запросом. Нужна помощь развернуть нашу собственную LLM-инфраструктуру, и сейчас это не просто модное слово. Причины понятны и прагматичны. Это контроль данных, предсказуемая стоимость и возможность кастомизации без оглядки на внешние API от платных вендоров со своими ограничениями. Но есть важный нюанс. Запустить LLM сегодня – это не просто сделать докер ран, как в DevOps. Это построение полноценной платформы.

И сегодня на примере реального пресейла я расскажу, из чего она состоит, сколько реально стоит, и главное, как посчитать ее окупаемость, чтобы не просто потратить миллионы, а получить бизнес-результат. Итак, допустим, к вам приходит заказчик и говорит «Хочу единый контур для работы с LLM и CV-моделями». чтобы был и веб-интерфейс, и API, чтобы я мог раздавать доступы разработчикам, следить за квотами, и чтобы все это мониторилось. По сути, это запрос не на модель, а на внутреннюю AI-платформу, аналог платформ-инженеринга в DevOps, но для машинного обучения.

Исходя из таких требований, мы выделяем 5 критических компонентов, без которых инфраструктура превращается в хаос. 1. Оркестрация и балансировка. Мало поставить кибернетис, нужен оркестратор, который понимает специфику GPU. Ошибся с размещением и дорогой GPU H100 простаивает, потому что на него положили модель, которая не влезает в его память. Здесь смотрим в сторону QE для управления очередями или Ray, если нужно еще и обучение. 2. Backend Inference. Это движок, который непосредственно запускает модель. Если проект только под LLM, можно взять VLLM. Он прост и эффективен. И если же, как в нашем примере, нужны еще и компьютерное зрение, то выбор очевиден. Nvidia Triton. Он сложнее, но зато родной для железа и закрывает все задачи. Третий. Хранилище моделей. Просто скидывать веса в S3 так никто уже не делает. Нужно версионирование, контроль доступа. Мы смотрим либо на MLflow Model Registry, либо на приватный Hagen Facehub. Это позволяет нам ответить на вопрос, а где та самая обученная версия, которую мы тестировали месяц назад. Четвертый. Мониторинг. Prometheus и Grafana для железа это база. Но нам нужно смотреть не только загрузку GPU, но и качество ответов модели. Здесь мы используем кастомные экспортеры или Faenix, чтобы отлавливать дрифт-модели. И пятый. Безопасность и управление. Vault для секретов обязателен, а для управления пользователями и квотами мы в Onyxis написали легковесный микросервис на Python. Он выступает единой точкой входа, проверяет ключ, смотрит квоты, перенаправляет запрос на нужный бэкенд. Выбор стека – это всегда компромисс между потребностями и ТЗ. И это только техническая часть. Теперь давайте поговорим о деньгах. Потому что здесь начинается самое интересное.

Когда мы отправили коммерческие предложения заказчикам, я собрал реальную структуру затрат. И классическая ошибка – видеть только верхушку айсберга этих затрат. Верхушка в данном случае это железо или облако. Один узел Nvidia H100 сегодня стоит от 35-40 тысяч долларов. Для минимального прода нужно хотя бы 2-3 таких узла, плюс сеть 100 гигабит, быстрые NVMe диски или SHD. Если говорить о аренде, то в облаке цены на GPU в этом году также выросли на 20%. Но есть и подводная часть. Это эксплуатация. Здесь можно отметить две сложности. Во-первых, вам нужны не просто DevOps, а инженеры, понимающие специфику GPU нагрузок. Их на рынке мало. Один такой инженер в 26 году – это специалист выше рынка. Во-вторых, энергопотребление. Одна H100 потребляет до 700 Вт. Умножьте на количество карт, и вы поймете, почему счет за электричество и охлаждение может стать неприятным, и почему стоимость аренды GPU в облаке выглядит уже обоснованной. Но ядро айсберга самое дорогое. Это ошибки. Первое. Простой GPU – это катастрофа. Если ваша платформа настроена неоптимально, и GPU простаивает 20% времени, вы сливаете пятую часть бюджета впустую. Второе. Эксперименты без контроля.

Дата-инженеры могут запускать обучение с неоптимальными параметрами, оставлять артефакты, забивать память. И третье. Долгий анбординг. Если в DevOps процесс отладки платформы уже автоматизирован, то в MLOps разработчик может подрадить неделю на настройку окружения вместо того, чтобы писать код. Я прикинул цифры для проекта на четырех узлах с аж 100. Это 16 ГПУ. Капекс или капитальные затраты. Железо, сеть, хранилище. Это разовый вход от 14 до 18 с лишним миллионов рублей. Опекс. Операционные расходы в год. Инженеры, электричество, амортизация. Это еще от 17 до 25 миллионов рублей ежегодно. И это без учета тех самых 20% потерь от простоев. Цифры выглядят пугающе. И у множества заказчиков возникает резонный вопрос. А оно вообще надо? И здесь мы переходим к самому главному. Бизнес покупает не ГПУ и не кластеры. Бизнес покупает результат. И если результат стоит этих денег, то это не затраты, а инвестиции. Так как же посчитать окупаемость? Я предлагаю методологию из четырех шагов. Первый и самый простой – прямая экономия на замене публичных API. Считаем, сколько сотрудников используют LLM, сколько запросов в Yen они делают, умножаем на стоимость запроса у текущего провайдера.

Это и есть текущие затраты. Если поставить свою платформу, эти деньги останутся в компании. Второй. Ускорение разработки. Исследования GitHub показывают, что LLM-ассистенты повышают производительность разработчиков на 20-40%. Берем количество разработчиков в штате, умножаем на их ставку и на процент сэкономленного времени. Это скрытая выгода, которую можно измерить, проведя и запустив пилотный проект в компании. Третий. Снижение рисков. Утечка кода или коммерческой тайны через публичные API – это не просто слова. Это штрафы, 152 ФЗ, репутационные потери, утечка интеллектуальной собственности. Сколько стоит спокойствие учредителей, стейкхолдеров, генерального директора за то, чтобы коммерческая тайна не была раскрыта? И четвертый. Кастомизация и независимость. Внешние API могут в любой момент свои политики сотрудничества с потребителями изменить. Изменить цену, ввести лимиты или просто деактивировать необходимую функциональность. Своя платформа дает вам свободу от всех этих рисков. Так как выглядит формула окупаемости? А вот как. Капитальные затраты суммируем с операционными затратами на год. Делим на сумму экономии на API. Выгоды от ускорения и оценки от снижения рисков.

Если получается меньше 2-3 лет, проект можно и нужно запускать. Но здесь есть важный паскриптум. Универсальных цифр не существует. То, что работает в банке, не подойдет для ритейла. Например, в нашем случае по предварительным подсчетам наших пресейл-проектов окупаемость пока не складывается у двух из пяти проектов. Рынок облачной аренды ГПУ в 26-м году все еще остается для многих нашим всем, потому что позволяет не закладывать кост на покупку железа себе в бюджет. Но не исключено, что все изменится, когда начнут появляться требования регуляторов по доступности ГПУ и моделей в свободном доступе. Итак, какой из этого всего вывод? Тренд на свои LLM в 26-м году — это не хайп, а эволюция рынка. От DevOps мы пришли к платформ-инженерингу, а теперь приходим к AI и MLOps. Но, чтобы подхватить этот тренд у себя внутри, размышляете не как инженер, который хочет попробовать новую технологию, как в свое время кибернетис, а как управленец, который строит платформу, считает TCO и ищет точки окупаемости. Если у вас есть желание обсудить, как посчитать экономику под ваш конкретный бизнес или просто поделиться опытом, переходите по ссылке в описании или пишите мне лично в Телеграм.

Ну и, конечно же, слушайте другие выпуски Кейсов. Всем продуктивной недели и грамотных инвестиций в LLM-инфраструктуру.

Подробнее о кейсах внедрения – на канале ITibekin FM, а за консультацией по ИИ разработке обращайтесь в НИКСИС | NIXYS.

https://nixys.ru/ - системный ИТ-интегратор

https://t.me/ITibekin_fm - канал Станислава

https://t.me/devops_fm - канал про интеграцию разработки и эксплуатации (DevOps)

Реклама
ООО "Никсис"
ИНН: 5407461244
Erid: 2VtzqxYtSzh

Недавние эпизоды

Выпуск

Кейс: 4 инструмента оптового кабинета автозапчастей, которые помогут увеличить выручку

Николай Чумаков, директор компании «е-комЭКСПЕРТ», рассказал про реальные практики из проектов для дистрибьюторов автозапчастей, которые напрямую влияют на выручку, лояльность…