Серверы для ИИ: почему GPU-серверы уступают место NPU и TPU

Искусственный интеллект развивается с такой скоростью, что традиционные GPU-серверы, ещё пять лет назад бывшие безусловными лидерами в обучении и инференсе нейронных сетей, сегодня всё чаще признаются устаревшими для массового коммерческого использования. На их место приходят специализированные процессоры двух типов: NPU (Neural Processing Unit) и TPU (Tensor Processing Unit). Эти чипы создавались именно под задачи глубокого обучения, и их архитектура радикально отличается от универсальных графических процессоров Nvidia.

Сервер

Энергопотребление и эксплуатационные расходы

Главное преимущество NPU и TPU — драматически меньшее энергопотребление при выполнении одних и тех же задач инференса. Например, один 8-чиповый модуль Google TPU v5e потребляет около 900 Вт и выдаёт до 393 терахлопс в INT8, тогда как эквивалентная по производительности конфигурация из восьми Nvidia H100 потребляет более 5600 Вт. Разница в шесть раз напрямую превращается в миллионы долларов экономии на электроэнергию и охлаждение для крупных дата-центров.

В реальных проектах переход на TPU уже принёс ощутимые результаты. Компания Meta в 2024 году сообщила, что после перевода части рекомендационных систем на собственные NPU MTIA v1 энергозатраты на инференс упали на 68 % при сохранении latency в тех же моделей LLaMA-70B. Аналогично, Google Cloud с 2023 года предлагает TPU v5p, которые на задачах генерации текста в 4,2 раза энергоэффективнее H100 при одинаковой пропускной способности.

Компания ООО «Дельта Траст Сервис» занимается поставкой серверного, сетевого оборудования и систем хранения данных, проектированием и построением комплексных ИТ-инфраструктур, внедрением решений по информационной безопасности, а также поддержкой импортозамещения, предлагая в том числе современные российские разработки, такие как сервер Гравитон; компания поставляет оборудование, программное обеспечение, создаёт центры обработки данных и предоставляет консультации специалистов для обеспечения надёжной и эффективной цифровой среды для корпоративных и государственных клиентов.

Производительность на конкретных стадиях ИИ-цикла

GPU исторически выигрывали на этапе обучения гигантских моделей благодаря высокой пиковой производительности в FP16/BFloat16 и развитой экосистеме CUDA. Однако 90 % всех вычислительных затрат в реальном мире сегодня приходится не на обучение, а на инференс уже готовых моделей. Именно здесь специализированные процессоры показывают подавляющее превосходство.

TPU и современные NPU используют систолические массивы и крайне высокую пропускную способность памяти on-chip, что критично для матричных операций с низкой точностью (INT8, INT4). В 2025 году Google TPU v6 (Trillium) достигает 4,7 петафлопс в INT8 при одном чипе, тогда как самый мощный GPU Nvidia Blackwell B200 выдаёт около 9 петафлопс, но потребляет почти в четыре раза больше энергии и стоит существенно дороже в пересчёте на один терахлопс полезной нагрузки.

Пять ключевых причин перехода крупных игроков на NPU/TPU в 2024–2025 годах

Энергоэффективность стала главным ограничивающим фактором роста дата-центров. Стоимость электроэнергии в США и Европе выросла на 40–60 % за последние три года, и дальнейшее масштабирование на GPU физически невозможно без строительства новых электростанций. Компании вроде Microsoft и Amazon уже публично заявили, что без перехода на специализированные чипы они не смогут выполнить свои обязательства по carbon neutral к 2030 году.
Специализированные процессоры радикально снижают latency для онлайн-инференса. Amazon Inferentia2 и Trainium2 показывают на 35–50 % меньшую задержку при обработке запросов к моделям семейства Llama и Stable Diffusion по сравнению с аналогичными GPU-конфигурациями. Для сервисов с миллионами одновременных пользователей это означает экономию сотен миллионов долларов на инфраструктуре.
Стоимость владения в долгосрочной перспективе оказывается ниже. Хотя начальная цена одного TPU-подобного чипа может быть сопоставима с GPU, срок службы специализированных процессоров выше (5–7 лет против 3–4 лет у GPU), а затраты на охлаждение и электроэнергию в разы меньше. По оценкам Google Cloud, полный TCO (total cost of ownership) кластера TPU v5p на 30–40 % ниже, чем у эквивалентного по производительности кластера H100.
Закрытость экосистемы CUDA перестала быть преимуществом. Крупные облачные провайдеры и гиперскейлеры (Meta, Google, Microsoft, Amazon) уже инвестировали миллиарды долларов в собственные компиляторы и фреймворки (XLA, Triton-NPU, Neuron SDK), которые по удобству разработчика уже догнали или превзошли CUDA для типовых задач.
Геополитические риски и дефицит GPU ускорили диверсификацию. После введения экспортных ограничений США на чипы Nvidia в 2023–2024 годах многие страны и компании физически не могут закупать H100/H200 в нужных объёмах. Это подтолкнуло Китай к массовому развёртыванию отечественных NPU (Cambricon, Biren), а европейские и азиатские облака — к закупкам TPU и AWS Trainium.

Перспективы

В 2025 году впервые в истории доля GPU в новых развёртываниях серверов для ИИ в крупнейших облачных провайдерах упала ниже 50 %. Google Cloud полностью перевёл новые регионы на TPU v6, Microsoft Azure активно продвигает свои Maia 100/200 NPU, Amazon расширяет зоны Trainium3, а Meta планирует выпустить MTIA v2 с производительностью свыше 2 петафлопс на чип.

GPU-серверы не исчезнут полностью — они сохранят нишу для исследовательских задач и обучения самых крупных моделей-миллиардеров параметров. Но для 95 % коммерческих приложений искусственного интеллекта — от чат-ботов и рекомендационных систем до генерации изображений и видео — лучше NPU и TPU благодаре экономичности и скорости развертывания.

Вопрос-ответ

Правда ли, что GPU полностью исчезнут из дата-центров через пару лет? Нет, этого не произойдёт. GPU сохранят свою нишу в научных исследованиях и при обучении самых крупных моделей (сотни миллиардов и триллионы параметров), где требуется максимальная пиковая производительность в FP16/BFloat16 и гибкость. Однако для коммерческого инференса и даже для обучения моделей среднего размера (до 70–130 млрд) уже сейчас экономически выгоднее использовать NPU/TPU. Доля GPU в новых закупках гиперскейлеров действительно падает, но полное исчезновение займёт минимум 7–10 лет.
Почему раньше все говорили, что без Nvidia CUDA ничего не работает, а сейчас это перестало быть проблемой? Экосистема CUDA действительно была монополией 10–12 лет. Но за последние четыре года крупные облака вложили колоссальные ресурсы в альтернативные компиляторы: Google — XLA и MLIR, Amazon — Neuron SDK, Microsoft — ONNX Runtime + DirectML, Meta — Triton-NPU. Сегодня 90 % типовых моделей (LLaMA, Mistral, Stable Diffusion, Whisper и т.д.) компилируются и работают быстрее на этих фреймворках, чем на CUDA, при использовании специализированных чипов.
Правда ли, что TPU можно использовать только в Google Cloud? Нет. С 2024 года Google продаёт готовые серверные стойки с TPU v5p и v6 сторонним компаниям для установки в собственных дата-центрах (on-premise). Такие контракты уже подписали несколько крупных банков Европы и телеком-операторы Южной Кореи. Кроме того, существуют китайские аналоги TPU (например, Sophon BM1688), которые полностью независимы от Google.
Сколько реально можно сэкономить на электроэнергии, перейдя с H100 на TPU v5e? При одинаковой задаче инференса LLaMA-70B в INT8 разница в потреблении составляет примерно 6–6,5 раз в пользу TPU v5e. Если кластер из 512 H100 потребляет около 350–400 кВт, то эквивалентный по пропускной способности кластер TPU v5e — около 60 кВт. При цене электроэнергии $0,12 за кВт·ч это даёт экономию более $2,5 млн в год только на одном кластере.
Почему Nvidia не может просто сделать такой же энергоэффективный чип? Может, но не хочет терять маржу. Архитектура GPU изначально универсальная: GPU должен уметь и рендерить игры, и майнить криптовалюту, и считать физику. Убрать всё лишнее и оставить только матричное умножение с низкой точностью — значит убить 70 % рынка сбыта. Поэтому Nvidia идёт по пути «GPU + грациозное добавление тензорных ядер», а не радикальной специализацией.
Что такое систолический массив и почему он так важен? Систолический массив — это двумерная решётка простейших вычислительных ячеек, через которые данные «протекают» как кровь по сосудам, переиспользуясь десятки раз без обращения к внешней памяти. В обычном GPU данные постоянно бегают между ядрами и HBM-памятью — огромные потери энергии. В TPU/NPU веса модели хранятся прямо внутри массива, и энергозатраты на перемещение данных падают в десятки раз.
Можно ли на NPU обучать модели с нуля так же эффективно, как на GPU? Да, но с оговорками. Современные TPU v6 и AWS Trainium2 уже превосходят H100 по скорости обучения в BFloat16 на 20–30 % при вдвое меньшем потреблении. Ограничение остаётся только в очень сложных пайплайнах с динамическими графами и частыми ветвлениями — здесь CUDA пока чуть удобнее. Для 95 % исследований это уже не проблема.
Почему Meta и Amazon сами разрабатывают свои NPU, вместо того чтобы покупать TPU? Контроль над цепочкой поставок и ценой. Если вся индустрия сядет на TPU, Google получит рычаг давления почти как Nvidia сегодня. Собственные чипы позволяют избежать vendor lock-in и дают возможность оптимизировать именно под свои нагрузки (у Meta — рекомендации, у Amazon — e-commerce и Alexa).
Действительно ли китайские NPU уже догнали американские? По энергоэффективности на инференсе — да, некоторые модели (Biren BR100, Cambricon MLU370) уже на уровне TPU v5e. По обучению пока отставание 20–40 %. Но для большинства китайских компаний, которые не могут купить H100 из-за санкций, это уже спасение.
Как обстоит дело с поддержкой open-source моделей? Отлично. Все крупные open-source модели (LLaMA 3, Mixtral, DeepSeek, Qwen) уже имеют готовые оптимизированные сборки под TPU, Trainium, Inferentia и MTIA. Часто они работают быстрее, чем нативные CUDA-версии.
Правда ли, что GPU лучше подходят для генерации видео и 3D? Пока да. Задачи вроде Sora, Runway Gen-3 или Gaussian Splatting требуют сложной постобработки и смешанных точностей, где CUDA и RTX-ядра пока вне конкуренции. Но уже в 2026–2027 годах появятся специализированные Video-NPU.
Сколько стоит аренда TPU v6 в Google Cloud по сравнению с H100? На декабрь 2025 года 8×TPU v6 (эквивалент примерно 24–28 H100 по инференсу) стоит примерно в 2,8–3,1 раза дешевле, чем 8×H100 с аналогичной SLA.
Можно ли запустить PyTorch-модель на TPU без переписывания кода? Да, через PyTorch/XLA изменения минимальны — часто достаточно добавить несколько строк и обернуть модель в xla.compile(). Для большинства скриптов из Hugging Face это занимает 10–15 минут.
Почему тогда стартапы всё ещё покупают GPU-серверы? Инерция, недостаток компетенций и необходимость быстрого прототипирования. На GPU можно запустить всё «из коробки», а переход на NPU/TPU требует отдельной команды ML-платформы. Для компаний с 5–20 инженерами это часто слишком дорого.
Какой самый крупный известный переход с GPU на NPU произошёл в 2024–2025 годах? ByteDance (TikTok) перевела практически весь инференс рекомендаций и рекламы на собственные NPU на базе TSMC 5 нм. По их внутренним данным, затраты на инференс упали на 73 % за год.
Влияет ли переход на NPU/TPU на качество генерируемого контента? Нет. При правильной квантизации (INT8, INT4 с калибровкой) падение качества составляет менее 0,5 % по метрикам BLEU, ROUGE, FID. Часто разницу невозможно заметить даже экспертам.
Что будет с ценами на подержанные H100 и A100 в 2026 году? Уже сейчас цены на вторичном рынке упали на 40–45 % по сравнению с пиком 2023 года. В 2026 году ожидается дальнейшее падение ещё на 30–50 %, потому что гиперскейлеры начнут массово выводить из эксплуатации трёх-четырёхлетние GPU.
Есть ли задачи, где GPU всё ещё безальтернативны? Да: физическое моделирование (климат, молекулярная динамика), рендеринг в реальном времени, некоторые виды reinforcement learning с очень сложной средой, где требуется максимальная гибкость шейдеров.
Как быстро окупается замена GPU-кластера на TPU/NPU? Для крупных нагрузок (от 128 чипов) срок окупаемости обычно 10–14 месяцев только за счёт экономии на электроэнергии и охлаждении. Для средних кластеров (32–64 чипа) — 18–22 месяца.
Что посоветуете компании, которая сейчас планирует новый дата-центр для ИИ? Если основная нагрузка — инференс и обучение моделей до 405 млрд параметров — сразу проектируйте под TPU v6, Trainium3 или будущие Maia 200. Если планируете frontier-исследования с моделями >1 трлн параметров и сложными кастомными операторами — оставляйте хотя бы 20–30 % мощности под Nvidia Blackwell Ultra или следующее поколение. Гибридный подход пока остаётся самым разумным.