Кирилл Солодских, соучредитель и генеральный директор TheStage AI – Серия интервью

Кирилл Солодских улыбается на фоне логотипа TheStage AI, держа в руках ноутбук.

Глядя на развитие искусственного интеллекта, нельзя не заметить, что сегодня одним из ключевых вызовов становится не столько создание моделей, сколько их эффективная оптимизация. Автоматизация развертывания нейронных сетей и оптимизация их работы на различных устройствах представляют собой сложнейшие задачи, требующие инновационных подходов.

Проблема оптимизации инференса в AI

Когда мы говорим о процессе внедрения модели искусственного интеллекта, обучение – лишь первый шаг. Настоящий вызов начинается, когда необходимо заставить эту модель работать эффективно в реальном мире и обеспечить к ней доступ пользователям. Именно развертывание становится тем узким местом, которое сдерживает воплощение множества отличных идей в жизнь.

Чтобы создать нечто столь же простое в использовании, как ChatGPT, требуется решить множество технических задач. С технической точки зрения, оптимизация нейронной сети заключается в минимизации параметров при сохранении высокой производительности – сложнейшая математическая задача с огромным потенциалом для новаторства.

Автоматизация оптимизации нейронных сетей

Ручная оптимизация инференса давно является узким местом в развитии AI. Современные нейронные сети содержат миллиарды параметров, и определение вручную, какие из них можно удалить для повышения производительности, практически невозможно.

Технологии автоматической оптимизации нейронных сетей решают эту проблему, автоматически выявляя, какие слои следует исключить из оптимизации, аналогично тому, как когда-то была автоматизирована ZIP-компрессия.

Это кардинально меняет правила игры, делая внедрение AI быстрее и доступнее. Вместо дорогостоящих ручных процессов стартапы могут автоматически оптимизировать модели. Такие технологии дают бизнесу четкое представление о производительности и затратах, обеспечивая эффективность и масштабируемость без догадок.

Преимущества автоматизированного подхода

Современные технологии позволяют сократить затраты на вывод до 5 раз благодаря подходу к оптимизации, который выходит за рамки традиционных методов. Вместо применения одного и того же алгоритма ко всей нейронной сети, интеллектуальные системы разбивают ее на более мелкие слои и определяют, какой алгоритм применить для каждой части, чтобы обеспечить желаемое сжатие при максимальном сохранении качества модели.

Сочетая умную математическую эвристику с эффективными аппроксимациями, такой подход обладает высокой масштабируемостью и облегчает внедрение AI для предприятий любого размера. Важным преимуществом также является интеграция гибких настроек компилятора для оптимизации сетей под конкретное оборудование, например, iPhone или GPU NVIDIA.

Ускорение инференса по сравнению с нативными компиляторами

Специализированные решения для ускорения инференса значительно превосходят нативные компиляторы, такие как PyTorch. Последний использует метод компиляции “точно вовремя”, компилируя модель при каждом запуске. Это приводит к длительному времени запуска, которое может занимать минуты или даже больше. В масштабируемых средах это может создавать неэффективности, особенно когда для обработки возросшей пользовательской нагрузки необходимо подключать новые GPU, что вызывает задержки, влияющие на пользовательский опыт.

Современные технологии оптимизации позволяют предварительно компилировать модели, так что как только модель готова, она может быть развернута мгновенно. Это приводит к более быстрому развертыванию, повышенной эффективности обслуживания и экономии средств. Разработчики могут развертывать и масштабировать AI-модели быстрее, без узких мест традиционной компиляции, что делает процесс более эффективным и отзывчивым для случаев с высокой нагрузкой.

Инновационные подходы в оптимизации моделей

Сегодня разрабатываются специализированные инструментарии для оптимизации AI моделей. Такие наборы инструментов предоставляют основные примитивы для быстрого создания новых алгоритмов оптимизации, адаптированных к различному оборудованию, например, GPU и NPU. Подобные инструменты включают компоненты, такие как квантование, обрезка, спецификация, компиляция и обслуживание, все из которых критически важны для разработки эффективных, масштабируемых систем AI.

Гибкость таких инструментов позволяет инженерам AI прототипировать и реализовывать новые алгоритмы всего несколькими строками кода. Например, недавнюю научную статью о квантовании нейронных сетей можно превратить в работающий алгоритм, используя примитивы такого инструментария, за считанные минуты.

Если вы хотите создать своего умного AI ассистента и разобраться в тонкостях оптимизации, современные курсы по AI агентам помогут освоить эти технологии.

Интегральные нейронные сети (INN) как инновация в глубоком обучении

Традиционные нейронные сети используют фиксированные матрицы, подобные таблицам Excel, где размер и параметры предопределены. Интегральные нейронные сети (INN) описывают сети как непрерывные функции, предлагая гораздо большую гибкость. Представьте это как покрывало с булавками на разной высоте, которое представляет непрерывную волну.

Что делает INN захватывающими, так это их способность динамически “сжиматься” или “расширяться” в зависимости от доступных ресурсов, подобно тому, как аналоговый сигнал оцифровывается в звук. Вы можете уменьшить сеть без потери качества, а при необходимости расширить ее обратно без переобучения.

Исследования показывают, что в то время как традиционные методы сжатия приводят к значительной потере качества, INN сохраняют качество, близкое к исходному, даже при экстремальном сжатии. Математика, лежащая в основе этого, может быть более нетрадиционной для сообщества AI, но реальная ценность заключается в способности обеспечивать солидные, практические результаты с минимальными усилиями.

Будущее оптимизации инференса

В долгосрочной перспективе технологии оптимизации могут стать глобальным Model Hub, где любой может легко получить доступ к оптимизированной нейронной сети с желаемыми характеристиками, будь то для смартфона или любого другого устройства. Цель состоит в том, чтобы предложить опыт drag-and-drop, где пользователи вводят свои параметры, а система автоматически генерирует сеть.

Конечная цель – заставить нейронные сети работать непосредственно на устройствах пользователей, сокращая расходы в 20–30 раз. В будущем это может практически полностью устранить затраты, поскольку устройство пользователя будет обрабатывать вычисления, а не полагаться на облачные серверы. Это, в сочетании с достижениями в сжатии модели и аппаратном ускорении, может сделать развертывание AI значительно более эффективным.

Также планируется интеграция технологий оптимизации с аппаратными решениями, такими как датчики, чипы и робототехника, для применений в таких областях, как автономное вождение и робототехника. Например, целью является создание AI-камер, способных функционировать в любой среде, будь то космос или экстремальные условия, такие как темнота или пыль.

Мир оптимизации нейронных сетей продолжает стремительно развиваться, открывая новые возможности для более эффективного и доступного искусственного интеллекта.