AlphaEvolve: прорывной шаг Google DeepMind к созданию AGI

Изображение с развитием искусственного интеллекта, показывающее эволюцию агент AlphaEvolve от Google DeepMind, работающего над научными алгоритмами. Картинка включает компьютерные процессы и схематические рисунки на экране.

AlphaEvolve от Google DeepMind — революционный шаг к искусственному общему интеллекту

Google DeepMind представила AlphaEvolve — эволюционный кодирующий агент, предназначенный для автономного поиска инновационных алгоритмов и научных решений. Это исследование, описанное в работе “AlphaEvolve: Кодирующий агент для научных и алгоритмических открытий”, является фундаментальным шагом на пути к Искусственному Общему Интеллекту (AGI) и потенциально к Искусственному Суперинтеллекту (ASI). Вместо того чтобы полагаться на статичную настройку или наборы данных с человеческой разметкой, AlphaEvolve идет совершенно другим путем — делая акцент на автономном творчестве, алгоритмических инновациях и непрерывном самосовершенствовании.

Принцип работы AlphaEvolve

В основе AlphaEvolve лежит самодостаточный эволюционный конвейер, работающий на больших языковых моделях (LLM). Этот конвейер не просто генерирует результаты — он мутирует, оценивает, отбирает и улучшает код на протяжении множества поколений. AlphaEvolve начинает с исходной программы и последовательно совершенствует её, внося тщательно структурированные изменения.

Эти изменения принимают форму “диффов” (diffs) — модификаций кода, предлагаемых языковой моделью на основе предыдущих примеров и явных инструкций. В программировании “дифф” — это разница между двумя версиями файла, обычно выделяющая строки для удаления, замены или добавления. В AlphaEvolve языковая модель генерирует эти диффы, анализируя текущую программу и предлагая небольшие правки — добавление функции, оптимизацию цикла или изменение гиперпараметра.

Каждая модифицированная программа затем тестируется с помощью автоматизированных оценщиков, адаптированных под задачу. Наиболее эффективные кандидаты сохраняются, используются как ссылки и рекомбинируются для вдохновения будущих итераций. Со временем этот эволюционный цикл приводит к появлению всё более сложных алгоритмов, зачастую превосходящих те, что разработаны человеческими экспертами.

Научная основа AlphaEvolve

AlphaEvolve построен на принципах эволюционных вычислений — подобласти искусственного интеллекта, вдохновленной биологической эволюцией. Система начинает с базовой реализации кода, которую рассматривает как исходный “организм”. На протяжении поколений AlphaEvolve модифицирует этот код, вводя вариации или “мутации”, и оценивает приспособленность каждого варианта с помощью четко определенной функции оценки. Лучшие варианты выживают и служат шаблонами для следующего поколения.

Этот эволюционный цикл координируется через:

  • Выборку подсказок: AlphaEvolve формирует запросы, выбирая и встраивая ранее успешные образцы кода, метрики производительности и специфичные для задачи инструкции.
  • Мутацию и предложение кода: Система использует мощные LLM — Gemini 2.0 Flash и Pro — для создания конкретных модификаций текущей кодовой базы в форме диффов.
  • Механизм оценки: Автоматизированная функция оценки определяет производительность каждого кандидата, выполняя его и возвращая скалярные оценки.
  • База данных и контроллер: Распределенный контроллер оркестрирует этот цикл, сохраняя результаты в эволюционной базе данных и балансируя исследование и эксплуатацию через механизмы, такие как MAP-Elites.

Если вы интересуетесь созданием собственных AI агентов, которые могли бы автоматически решать сложные задачи, обратите внимание на специализированные курсы по этой теме.

Сравнение AlphaEvolve с RLHF

Чтобы оценить инновационность AlphaEvolve, важно сравнить его с Обучением с подкреплением на основе человеческой обратной связи (RLHF) — доминирующим подходом, используемым для тонкой настройки больших языковых моделей.

В RLHF человеческие предпочтения используются для обучения модели вознаграждения, которая направляет процесс обучения LLM через алгоритмы обучения с подкреплением. RLHF улучшает согласованность и полезность моделей, но требует значительного участия человека для генерации данных обратной связи и обычно работает в режиме статической одноразовой настройки.

AlphaEvolve, напротив:

  • Устраняет человеческую обратную связь из цикла в пользу машинных оценщиков.
  • Поддерживает непрерывное обучение через эволюционный отбор.
  • Исследует гораздо более широкие пространства решений благодаря стохастическим мутациям и асинхронному выполнению.
  • Может генерировать решения, которые не только согласованы, но и новаторские, и научно значимые.

Если RLHF настраивает поведение, AlphaEvolve обнаруживает и изобретает. Это различие критически важно при рассмотрении будущих траекторий развития искусственного общего интеллекта.

Применение и прорывы

1. Алгоритмические открытия и математические достижения

AlphaEvolve продемонстрировал свою способность к революционным открытиям в ключевых алгоритмических задачах. Наиболее примечательно, что он обнаружил новый алгоритм для умножения двух комплексных матриц 4×4, используя всего 48 скалярных умножений — превзойдя результат Штрассена 1969 года в 49 умножений и преодолев 56-летний теоретический предел.

Помимо умножения матриц, AlphaEvolve внес существенный вклад в математические исследования. Он был протестирован на более чем 50 открытых проблемах в области комбинаторики, теории чисел и геометрии. Он соответствовал лучшим известным результатам примерно в 75% случаев и превосходил их примерно в 20%. Эти успехи включали улучшения проблемы минимального перекрытия Эрдёша, более плотное решение проблемы чисел поцелуев в 11 измерениях и более эффективные конфигурации геометрической упаковки.

2. Оптимизация вычислительного стека Google

AlphaEvolve также обеспечил ощутимые улучшения производительности в инфраструктуре Google:

  • В планировании вычислений в центрах обработки данных он открыл новую эвристику, улучшившую размещение задач.
  • Для ядер обучения Gemini AlphaEvolve разработал лучшую стратегию тайлинга для умножения матриц, давшую 23% ускорения ядра и 1% общего сокращения времени обучения.
  • В проектировании схем TPU он определил упрощение арифметической логики на уровне RTL (Register-Transfer Level).
  • Также он оптимизировал код FlashAttention, сократив время вывода на GPU на 32%.

Ключевые технологические концепции

  • Эволюционное программирование: Парадигма ИИ, использующая мутацию, отбор и наследование для итеративного улучшения решений.
  • Суперооптимизация кода: Автоматизированный поиск наиболее эффективной реализации функции.
  • Мета-эволюция подсказок: AlphaEvolve не только развивает код, но и развивает способы общения с LLM.
  • Алгоритм MAP-Elites: Тип алгоритма качественного разнообразия, поддерживающий разнообразную популяцию высокоэффективных решений.

Перспективы для AGI и ASI

AlphaEvolve — это больше, чем просто оптимизатор; это взгляд в будущее, где интеллектуальные агенты могут демонстрировать творческую автономию. Способность системы формулировать абстрактные проблемы и разрабатывать собственные подходы к их решению представляет значительный шаг к Искусственному Общему Интеллекту.

Выполняя и проверяя собственные идеи, AlphaEvolve функционирует и как теоретик, и как экспериментатор. Он выходит за рамки выполнения предопределенных задач и входит в сферу открытий, имитируя автономный научный процесс. Каждое предложенное улучшение тестируется, эталонизируется и реинтегрируется — позволяя постоянно совершенствоваться на основе реальных результатов, а не статических целей.

Возможно, наиболее примечательно, что AlphaEvolve является ранним примером рекурсивного самосовершенствования — когда система ИИ не только учится, но и улучшает компоненты самой себя. В нескольких случаях AlphaEvolve улучшил инфраструктуру обучения, поддерживающую его собственные базовые модели.

Заключение

AlphaEvolve — это значительный шаг вперед не только в инструментарии ИИ, но и в нашем понимании машинного интеллекта. Объединяя эволюционный поиск с рассуждениями LLM и обратной связью, он переопределяет, что машины могут автономно открывать. Это ранний, но значимый сигнал того, что самосовершенствующиеся системы, способные к реальному научному мышлению, больше не являются теоретическими.

С течением времени, по мере того как AlphaEvolve масштабируется на более сложные и абстрактные домены, он может демонстрировать ускоряющиеся приросты интеллекта. Этот самоусиливающийся цикл итеративного совершенствования является ключевым теоретическим компонентом AGI и всех преимуществ, которые он может предоставить обществу. Если вы хотите разобраться в принципах работы подобных AI агентов и научиться создавать собственные AI решения, рекомендуем обратить внимание на специализированные обучающие материалы по данной теме.