
AlphaEvolve от Google DeepMind — революционный шаг к искусственному общему интеллекту
Google DeepMind представила AlphaEvolve — эволюционный кодирующий агент, предназначенный для автономного поиска инновационных алгоритмов и научных решений. Это исследование, описанное в работе “AlphaEvolve: Кодирующий агент для научных и алгоритмических открытий”, является фундаментальным шагом на пути к Искусственному Общему Интеллекту (AGI) и потенциально к Искусственному Суперинтеллекту (ASI). Вместо того чтобы полагаться на статичную настройку или наборы данных с человеческой разметкой, AlphaEvolve идет совершенно другим путем — делая акцент на автономном творчестве, алгоритмических инновациях и непрерывном самосовершенствовании.
Принцип работы AlphaEvolve
В основе AlphaEvolve лежит самодостаточный эволюционный конвейер, работающий на больших языковых моделях (LLM). Этот конвейер не просто генерирует результаты — он мутирует, оценивает, отбирает и улучшает код на протяжении множества поколений. AlphaEvolve начинает с исходной программы и последовательно совершенствует её, внося тщательно структурированные изменения.
Эти изменения принимают форму “диффов” (diffs) — модификаций кода, предлагаемых языковой моделью на основе предыдущих примеров и явных инструкций. В программировании “дифф” — это разница между двумя версиями файла, обычно выделяющая строки для удаления, замены или добавления. В AlphaEvolve языковая модель генерирует эти диффы, анализируя текущую программу и предлагая небольшие правки — добавление функции, оптимизацию цикла или изменение гиперпараметра.
Каждая модифицированная программа затем тестируется с помощью автоматизированных оценщиков, адаптированных под задачу. Наиболее эффективные кандидаты сохраняются, используются как ссылки и рекомбинируются для вдохновения будущих итераций. Со временем этот эволюционный цикл приводит к появлению всё более сложных алгоритмов, зачастую превосходящих те, что разработаны человеческими экспертами.
Научная основа AlphaEvolve
AlphaEvolve построен на принципах эволюционных вычислений — подобласти искусственного интеллекта, вдохновленной биологической эволюцией. Система начинает с базовой реализации кода, которую рассматривает как исходный “организм”. На протяжении поколений AlphaEvolve модифицирует этот код, вводя вариации или “мутации”, и оценивает приспособленность каждого варианта с помощью четко определенной функции оценки. Лучшие варианты выживают и служат шаблонами для следующего поколения.
Этот эволюционный цикл координируется через:
- Выборку подсказок: AlphaEvolve формирует запросы, выбирая и встраивая ранее успешные образцы кода, метрики производительности и специфичные для задачи инструкции.
- Мутацию и предложение кода: Система использует мощные LLM — Gemini 2.0 Flash и Pro — для создания конкретных модификаций текущей кодовой базы в форме диффов.
- Механизм оценки: Автоматизированная функция оценки определяет производительность каждого кандидата, выполняя его и возвращая скалярные оценки.
- База данных и контроллер: Распределенный контроллер оркестрирует этот цикл, сохраняя результаты в эволюционной базе данных и балансируя исследование и эксплуатацию через механизмы, такие как MAP-Elites.
Если вы интересуетесь созданием собственных AI агентов, которые могли бы автоматически решать сложные задачи, обратите внимание на специализированные курсы по этой теме.
Сравнение AlphaEvolve с RLHF
Чтобы оценить инновационность AlphaEvolve, важно сравнить его с Обучением с подкреплением на основе человеческой обратной связи (RLHF) — доминирующим подходом, используемым для тонкой настройки больших языковых моделей.
В RLHF человеческие предпочтения используются для обучения модели вознаграждения, которая направляет процесс обучения LLM через алгоритмы обучения с подкреплением. RLHF улучшает согласованность и полезность моделей, но требует значительного участия человека для генерации данных обратной связи и обычно работает в режиме статической одноразовой настройки.
AlphaEvolve, напротив:
- Устраняет человеческую обратную связь из цикла в пользу машинных оценщиков.
- Поддерживает непрерывное обучение через эволюционный отбор.
- Исследует гораздо более широкие пространства решений благодаря стохастическим мутациям и асинхронному выполнению.
- Может генерировать решения, которые не только согласованы, но и новаторские, и научно значимые.
Если RLHF настраивает поведение, AlphaEvolve обнаруживает и изобретает. Это различие критически важно при рассмотрении будущих траекторий развития искусственного общего интеллекта.
Применение и прорывы
1. Алгоритмические открытия и математические достижения
AlphaEvolve продемонстрировал свою способность к революционным открытиям в ключевых алгоритмических задачах. Наиболее примечательно, что он обнаружил новый алгоритм для умножения двух комплексных матриц 4×4, используя всего 48 скалярных умножений — превзойдя результат Штрассена 1969 года в 49 умножений и преодолев 56-летний теоретический предел.
Помимо умножения матриц, AlphaEvolve внес существенный вклад в математические исследования. Он был протестирован на более чем 50 открытых проблемах в области комбинаторики, теории чисел и геометрии. Он соответствовал лучшим известным результатам примерно в 75% случаев и превосходил их примерно в 20%. Эти успехи включали улучшения проблемы минимального перекрытия Эрдёша, более плотное решение проблемы чисел поцелуев в 11 измерениях и более эффективные конфигурации геометрической упаковки.
2. Оптимизация вычислительного стека Google
AlphaEvolve также обеспечил ощутимые улучшения производительности в инфраструктуре Google:
- В планировании вычислений в центрах обработки данных он открыл новую эвристику, улучшившую размещение задач.
- Для ядер обучения Gemini AlphaEvolve разработал лучшую стратегию тайлинга для умножения матриц, давшую 23% ускорения ядра и 1% общего сокращения времени обучения.
- В проектировании схем TPU он определил упрощение арифметической логики на уровне RTL (Register-Transfer Level).
- Также он оптимизировал код FlashAttention, сократив время вывода на GPU на 32%.
Ключевые технологические концепции
- Эволюционное программирование: Парадигма ИИ, использующая мутацию, отбор и наследование для итеративного улучшения решений.
- Суперооптимизация кода: Автоматизированный поиск наиболее эффективной реализации функции.
- Мета-эволюция подсказок: AlphaEvolve не только развивает код, но и развивает способы общения с LLM.
- Алгоритм MAP-Elites: Тип алгоритма качественного разнообразия, поддерживающий разнообразную популяцию высокоэффективных решений.
Перспективы для AGI и ASI
AlphaEvolve — это больше, чем просто оптимизатор; это взгляд в будущее, где интеллектуальные агенты могут демонстрировать творческую автономию. Способность системы формулировать абстрактные проблемы и разрабатывать собственные подходы к их решению представляет значительный шаг к Искусственному Общему Интеллекту.
Выполняя и проверяя собственные идеи, AlphaEvolve функционирует и как теоретик, и как экспериментатор. Он выходит за рамки выполнения предопределенных задач и входит в сферу открытий, имитируя автономный научный процесс. Каждое предложенное улучшение тестируется, эталонизируется и реинтегрируется — позволяя постоянно совершенствоваться на основе реальных результатов, а не статических целей.
Возможно, наиболее примечательно, что AlphaEvolve является ранним примером рекурсивного самосовершенствования — когда система ИИ не только учится, но и улучшает компоненты самой себя. В нескольких случаях AlphaEvolve улучшил инфраструктуру обучения, поддерживающую его собственные базовые модели.
Заключение
AlphaEvolve — это значительный шаг вперед не только в инструментарии ИИ, но и в нашем понимании машинного интеллекта. Объединяя эволюционный поиск с рассуждениями LLM и обратной связью, он переопределяет, что машины могут автономно открывать. Это ранний, но значимый сигнал того, что самосовершенствующиеся системы, способные к реальному научному мышлению, больше не являются теоретическими.
С течением времени, по мере того как AlphaEvolve масштабируется на более сложные и абстрактные домены, он может демонстрировать ускоряющиеся приросты интеллекта. Этот самоусиливающийся цикл итеративного совершенствования является ключевым теоретическим компонентом AGI и всех преимуществ, которые он может предоставить обществу. Если вы хотите разобраться в принципах работы подобных AI агентов и научиться создавать собственные AI решения, рекомендуем обратить внимание на специализированные обучающие материалы по данной теме.