Технический аналитик Бенедикт Эванс рассказывает о наиболее важных тенденциях в области генеративного искусственного интеллекта, фундаментальных философских вопросах, касающихся размышлений об этой технологии, а также о возможностях и рисках для таких игроков, как Microsoft, Apple и Alphabet.
Немецкая версия
Последние полтора года технологическая индустрия была сосредоточена на генеративном искусственном интеллекте (Gen AI). Этот термин относится к так называемым большим языковым моделям, которые способны генерировать текст, изображения, музыку и видео. Все началось в конце 2022 года с запуска ChatGPT, чат-бота и виртуального помощника, разработанного OpenAI, и вскоре вызвало волну ажиотажа на финансовых рынках.
Бенедикт Эванс внимательно следит за наиболее важными технологическими тенденциями. Он является одним из самых уважаемых мыслителей в технологической индустрии. Его информационный бюллетень, который он каждую неделю рассылает 175 000 подписчиков, обязателен к прочтению всем, кто интересуется технологиями.
В подробном интервью The Market NZZ, которое было слегка отредактировано, независимый отраслевой эксперт рассказывает о потенциале больших языковых моделей, фундаментальных философских вопросах при работе с искусственным интеллектом, а также о возможностях и рисках для крупных технологических компаний, таких как как Microsoft, Apple, Alphabet и Nvidia.
Генеративный искусственный интеллект — самая горячая тема в технологическом секторе. Как вы оцениваете потенциал технологии?
Я думаю, что самый главный вопрос заключается в том, вырастут ли эти модели до такой степени, что они смогут, по сути, делать все, что делает все существующее программное обеспечение, или же они станут программами, которые станут компонентами сотен или тысяч других программ. Все остальное вытекает из этого. Возникают дополнительные вопросы, например: Что происходит с затратами на создание и эксплуатацию этих моделей? Станут ли эти модели товаром? Их будет много? Насколько маленькими они становятся? Будет ли у каждой компании свой? Но вопрос о том, насколько функциональными станут эти модели, является своего рода тем, что лежит в основе всего остального.
Действительно ли мы переживаем революционный переход на новую платформу? Или это все просто массовый хайп?
Я формулирую это несколько иначе, то есть, согласно стандартному представлению, это просто еще один сдвиг платформы. Это просто еще один сдвиг, похожий на появление смартфонов, Интернета или ПК. Примерно так чувствуют себя все. Однако более агрессивная точка зрения заключается в том, что это гораздо больше; гораздо более фундаментальное изменение в возможностях вычислений – и, возможно, даже намного больше.
Вы имеете в виду, что эти модели могут развивать настоящий интеллект, также известный как общий искусственный интеллект или AGI?
Проблема в разговоре об этом заключается в том, что у нас на самом деле нет теории ни того, что такое ОИИ, ни того, как мы его создадим, ни того, что такое человеческий интеллект. Так что вы можете посмотреть на это и сказать: ну, эти вещи очень быстро становятся намного лучше, и мы не знаем, насколько они станут лучше, так что, возможно, они доберутся до AGI. Или вы можете сказать, что это все равно, что запускать ракеты в небо и задаваться вопросом, долетят ли они до Луны, когда у вас нет ни теории гравитации, ни теории о том, где находится Луна. Так если вы этого не знаете, то зачем об этом беспокоиться?
Какой точки зрения вы склонны придерживаться?
Я склоняюсь ко второй категории. Но поскольку у нас нет теории того, что такое AGI, и мы не совсем понимаем, как работают эти модели, очень сложно делать прогнозы о том, куда он пойдет.
Почему мы не понимаем, как на самом деле работают большие языковые модели?
Это все равно, что сказать, что мы не знаем, как работает человеческий мозг. На очень механистическом уровне мы можем его сканировать, мы знаем, что такое нейроны, и имеем некоторое представление о том, что представляют собой все молекулы. Но мы не знаем точно, как они работают: чем отличается человеческий мозг от мозга шимпанзе? Вы не можете увеличить масштаб и сказать: ну, это конкретные вещи, которые вызывают разницу в восприятии. Точно так же мы знаем на механистическом уровне, чем занимаются LLM, но не знаем, почему они дают такие хорошие результаты. Поэтому мы не можем сказать, что произойдет, если сделать их вдвое больше.
Этим моделям требуется значительно больше вычислительной мощности с каждым новым поколением, но улучшения кажутся постепенными. Другими словами, подчиняется ли технология экономическому закону убывающей предельной отдачи?
Еще рано, поэтому ответ: мы не знаем. Но каждая технология, с которой мы когда-либо сталкивались в прошлом, имела уменьшающуюся отдачу. Поэтому сложно утверждать, что почему-то этого не произойдет. Часть того, что произошло за последние полтора года, заключалась в повышении операционной эффективности этих моделей и их горизонтальном расширении; делая их мультимодальными. Это, а не серьезная попытка сделать их на порядок больше, чего нам просто не удалось сделать. Но основная проблема в том, что вы не можете доказать обратное. Трудно доказать, что LLM не смогут масштабироваться до AGI. Мы просто еще не знаем.
Что будет означать настоящий интеллект?
Существует интеллектуальная проблема: у нас нет научного правила, гласящего, что это разумно, а это нет. Мы не считаем карманный калькулятор умным или стиральную машину, хотя она стирает одежду гораздо лучше нас. Есть какие-то проблемы, которые нам всегда очень трудно решить с помощью компьютеров, и почему-то их стали называть ИИ. Например, еще в 1960-х годах ученые-компьютерщики пытались автоматизировать перевод. Они хотели иметь возможность переводить русский язык на английский, поскольку мы перехватывали все эти русские сигналы. Но тогда люди не могли этого сделать, поэтому говорили, что это будет искусственный интеллект. Сегодня такие программы-переводчики распространены, но мы не думаем о них как об искусственном интеллекте, мы просто рассматриваем их как программное обеспечение. Следовательно, это шутка, но это также и своего рода наблюдение: мы называем это искусственным интеллектом, если он еще не работает. Но как только это работает, мы называем это просто программным обеспечением.
Говорят, что настоящий ИИ потребует фундаментального понимания нашей окружающей среды, например, того, как работает гравитация.
Вот почему мы дошли до термина «общий интеллект». Он пытается сказать, что что-то имеет какое-то представление о том, как устроен мир; как это делает человек, шимпанзе или собака; что они могут реагировать на новую ситуацию так, как не может посудомоечная машина: вы кладете в нее посуду, и она ее моет, но она не знает, что это за посуда. Но если дать собаке салат, она его не съест. Он скажет, что это не корм для собак. Таким образом, вы можете утверждать, что общий интеллект, по сути, означает просто интеллект.
Другой вопрос заключается в том, какой прирост производительности дадут эти модели. Каким будет «убийственное приложение» для массового рынка?
Я не верю в концепцию убийственных приложений. Это концепция эпохи доткомов, и я не уверен, что это сравнение очень полезно. Подумайте об этом: какое приложение было убийственным для ПК? Возможно, это была электронная таблица, но затем это был текстовый редактор, а затем база данных или Интернет. Было много вещей, не было какой-то одной вещи, которая заставила бы всех купить компьютер. Проблема с LLM заключается в том, что они как бы перепрыгнули этот медленный и болезненный период в нижней части S-образной кривой, когда вы пытаетесь выяснить, как выглядит соответствие продукта рынку, пока создаете реальный продукт. В случае с ПК, смартфоном или Интернетом этот процесс занял много времени. Приходилось ждать, пока все купят ПК, появится широкополосная связь, программное обеспечение станет лучше и поведение потребителей изменится. Так что потребовалось десять-двадцать лет, чтобы по-настоящему работать.
Чем это отличается от больших языковых моделей?
OpenAI не пришлось ждать, пока люди купят устройства или телекоммуникационные компании построят Интернет. Для потребителей ChatGPT — это просто веб-сайт или приложение. Сотни миллионов людей попробовали это, но что интересно, большинство из них так и не вернулись, потому что для большинства людей это на самом деле не очень полезно. Согласно исследованиям, около четверти или трети людей в большинстве развитых стран мира уже попробовали ChatGPT, но только 1-5% используют его каждый день. Нечто подобное вы видите в крупных компаниях. Каждая крупная компания провела пилотный проект, но гораздо меньше их внедряется. Отчасти это всего лишь вопрос времени. Но программы LLM также могут быть ловушкой: они выглядят как продукты и выглядят волшебно, но это не так. Так что, возможно, нам все-таки придется пройти медленный и скучный поиск соответствия продукта рынку.
Поэтому так интересно наблюдать, как Apple собирается использовать эту технологию. Чему можно научиться из стратегии ИИ технологического гиганта с более чем одним миллиардом пользователей?
На это есть два ответа. Во-первых, Apple продемонстрировала очень последовательный набор идей о том, как превратить LLM в функцию. В этом контексте важно отметить, что действующий игрок всегда пытается сделать что-то новое особенностью: Microsoft пыталась сделать Интернет функцией Windows; Google и Facebook попытались сделать мобильные устройства функцией. На этот раз Microsoft и Google потратили последние 18 месяцев на распыление LLM на все свои продукты. Теперь Apple тоже делает то же самое, но немного более последовательно.
И какой второй ответ?
Apple указывает на все интересные вопросы: это работает в облаке или на устройстве? Нужно ли платить каждый раз, когда вы что-то делаете, или это бесплатно? Модель будет только одна? Или модели по сути будут товаром, и при наличии достаточного количества денег вы сможете приобрести их все? Модель похожа на оракула, где вы задаете вопросы? Или он будет абстрагирован, и пользователь даже не увидит чат-бота? Например, если вы откроете приложение электронной почты, вместо первых двух строк каждого сообщения вы увидите сводку, созданную LLM. Итак, ваш iPhone делает двадцать разных вещей, используя LLM, но вы никогда не видите LLM; это представлено как функция, включая новую версию Siri.
На этом фоне как вы интерпретируете новое партнерство Apple с OpenAI?
То, как Apple обращается с ChatGPT, очень интересно. Примерно так же они относятся к Google в Safari: мы отправим вас на поиски. Однако совершенно очевидно, что это будет не просто ChatGPT; Gemini тоже будет там, и, возможно, Anthropic и некоторые другие LLM. Более того, у Apple есть собственная базовая модель в облаке. Так что это не тот поиск, в котором Apple никогда бы не стала создавать поиск самостоятельно. Они уже создали свой собственный LLM и со временем вернут эти функции в свои продукты.
В какой степени такая стратегия аутсорсинга защищает собственный бренд Apple? Таким образом, Apple сможет избежать смущающих заголовков, если модель искусственного интеллекта порекомендует намазать пиццу клеем, чтобы сыр не соскользнул, верно?
Конечно, они отделяют бренд. Но то, что они также делают несколько более благосклонно или более нейтрально, — это даёт четкий сигнал о том, что это не просто одна унифицированная система; что есть отдельная функция, вы можете задать определенный вопрос, и он может быть неправильным, поэтому будьте осторожны. Вопрос в следующем: каковы ваши разумные ожидания? Если вы выполняете поиск в Google и получаете дрянные результаты, вы не вините Google, вы вините себя. Вы задаетесь вопросом: я использовал неправильные условия поиска? Или этой информации просто не существует? У вас есть хорошее представление о том, что такое Google; что он может и чего не может. Но у нас нет такого же понимания того, какой разумный вопрос следует задавать ChatGPT, поэтому люди до сих пор продолжают относиться к нему так, как будто это база данных.
Что означают новые функции искусственного интеллекта для следующего цикла iPhone? Помогут ли они Apple добиться более сильного роста?
В связи с этим возникает ряд вопросов относительно того, сместится ли среда разработки с iOS на…