0:37

Вступление. [Recording date: April 16, 2023.]

Расс Робертс: Сегодня 16 апреля 2023 года, и мой гость — Элиэзер Юдковски. Он является основателем Научно-исследовательского института машинного интеллекта, основателем блог-сообщества LessWrong и откровенно высказывается об опасностях искусственного интеллекта в целом, что является нашей сегодняшней темой. Элиэзер, добро пожаловать на EconTalk.

Элиэзер Юдковски: Спасибо, что пригласили меня.

0:58

Расс Робертс: Вы недавно написали статью на Time.com об опасностях ИИ. [Artificial Intelligence]. Я собираюсь процитировать центральный абзац. Цитировать:

Многие исследователи, погруженные в эти проблемы, в том числе и я, ожидают, что наиболее вероятным результатом создания сверхчеловечески умного ИИ при любых обстоятельствах, отдаленно напоминающих нынешние, будет то, что буквально все на Земле умрут. Не в том смысле, что «может быть, какой-то отдаленный шанс», а в том, что «очевидно, что это произойдет». Дело не в том, что вы в принципе не можете выжить, создавая что-то намного умнее вас; дело в том, что для этого потребуются точность, подготовка, новые научные открытия и, вероятно, отсутствие систем ИИ, состоящих из гигантских непостижимых массивов дробных чисел.

Объяснять.

Элиэзер Юдковски: Эм. Ну, разные люди приходят с разными причинами, почему они так думают. не будет случиться, и если вы выберете одно из них и начнете объяснять их, все остальные будут типа: «Почему вы говорите об этом неуместном, а не о том, что я думаю, это ключевой вопрос? Принимая во внимание, что если кто-то еще задал вам вопрос, даже если это не все в аудитории, они, по крайней мере, знают, что вы отвечаете на заданный вопрос.

Итак, я мог бы начать с объяснения того, почему я ожидаю стохастический градиентный спуск как процесс оптимизации, даже если вы попытаетесь взять что-то, что происходит во внешнем мире, и нажать кнопку выигрыша/проигрыша каждый раз, когда это происходит, а внешний мир не t создать ум, что в целом хочет это должно произойти во внешнем мире, но, возможно, это даже не то, что вы считаете основной проблемой. Как вы думаете, в чем здесь основная проблема? Почему ты уже не веришь в это? Позволь мне сказать.

Расс Робертс: Хорошо. Я выскажу вам свою точку зрения, которая быстро меняется. Мы брали интервью — «мы» — это королевское Мы. Я брал интервью у Николаса Бострома еще в 2014 году. Я читал его книгу, Сверхразум . Я нашел это неубедительным. ЧатGPT [Chat Generative Pretrained Transformer] Пришли вместе. Я пробовал. Я думал, что это было довольно круто. Появился ChatGPT-4. Я еще не пробовал 5, но видно, что путь прогресса кардинально отличается от того, что был в 2014 году. Тенденции очень разные. И я по-прежнему оставался несколько агностиком и скептиком, но я прочитал эссе Эрика Хоэля, а затем взял у него интервью об этой программе и пару вещей, которые он написал после этого.

Больше всего меня встревожила метафора — позже я обнаружил, что Николас Бостром использовал почти ту же метафору, и тем не менее она меня совсем не испугала, когда я прочитал ее у Николаса Бострома. Что увлекательно. Я, возможно, просто пропустил это. Я даже не помнил, что он там был. Метафора примитивна. Человек-зинджантроп или какая-то примитивная форма до-Homo sapiens сидит у костра, и человек появляется и говорит: «Эй, у меня есть много вещей, которым я могу тебя научить». ‘Ах, да. Заходи», и указывая на то, что, вероятно, мы либо уничтожены непосредственно убийством, либо, может быть, просто превосходим в конкуренции всех предшествующих гоминидов, которые были до нас, и что в целом вы не хотели бы приглашать что-то более умное, чем ты в костер.

Я думаю, что у Бострома есть похожая метафора, и эта метафора — которая всего лишь метафора — заставила меня задуматься больше, чем даже раньше. И у меня все еще был некоторый — скажем, большая часть моего скептицизма, что текущий уровень ИИ, который чрезвычайно интересен, разновидность ChatGPT, не кажется мне опасным сам по себе.

Элиэзер Юдковски: Я согласен.

Расс Робертс: Меня встревожило замечание Хоэла о том, что мы не понимаем, как это работает, и это меня удивило. Я этого не понимал. Я думаю, что он прав. Итак, эта комбинация «мы не уверены, как это работает», хотя появляется разумный, я не верю, что он разумен в настоящее время. Я думаю, некоторые из моих опасений по поводу его разума связаны с его способностью подражать разумные существа. Но тот факт, что мы не знаем, как он работает, и что он может развивать возможности, которые мы в него не вкладывали — в экстренном порядке — несколько настораживает.

Но я не там, где ты. Итак, почему ты там, где ты, а я там, где я?

Элиэзер Юдковски: Хорошо. Ну, предположим, я сказал, что они продолжат работу над технологией. Может быть, этого точного алгоритма и методологии достаточно, чтобы, как я бы сказал, пойти до конца — стать умнее нас, а потом всех убить. И, например, вы, может быть, не думаете, что это произойдет… и, может быть, потребуется еще от нуля до трех фундаментальных алгоритмических прорывов, прежде чем мы продвинемся так далеко, и тогда это убьет всех. Так, типа, где ты собираешься сходить с этого поезда до сих пор?

Расс Робертс: Итак, почему это убивает нас? Почему это убьет нас? Прямо сейчас это действительно хорошо для создания очень, очень вдумчивой записки с соболезнованиями или запроса на собеседование, которое занимает гораздо меньше времени. И я неплохо разбираюсь в этих двух вещах, но это Действительно хорош в этом. Как он собирается попытаться убить нас?

Элиэзер Юдковски: Эм. Итак, в этом есть пара шагов. Один шаг в том, что в общем и в теории вы можете иметь умы с любым видом связных предпочтений, связных желаний, которые когерентны, стабильны, устойчивы при рефлексии. Если вы спросите их: «Хотят ли они быть кем-то еще?», они ответят: «Нет».

У вас может быть разум — ну, как я иногда выражаюсь, это представить себе, что сверхсущество из другой галактики явилось сюда и предложило вам заплатить невообразимо огромное количество денег, чтобы вы просто сделали как можно больше скрепок. Вы можете вычислить, например, какой план оставляет наибольшее количество скрепок. Если уместно спросить, как вы могли бы сделать это, если бы вам платили, то иметь ум, который хочет сделать это и строить такие планы ради них самих, не сложнее, чем сам процесс планирования. Утверждение, что разум хочет чего-то ради самого себя, не добавляет сложности процессу планирования, который определяет, как получить как можно больше скрепок.

Некоторые люди хотят сделать паузу и сказать: «Откуда вы знаете что правда?’ Для некоторых людей это просто очевидно. Где ты так далеко в поезде?

8:09

Расс Робертс: Итак, я думаю, что ваша точка зрения в том примере, который вы приводите, заключается в том, что сознание — давайте отложим это в сторону. Это не совсем центральная проблема здесь. У алгоритмов есть цели, и тип интеллекта, который мы создаем с помощью нейронных сетей, может генерировать их. собственный цели, может решить—

Расс Робертс: Вперед, продолжать.

Элиэзер Юдковски: Некоторый алгоритмы имеют цели. Во-первых, так что еще один момент, который не является тезисом об ортогональности, заключается в том, что если вы шлифуете, оптимизируете что-либо достаточно сложно для достаточно сложной проблемы, ну, люди, например, почему у людей есть цели? Почему бы нам просто не побегать вокруг, откалывая кремневые топоры и перехитрив других людей? Ответ заключается в том, что наличие целей оказывается очень эффективным способом[?] кремневые ручные топоры, когда вы достаточно далеко зайдете в линию млекопитающих или даже животных и мозг в целом, что есть вещь, которая моделирует реальность и спрашивает: «Как мне ориентироваться в реальности, проходящей сквозь нее?» Например, не с точки зрения большого формального процесса планирования, но если вы держите в руках кремневый топор, вы смотрите на него и думаете: «А, этот раздел слишком гладкий». Что ж, если я отколю этот участок, он станет острее».

Вероятно, к тому времени, когда вы немного попрактикуетесь, вы уже не будете думать о целях слишком усердно. Когда вы только начинаете формировать навык, ваши рассуждения о том, что «ну, если я сделаю это, произойдет то». Это просто очень эффективный способ достижения цели в целом. Итак, если вы возьмете организм, бегающий по саванне, и просто оптимизируете его для кремневых ручных топоров и, что, возможно, гораздо важнее, перехитрите своих собратьев-гоминидов, если вы будете молоть это достаточно усердно и достаточно долго, вы в конечном итоге выкашляете вид, чья компетенция начинает обобщаться. очень широко. Он может отправиться на Луну, даже если вы никогда не выбирали его с помощью пошагового процесса, чтобы все ближе и ближе приближаться к Луне. Он просто летит на Луну, один выстрел. Отвечает ли это на главный вопрос, который вы сейчас задаете?

Расс Робертс: Нет.

Элиэзер Юдковски: Нет. Хорошо.

Расс Робертс: Еще нет. Но давайте попробуем еще раз.

10:41

Расс Робертс: Пример со скрепкой, в темной форме ИИ хочет собрать почки, потому что оказывается, что есть способ использовать это, чтобы сделать больше скрепок. Итак, другой вопрос — и вы писали об этом, я знаю, так что давайте углубимся в это — как это выходит за рамки? Как он переходит от ответа на мои запросы к тому, чтобы делать что-то свое и делать это в реальном мире, верно? Не просто делать это в виртуальном пространстве?

Элиэзер Юдковски: Итак, есть две разные вещи, которые вы могли бы спросить там. Вы спросите: чем же все закончилось? желание сделать это? Или: Учитывая, что в конце концов он захотел это сделать, как он преуспевать ? Или, может быть, еще какой-то вопрос. Но, например, на что из этого вы хотите, чтобы я ответил, или вы хотите, чтобы я ответил на что-то совершенно другое?

Расс Робертс: Нет, давайте спросим обоих.

Элиэзер Юдковски: Чтобы?

Расс Робертс: Конечно.

Элиэзер Юдковски: Все в порядке. Итак, как люди в конечном итоге захотели чего-то другого, кроме инклюзивной генетической приспособленности? Например, если вы посмотрите на естественный отбор как на оптимизационный процесс, он очень сильно упирается в очень простую вещь, а именно не столько в выживание и даже не в размножение, сколько в увеличение частоты генов. Потому что большая частота генов очень вещество что оптимизируется и как это оптимизируется.

Естественный отбор — это зеркальное наблюдение: если гены вообще коррелируют с созданием большего или меньшего количества копий самих себя, если вы понаблюдаете за этим некоторое время, вы начнете видеть вещи, которые сделали больше копий самих себя в следующем поколении.

Градиентный спуск не точно как это, но они оба являются процессами восхождения на холм. Они оба перемещаются в соседние пространства с более высокой инклюзивной генетической приспособленностью и более низкой функцией потерь.

И все же люди, несмотря на то, что они оптимизированы исключительно для инклюзивной генетической пригодности нужен этот огромный набор других вещей. Многие вещи, которые мы берем сейчас, являются не столько вещами, которые были полезны в среде предков, сколько вещами, которые еще больше максимизируют цели, оптимумы которых в среде предков были бы полезны. Например, мороженое. В нем больше сахара и жира, чем в большинстве вещей, с которыми вы сталкивались в среде предков. Точнее, больше сахара, жира и соли одновременно.

Итак, это не то, к чему мы стремились в ходе эволюции, а гены выплюнули эти желания, эти критерии, которые вы можете направить на то, чтобы получить больше. Где в среде предков, если бы вы стремились к вещам в среде предков, которые на вкус были жирными, солеными, сладкими на вкус, у вас было бы больше детей — или у ваших сестер было бы больше детей — потому что вещи, которые коррелированный к тому, что вы хотите, поскольку эти корреляции существовали в среде предков, увеличивая приспособленность.

Итак, у вас есть эмпирическая структура того, что коррелирует с приспособленностью в среде предков; в конечном итоге у вас появляются такие желания, что, оптимизируя их в среде предков на том уровне интеллекта, когда вы получаете столько, на что вы созданы, чтобы хотеть, это повысит приспособленность.

А сегодня вы берете те же самые желания, и у нас больше интеллекта, чем у нас было во время тренировочной раздачи — образно говоря. Мы использовали наш интеллект для создания опций, которых не было в тренировочном дистрибутиве. Эти варианты теперь еще больше оптимизируют наши желания — вещи, которые мы были созданы психологически внутренне желать, — но этот процесс не обязательно так сильно коррелирует с фитнесом, потому что мороженое не является сверхпитательным.

Расс Робертс: В то время как спелый персик был…