Для построения большой языковой модели (LLM) нужны сотни терабайт (если не петабайты) обучающих данных. Но откуда вы, как разработчик, берете все эти данные? И после того, как вы построили свою модель, как вы можете быть уверены, что вам не грозит судебный иск, если выяснится, что вы по незнанию использовали защищенные авторским правом или неточные данные?

В некоторых случаях было обнаружено, что разработчики ИИ собрали или украли сотни гигабайт пиратских электронных книг, проприетарного кода или личных данных из онлайн-источников — без согласия вовлеченных субъектов или авторов. Учитывая, что стандартом для LLM сегодня является тот, кто может читать стихи, писать на Python и объяснять квантовую физику, это создает конкурентный стимул для компаний создавать максимально большие модели.

Это не только повышает вероятность того, что люди будут собирать защищенные авторским правом данные о тренировках в гонке для достижения определенного количества параметров, но также приводит к увеличению ущерба окружающей среде и неточным результатам. Во многих ситуациях вместо LLM нам нужны интеллектуальные языковые модели (SLM). Это будут модели с горизонтальной базой знаний, использующие разумное количество обучающих данных, полученных из этических источников, но адаптированные для решения конкретной бизнес-задачи.

Избегайте защищенных авторским правом или незаконных наборов данных

Если вы хотите убедиться, что ваша модель ИИ сможет выдержать бурю регулирования ИИ в течение следующих нескольких лет, самый простой способ — убедиться, что вы исследовали и проверили источник всех своих обучающих данных. Это легче сказать, чем сделать.

Природа технологического ландшафта значительно упрощает гиперскейлерам, таким как Amazon или Microsoft, создание и обучение собственных моделей. У них есть горы пользовательских данных, собранных из разных подразделений бизнеса, для питания их нейронных сетей. Для стартапа, стремящегося найти свою нишу на рынке путем обучения новой модели, сбор аналогичного объема данных при уклонении от материалов, защищенных авторским правом, может показаться невыполнимой задачей.

Для начала выполните обычные шаги: убедитесь, что у вас есть необходимые разрешения или лицензии для доступа и использования выбранных вами наборов данных, и настройте правила для управления сбором и хранением пользовательских данных.

Кроме того, подумайте, может ли использование меньшего набора данных для обучения вашей модели или точная настройка существующей альтернативы с открытым исходным кодом быть более эффективным решением. Это упрощает сбор достаточного количества данных и проверку их происхождения, и хотя эта модель может иметь менее широкое применение, чем ChatGPT или Bard, вы можете использовать это как возможность повысить ее надежность для определенного домена или отрасли.

Есть, конечно, и другая альтернатива. С органическими обучающими данными возникает множество проблем, связанных с авторскими правами, точностью и предвзятостью — вот почему многие люди в сообществе ИИ являются сторонниками синтетических обучающих данных. Если мы сможем синтезировать данные для конкретной задачи, это позволит обучать модели с гораздо более высокой степенью точности, полностью избегая проблем с авторскими правами.

Такое изобретательное мышление жизненно необходимо. В конце концов, для каждой модели, которую мы называем умной, ее создатель был еще умнее в том, как они использовали существующие модели, точки данных и анализ данных для подготовки, масштабирования и обработки своих данных.

Подумайте о конкретной болевой проблеме, которую вы хотите решить, например, найти нужную статью в огромном количестве научных исследований), а затем обучите свою модель на сфокусированном, помеченном наборе данных, полученном из авторитетных источников в этой области, что в вышеупомянутом случае было бы быть академическим исследованием с открытым исходным кодом.

Опять же, качество модели напрямую связано с тем, насколько умным вы можете быть как ее разработчик. Уровень тщательности и находчивости, которые вы вкладываете в сбор данных, будет отражать, насколько горизонтальной и качественной вы можете ожидать модель.

Избегайте дезинформации и неточных ответов

Еще одним преимуществом создания высококачественного проверенного набора обучающих данных является то, что ваши пользователи могут полагаться на ваши модели для получения точных и обоснованных ответов, что сокращает распространение дезинформации и галлюцинаторных реакций.

Каждый день мы читаем истории о таких моделях, как ChatGPT или Bard, которые дают неточные или откровенно ложные ответы на вопросы. Если вы хотите построить адаптируемую, эффективную и точную модель, которая выдержит испытание временем, вам необходимо сделать проверку фактов ключевой частью архитектуры вашей модели.

У нас есть возможность изменить базовую механику нейронных сетей, чтобы отдать приоритет точности и качественному обучению. Эти модели на сегодняшний день были построены для сбора большого количества информации, а затем выдачи ее в последовательности, но без внутреннего понимания того, как они выстраиваются в линию.

Нам нужно создавать модели, которые более избирательны в своем обучении без учителя, имеют повышенную продолжительность концентрации внимания и могут с большей легкостью фокусироваться — используя внутренние механизмы для фильтрации данных, прежде чем вводить их в процесс обучения.

Более разумный способ построения языковых моделей

Прямо сейчас LLM, построенные гиперскейлерами, потребляют электроэнергию и ресурсы небольшого города, и это только увеличивается. Только обучение GPT-3 стоит 355 лет однопроцессорного вычислительного времени и 284 000 кВтч энергии — в 10 раз больше, чем GPT-2. Помимо вреда, который это наносит нашей планете, это крайне неэффективно. Модернизируя процесс обучения и сокращая список конкретных вариантов использования, мы можем создавать перспективные и устойчивые модели.

Если у вас есть конкретный вариант использования, в котором ИИ может вам помочь (например, сканирование новых научных патентов на предмет потенциальных нарушений), зачем вам модель, чтобы она могла читать Шекспира? Больше данных не всегда приводит к улучшению системы, а в специализированных технических областях, таких как материаловедение или медицинская литература, качество намного важнее количества.

Есть еще одна идея, которая может помочь вам обойти проблемы с авторскими правами, связанные с обучением LLM. Подумайте, как вы могли бы использовать множество агентов интеллектуальной языковой модели — с более автономным самостоятельным управлением в достижении своих целей — для решения нескольких аспектов бизнес-проблемы, вместо того, чтобы искажать и изгибать один LLM для ее решения. все вместе.

Лидеры отрасли, такие как Эндрю Нг, призвали к разработке «ориентированного на данные ИИ», который фокусируется на разработке данных, необходимых для построения конкретной модели ИИ. Это движение направлено на повышение качества и маркировки данных, чтобы они соответствовали эффективности и методам новейших алгоритмов.

Если вы хотите построить модель ИИ таким образом, чтобы не попасть в неприятную ситуацию с точки зрения авторских прав, убедитесь, что вы придерживаетесь основ и ставите качество выше количества. Изучите свои источники, поймите, сколько данных вам нужно собрать для конкретного варианта использования, и создайте механизмы фактической проверки для обеспечения точности.

Давайте работать вместе над созданием более разумных языковых моделей, а не только более крупных.

Главный образ: Студия мечты

Соучредитель и генеральный директор Iris.ai Анита Шёлль Бреде присоединится к нам в Брюсселе 24 мая на саммите Tech.eu. Билеты сейчас в продаже.