Общий регламент по защите данных (GDPR), закон ЕС о защите данных, требует точность при обработке персональных данных. Но сервисы генеративного ИИ, такие как модели большого языка (LLM), могут «галлюцинировать» или отражать ложную, но широко распространенную информацию.
С одной стороны, такие неточности могут показаться неотъемлемой особенностью технологии. С другой стороны, некоторые крупные поставщики LLM стремятся сделать свои продукты более точными и, возможно, даже «организовать мировую информацию и сделать ее общедоступной и полезной», если позаимствовать знаменитое заявление о миссии Google.
То, как мы решим думать об этом, имеет значение, поскольку это может существенно повлиять на то, как закон о защите данных будет применяться к ИИ.
Рассмотрим следующую точку зрения, представленную некоторыми активистами по защите конфиденциальности:
- LLM могут быть вынуждены предоставить неточные данные об идентифицируемых лицах;
- По крайней мере, некоторые случаи (1) представляют собой нарушения GDPR (в частности, его принципа точности);
- LLM может предоставляться на законных основаниях только в ЕС, если сделать (1) технически невозможным;
- (3) в настоящее время неосуществимо; поэтому
- LLM являются незаконными в соответствии с GDPR.
Давайте рассмотрим этот логический вывод, размышляя о ценности LLM и о том, как наши юридические интерпретации могут быть окрашены повествованиями, которые мы принимаем об этой технологии. Аналогия, которую я здесь провожу, связана с тем, как закон ЕС о защите данных учитывает поисковые системы, что, по моему мнению, соответствует принципу точности согласно GDPR. Я также считаю, что осторожный оптимизм остается правильным подходом к все еще нереализованному потенциалу технологии искусственного интеллекта.
LLM могут быть вынуждены предоставлять неточные данные об идентифицируемых лицах
Можно побудить LLM выдавать результаты, которые, возможно, связаны с идентифицируемыми людьми, но содержат «факты» об этих людях, которые не соответствуют действительности. Не каждый случай этого имеет отношение к GDPR. Как я отметил в недавнем информационном бюллетене:
… тот факт, что мы можем получить персональные данные на выходе модели, не обязательно означает, что модель обрабатывает персональные данные. Действительно, это может произойти как минимум по двум другим причинам:
- Пользователи могут предоставлять личные данные непосредственно в своих подсказках; и
- Модели часто генерируют выходные данные, которые кажутся личными данными (истинными или вымышленными), основанными не на «запомненной» информации, а на статистической вероятности.
Например, если спросить о «Джоне Смите», модель может предположить, что это мужчина, и, если ей будет присвоена должность, может сделать вывод о вероятном году рождения, исходя из подразумеваемого трудового стажа.
Однако я также отметил, что «есть случаи, когда модели выводят персональные данные, не подразумеваемые подсказками». Это случается с общественными деятелями и другими лицами, чья «информация так часто появляется в обучающих данных, что она представляется в виде весов модели и может быть получена с помощью специальных подсказок».
Я не думаю, что я публичный человек в традиционном понимании. Тем не менее, я появляюсь в Интернете во многих местах, что, я думаю, объясняет, почему я могу задавать вопросы магистрам права о себе и получать результаты, которые, возможно, связаны со мной, не подразумеваемые моими подсказками.
Являются ли неточности нарушением GDPR?
Выходные данные LLM, содержащие неточную информацию о ком-либо, не всегда и не обязательно представляют собой нарушение GDPR. Противоположная интерпретация будет рассматривать точность как абсолютное требование, игнорируя тот факт, что даже права на конфиденциальность и защиту данных, которые призван защищать GDPR, не являются абсолютными.
Может ли любой случай предоставления LLM неточной информации быть нарушением GDPR? Предположительно, да. Например, это может быть тот случай, когда поставщик услуг LLM не может предпринять разумные пропорциональные шаги в пределах своих полномочий и возможностей для снижения этого риска. Ключевой вопрос: чего можно ожидать от поставщиков услуг? Где мы должны провести черту?
Стандартная операционная процедура для LLM — по крайней мере, тех, которые разработаны крупными игроками США и ЕС — включает в себя методы как разработки, так и внедрения:
- автоматическое удаление персональных данных из обучающих данных;
- использование синтетических данных;
- методики обучения (г. методы регуляризации для улучшения обобщения и уменьшения переобучения);
- посттренировочные методики (г. обучение с подкреплением на основе отзывов людей, или «RLHF», чтобы «научить» модель отказываться отвечать на вопросы о людях, которые не являются публичными личностями);
- гарантии развертывания (г. фильтрация подсказок/выходных данных, сбор отзывов пользователей); и
- механизмы подотчетности (процедуры реализации перечисленных выше технологий, документация, обучение сотрудников и т. д.).
Можно надеяться, что те и другие методы будут постоянно совершенствоваться. Американские и европейские поставщики ИИ пытаются сбалансировать предложение полезных услуг и снижение риска предоставления неточных данных о реальных людях. Юридический вопрос заключается в том, наносят ли они в соответствии с GDPR верно баланс.
Ценность LLM в соответствии с законодательством ЕС
Чтобы ответить на этот вопрос, нам необходимо рассмотреть ценить LLM с точки зрения законодательства ЕС. Даже если принять тот очевидный факт, что принцип точности GDPR не является абсолютным, противники ИИ могут утверждать, что LLM приносят настолько небольшую пользу, что даже самые ограничительные меры по обеспечению точности LLM на самом деле являются пропорциональными. Поэтому чрезвычайно важно, как мы думаем о LLM: какую повествовательную или ментальную модель мы строим? Для упрощения я предложу две такие модели.
Сосредоточение внимания на LLM как на «случайных» или «вероятностных» программах.
С этой точки зрения ценность программ LLM заключается в их способности удивлять нас, предлагать творческие решения и даже помогать нам выражать себя. Это нетривиальные соображения, и они, возможно, могут подпадать под фундаментальную свободу выражения мнения в соответствии с Хартией ЕС об основных правах.
Более того, принятие этой формулировки может стать веским аргументом в пользу того, что требование точности не распространяется непосредственно на результаты LLM, поскольку они не являются тем выражением, которое можно оценивать как истинное или ложное. Хотя это не совсем мнения или карикатуры, они могут требовать такого же правового режима, как и те более традиционные формы выражения, которые не представляют собой констатацию фактов.
Однако можно также утверждать, что, если это основная выгода LLM, дальнейшие ограничения на развитие и внедрение LLM могут быть пропорциональными. Возможно, это может включать некоторые ограничения на то, какие обучающие данные можно использовать (например исключая веб-сайты, анонимизировать которые сложно). И, возможно, поставщикам LLM следует делать больше, чтобы представить LLM как инструменты, которые не следует рассматривать как предоставление фактической информации. В какой-то степени это уже делается «мелким шрифтом» в интерфейсах чатов и даже в выводах моделей:
Возможно, такие предупреждения и отказы можно было бы сделать более заметными и частыми, хотя за это, скорее всего, придется заплатить определенную цену полезности модели.
LLM как инструменты «организации мировой информации и сделать ее общедоступной и полезной»
Я намеренно процитировал миссию Google Search. Суды ЕС уже признали ключевую роль поисковых систем в обеспечении европейской свободы слова и информации. Фактически это была ключевая причина, по которой суды проявили гибкость в применении закона ЕС о защите данных к поисковым системам, принимая во внимание полномочия и возможности их операторов.
Пользователи уже относятся к LLM нравиться поисковые системы (они запрашивают у них информацию) и даже как поисковые системы (они запрашивают ссылки на соответствующие интернет-источники). Поставщики услуг LLM реагируют на этот спрос, стремясь сделать свои продукты более точными и предоставить пользователям доступ к большему количеству информации. На данный момент неточность остается проблемой, но рассматривается как проблема, которую необходимо преодолеть.
С этой точки зрения, даже дополнительные ограничения, которые могут показаться пропорциональными в рамках первой предложенной мной концепции (думая о магистратуре высшего образования главным образом как о «инструментах творчества»), скорее всего, окажутся непропорциональными. Это особенно касается ограничений, которые могут противоречить точности, например, ограничения потенциальных источников обучающих данных.
Фактически, разработчики LLM, возможно, в некотором смысле уже делают больше, чем того требует закон ЕС о защите данных. Можно возразить, что удаление личной информации из обучающих данных делает эти инструменты менее полезными для доступа к информации. Действующее законодательство также не предъявляет подобных требований к поисковым системам —т.е. широко признано и не подвергается серьезному сомнению в соответствии с законодательством ЕС о защите данных, что использование Google разрешено.
Да, у нас есть процедуры «исключения из списка» по просьбе заинтересованного лица. Но даже это обычно не предполагает удаление личных данных из поисковых индексов (например ., имя, исключенное из списка, по-прежнему может появляться в результатах поиска в заголовке веб-сайта или фрагменте текста в ответ на поисковый запрос, который не включает это имя).
Важность осторожного оптимизма
Как я уже говорил здесь, можно многому научиться из того, как закон ЕС о защите данных адаптировался к поисковым системам. Столкнувшись с поисковыми системами, Суд ЕС продемонстрировал замечательную дальновидность, решив не применять самую строгую интерпретацию закона о защите данных. Хотя следует отметить, что Суд вынес такое решение в 2014 году, когда технология поиска уже была достаточно зрелой.
Сегодняшние LLM, напротив, находятся в том же положении, в котором поисковые системы оказались в конце 1990-х годов: новые технологии с огромным потенциалом, но также и со значительной неопределенностью. Если мы представим себя в 1998 году и размышляем о том, как регулировать поисковые системы, то станет ясно, насколько недальновидно было бы вводить чрезмерно ограничительные правила, которые могли бы задержать их развитие. Преимущества, которые мы сейчас считаем само собой разумеющимися от поисковых технологий, возможно, никогда бы не материализовались при более строгом режиме регулирования.
Случай поиска учит нас, что осторожный оптимизм часто служит обществу лучше, чем ограничительный скептицизм, когда речь идет о преобразующих технологиях.
Что это означает для ценности LLM и наших ментальных моделей того, какую роль LLM должны играть? Первая мысленная модель, которую я предложил, возможно, лучше соответствует текущим ограничениям технологии; LLM действительно иногда дают неточные результаты. Но вторая модель лучше отражает то, как люди хотят использовать услуги LLM (для организации и доступа к информации) и направление, в котором эта технология может развиваться. Возможно, какие-то неточности будут всегда, даже при значительных технологических усовершенствованиях, как и в информации, доступ к которой осуществляется через поисковые системы. Инструменты не обязательно должны быть идеальными, чтобы быть полезными или даже иметь решающее значение для доступа к информации.
Мы можем принять вторую ментальную модель ценности программ LLM, если примем осторожно-оптимистический подход к их возможностям. Исходя из этого, мы должны применять законодательство ЕС о защите данных таким образом, чтобы полностью учитывать значительную ценность, которую такие модели могут принести с точки зрения фундаментальных прав. Это приводит нас к юридической интерпретации, которая требует гибкости, подобной той, которую мы уже распространили на поисковые системы.