Консультации с заинтересованными сторонами Европейского совета по защите данных (EDPB) 5 ноября по моделям искусственного интеллекта и защите данных, организованные для сбора материалов для предстоящего заключения Ирландской комиссии по защите данных в соответствии со статьей 64 (2) Общего регламента защиты данных (GDPR), продемонстрировали значительные сохраняющиеся разногласия по поводу того, как GDPR следует применять к ИИ.

Хотя это мероприятие не было предназначено для того, чтобы рассказать нам много о том, в каком направлении будет двигаться EDPB, оно помогло определить некоторые важные позиции в более широких дебатах. Примечательно, что некоторые активисты выступают за интерпретацию GDPR, чтобы фактически запретить некоторые исследования и бизнес-приложения в области искусственного интеллекта, в том числе те, которые уже используются ежедневно миллионами европейцев.

Модели искусственного интеллекта и определение «персональных данных»

Сначала участников попросили обсудить технические методологии, позволяющие оценить, продолжают ли модели ИИ, обученные на личных данных, обрабатывать такие данные; инструменты и подходы для оценки рисков, связанных с извлечением и регургитацией данных; и превентивные меры по защите персональных данных в моделях искусственного интеллекта, включая как исходные, так и последующие меры контроля.

Во время первоначального обсуждения быстро возникло центральное разногласие относительно того, включают ли модели ИИ персональные данные или хранят ли они их. Некоторые участники утверждали, что такие модели, как большие языковые модели (LLM), не следует рассматривать как базы данных персональных данных после обучения, поскольку они функционируют как математические модели, которые изучают статистические закономерности, а не хранят конкретную информацию.

Эта точка зрения была решительно оспорена некоторыми представителями НПО, которые отметили, что персональные данные можно извлечь из моделей с помощью специальных методов подсказки. Они охарактеризовали ситуацию как продолжающуюся «гонку вооружений» между теми, кто пытается защитить персональные данные, и теми, кто находит новые способы их извлечения, утверждая, что единственным надежным решением было бы вообще избегать использования персональных данных. Было даже предложено запретить использование персональных данных ни на каком этапе разработки и использования ИИ (что, я бы сказал, было бы равносильно запрету, по крайней мере, на получение степени LLM).

Еще один существенный спор возник относительно того, какие сценарии тестирования следует учитывать при оценке личных данных в моделях ИИ. Некоторые участники утверждали, что при этой оценке следует учитывать только нормальные, предполагаемые модели использования. Другие категорически не согласились, утверждая, что при оценке того, обрабатывает ли модель персональные данные, необходимо также учитывать потенциальные попытки взлома и состязательные методы.

Мой собственный вклад в дискуссию был сосредоточен на генеративных моделях ИИ — и, в частности, на LLM — поскольку я подчеркивал подсказку как технический метод изучения самих моделей. Важный нюанс, который может быть упущен: тот факт, что мы можем получить персональные данные на выходе модели, не обязательно означает, что модель обрабатывает персональные данные. Действительно, это может произойти как минимум по двум другим причинам:

  1. Пользователи могут предоставлять личные данные непосредственно в своих подсказках; и
  2. Модели часто генерируют выходные данные, которые кажутся личными данными (истинными или вымышленными), основанными не на «запомненной» информации, а на статистической вероятности.

Например, если спросить о «Джоне Смите», модель может предположить, что это мужчина, и, если ей будет присвоена должность, может сделать вывод о вероятном году рождения, исходя из подразумеваемого трудового стажа.

Я признал, что бывают случаи, когда модели выводят персональные данные, не подразумеваемые подсказками. Я проиллюстрировал, как это часто происходит с общественными деятелями, где информация настолько часто появляется в обучающих данных, что она представляется в виде весов модели и может быть получена с помощью специальных подсказок. Я отметил, что это вызывает интересные параллели с судебной практикой Суда Европейского Союза (CJEU) в отношении поисковых систем и Google Испания дело о свободе информации об общественных деятелях.

Однако я также отметил более тонкий случай: мы также можем получить персональные данные в результатах модели для людей, которые часто появляются в обучающих данных, несмотря на то, что они не являются традиционными общественными деятелями — например кто-то с несколькими общедоступными веб-сайтами. Трудно оценить, насколько распространено это явление, поскольку оно может быть настолько редким в рамках общей модели, что его следует считать случайным, а не систематическим.

Эти технические наблюдения не определяют автоматически, следует ли нам рассматривать модели как хранящие персональные данные в весах моделей с точки зрения GDPR. Это остается отдельным юридическим вопросом, требующим тщательного рассмотрения. Одним из важных вопросов для этого анализа является то, является ли обработка персональных данных второстепенной для обучения, развертывания и использования моделей ИИ. Я рекомендую статью Питера Крэддока. по этому вопросу но учтите, что это спорно.

Один из участников дискуссии предположил, что для определения того, имеет ли место обработка персональных данных, следует ориентироваться не на то, что статистически вероятно, а на выбросы. Был приведен пример журналиста, который освещал уголовные дела и впоследствии сам был связан с преступностью в модельных материалах. С этой точки зрения, даже исчезающе малого числа таких случаев в модели с сотнями миллиардов или более параметров (капля в море) будет достаточно для применения GDPR. Но такое прочтение оставило бы очень малую часть нашей жизни без регулирования GDPR, что привело бы к бюрократическому кошмару, который полностью дискредитировал бы закон. Закон всего рискует оказаться законом ничего.

Что касается того, как оценить риски срыгивания и «извлечения» личных данных, я сосредоточился на этапе после обучения генеративных моделей ИИ и LLM, когда доступны только веса модели. Мне неизвестен какой-либо комплексный метод, который позволил бы нам идентифицировать все — или даже большинство — случаев, когда генерация личных данных возможна, не подразумеваясь подсказкой. Хотя можно попытаться исследовать модели с помощью имен или идентифицирующей информации о различных людях (и хотя существуют документированные «магические» подсказки, которые иногда дают результаты), эти методы ограничены. В лучшем случае они раскрывают лишь отдельные примеры персональных данных.

Этот подход также рискует оказаться очень случайным, что затрудняет достижение значимой оценки риска или вероятности. Основная проблема заключается в том, что, хотя вы и сможете доказать, что некоторые персональные данные могут быть сгенерированы в выходных данных модели, это не скажет нам, являются ли такие случаи просто случайными или указывают на более широкую проблему.

Крупные разработчики ИИ уже внедряют автоматизированные методы удаления личных данных из наборов обучающих данных, такие как выявление и фильтрация информации, связанной с вероятными именами, фамилиями и датами рождения. Но ожидать полного удаления персональных данных из данных обучения LLM было бы несоразмерно даже на этапе юрисдикционного вопроса о том, обрабатываются ли персональные данные по смыслу GDPR. Хотя стандарты по минимизации риска использования личных данных в обучающих данных были бы полезны, возможно, было бы более эффективно установить поведенческие стандарты, а не устанавливать конкретные показатели, которых необходимо достичь. Управление рисками может быть лучше достигнуто за счет подотчетности в процессе разработки модели, а не за счет постфактум оценка.

Некоторые участники также подчеркнули важность различия между различными типами моделей ИИ, отметив, что, хотя большая часть обсуждений была сосредоточена на LLM, другие приложения (например, медицинская визуализация) вызывают особые соображения. Они также подчеркнули важность рассмотрения различных этапов: разработки, обучения и развертывания.

Законный интерес как правовая основа

Второе заседание EDPB было сосредоточено на положении статьи 6(1)(f) GDPR о законных интересах как потенциальной правовой основе для разработки и внедрения модели ИИ. Обсуждения были сосредоточены на:

  • На этапе обучения меры по обеспечению баланса интересов контролеров с правами субъектов данных, различия между обработкой персональных данных первой и третьей стороной, а также практические меры защиты и контроля во время создания и обучения модели; и
  • На этапе после обучения необходимо учитывать развертывание и переподготовку, влияние потенциально незаконного первоначального обучения на последующее использование модели, а также постоянный мониторинг и корректировку мер по балансированию.

Ключевой момент обсуждения касался роли прав субъектов данных в тесте на баланс. Некоторые участники, особенно представители промышленности, подчеркнули технические проблемы при реализации определенных прав, особенно в контексте обучения моделям ИИ. Они утверждали, что переподготовка моделей для обработки отдельных запросов на возражения будет непропорционально дорогостоящей и технически сложной.

Другие, в основном из организаций гражданского общества, возражали, что эти технические ограничения не должны отменять фундаментальные права, гарантированные GDPR. Они отметили, что, если компании получают экономическую выгоду от ИИ, они также должны нести расходы на соблюдение прав субъектов данных.

Заметный спор возник вокруг сроков предоставления права на возражение. Представители промышленности в целом высказались за заранее подход, при котором люди могут отказаться от участия до начала обучения. Однако некоторые участники, особенно защитники конфиденциальности, утверждали, что этот подход в корне неверно понимает статью 21 GDPR, которая предусматривает право на возражение после начала обработки в соответствии с законным интересом. Они утверждали, что перенос возражения непосредственно перед обработкой фактически сведет на нет его цель в рамках структуры GDPR.

По вопросу необходимости и балансирования некоторые утверждали, что многие из обсуждаемых технических мер (таких как минимизация данных, использование синтетических данных и технологии повышения конфиденциальности) на самом деле относятся к тесту необходимости, а не к балансированию. Это различие потенциально важно, поскольку необходимость является предпосылкой, которая должна быть удовлетворена до достижения стадии балансирования. Однако вопрос о том, будет ли критерий соразмерности применяться таким аккуратным образом в законодательстве ЕС, это другой вопрос.

Я подчеркнул два основных момента, касающихся теста баланса законных интересов при обучении модели ИИ. Во-первых, мы должны подойти к вопросу баланса в контексте того, на какие законные интересы могут опираться контролеры. Я подчеркнул, что наилучшей интерпретацией GDPR будет та, которая полностью соответствует статье 52(1) Хартии основных прав, принимая во внимание не только права на неприкосновенность частной жизни и защиту данных, но также свободу выражения мнений и информации, среди прочего.

Проводя параллели с прецедентным правом, я указал на то, как СЕС подошёл к поисковым системам в Интернете, как в Google Испания и более поздние случаи. Контролеры должны иметь возможность полагаться не только на коммерческие интересы, но и на соображения, аналогичные тем, которые обсуждались Генеральный адвокат Ниило Яэскинен в Google Испания относительно поисковых систем, в частности, о том, как услуги на основе искусственного интеллекта облегчают свободу слова и информации европейцам. Есть убедительные доводы в пользу того, что инструменты ИИ не только уже важны для европейцев, но, вероятно, станут даже более важными, чем поисковые системы. Любая интерпретация GDPR, не учитывающая это, будет несовместима с Хартией.

Что касается практического различия между собственными и сторонними данными, разработчикам ИИ, обрабатывающим собственные данные, возможно, будет проще полагаться на законный интерес в качестве правовой основы. Прямые отношения с субъектами данных обеспечивают практические преимущества для реализации гарантий и соблюдения прав. Например, наличие инфраструктуры веб-аккаунтов упрощает обработку запросов с правом на возражение. Эта прямая связь также позволяет более эффективно общаться с субъектами данных о деятельности по обработке и их правах.

Некоторые участники предположили, что, поскольку разработчики ИИ могут запрашивать у пользователей предварительное согласие в контексте первой стороны, это должно означать, что эти разработчики должны полагаться на согласие, а не на законное…