У Александры Эберт, пожалуй, самая крутая должность в истории: директор по искусственному интеллекту и демократизации данных в MOSTLY AI.
Имея магистерскую диссертацию в области машинного обучения и GDPR, Эберт привносит глубокие знания в свою роль, а также возглавляет экспертную группу IEEE Synthetic Data IC (Ассоциация стандартов IEEE) и ведет подкаст о демократизации данных.
После получения степени магистра она начала работать в MOSTLY (основана в 2017 году), компании по производству синтетических данных, которая позволяет организациям создавать полностью анонимные наборы данных, сохраняющие статистические свойства исходных данных.
Сохранение конфиденциальности Платформа синтетических данных имитирует реальные данные, не раскрывая конфиденциальную информацию, благодаря высокоточным выходным данным, которые признаны одними из самых точных на рынке, что делает их подходящими для передовых приложений искусственного интеллекта и машинного обучения.
Платформа MOSTLY позволяет организациям безопасно разблокировать доступ к своим конфиденциальным информационным активам и реализовать весь потенциал этих данных для внедрения инноваций в области искусственного интеллекта и, таким образом, решить проблемы анонимизации исторических данных.
Недавно компания запустила первый в отрасли набор инструментов для обработки синтетических данных (SDK) с открытым исходным кодом, позволяющий любой организации легко создавать высококачественные, безопасные для конфиденциальности синтетические наборы данных из конфиденциальных проприетарных данных в рамках собственной вычислительной инфраструктуры.
Но прежде чем мы углубимся в то, что он предлагает, давайте рассмотрим, зачем он нужен.
Проблема с технологией анонимизации данных
По словам Эберта:
«Существует множество технологий анонимизации, которые, как ни странно, все еще используются на сегодняшний день, несмотря на то, что исследователи уже несколько десятилетий кричат, что они не безопасны для конфиденциальности и не соответствуют GDPR».
Традиционные методы, такие как маскировка и обфускация, относятся к эпохе малых данных. В прошлом у организаций был доступ только к нескольким точкам данных для каждого клиента — возможно, к основным демографическим данным и некоторой информации об учетных записях. Эти методы были по своей сути разрушительными при применении к исходному набору данных».
Например, банк с таблицей данных о клиентах может отредактировать конфиденциальные данные, такие как фамилии и номера социального страхования, с помощью черного маркера.
Даже детали транзакции могут быть изменены — ваш кофе в Starbucks может быть больше не указан как 7 долларов, а вместо этого может быть оценен в диапазоне от 5 до 10 евро или фунтов.
«Цель состояла в том, чтобы скрыть данные до тех пор, пока они не будут казаться достаточно анонимными.
Однако исследования неоднократно демонстрировали, что такие методы неэффективны в эпоху больших данных. Сегодня крупные предприятия обычно владеют сотнями, если не тысячами или даже десятками тысяч, точек данных на каждого клиента.
Например, при проведении транзакций по кредитным картам для повторной идентификации часто бывает достаточно знать только продавца и дату трех отдельных транзакций процент клиентов».
По словам Эберта, другая проблема заключается в том, что «ИИ процветает на данных. Если у организации изначально было 10 000 точек данных на одного клиента, но был Сократившись до трех или пяти из-за анонимизации, общая ценность набора данных значительно уменьшится.
Это создает дилемму: предприятиям нужны высококачественные данные для получения информации и инноваций, но традиционные методы защиты конфиденциальности ставят под угрозу их полезность».
Ценность синтетических данных
В отличие от традиционных методов, которые изменяют, маскируют или удаляют информацию из существующего набора данных, платформа синтетических данных MOSTLY использует генеративный искусственный интеллект для анализа и понимания структуры, шаблонов и взаимосвязей данных.
«Проще говоря, модель ИИ может изучить, как ведут себя клиенты конкретного банка, поставщика телекоммуникационных услуг или медицинской страховой компании с течением времени, фиксируя тенденции, зависимости и корреляции.
Например, он может определить, будет ли клиент, который посещает Starbucks утром, скорее всего, пообедать в ресторане или совершить покупку на Amazon позже в тот же день. Эти поведенческие модели могут быть автоматически обнаружены и воспроизведены, сохраняя статистическую целостность данных и обеспечивая конфиденциальность».
ГЛАВНЫМ ОБРАЗОМ Технология искусственного интеллекта включает в себя полный набор механизмов конфиденциальности, чтобы гарантировать, что никакие личные секреты не будут услышаны или сохранены. ИИ извлекает обобщенные шаблоны на очень детальном уровне, предотвращая включение уникально идентифицируемых индивидуумов.
Детали Эберта:
«Например, если в набор данных включен человек, который отличается от других, как Билл Гейтс, он будет исключен для предотвращения нарушения неприкосновенности частной жизни, особенно в регионах с меньшим количеством счетовВ Австрии они были в Австрии по сравнению с США.
Точно так же, если бы было всего пять человек с чрезвычайно редким заболеванием, они также были бы удалены для защиты их частной жизни.
Однако, когда характеристики проявляются в больших группах — скажем, 20, 30 или 50 человек — эти закономерности могут быть сохранены, сохраняя при этом конфиденциальность защита. «
Процесс включает в себя три ключевых этапа:
- Продвинутое обучение на основе искусственного интеллекта,
- Строгие механизмы конфиденциальности для фильтрации однозначно идентифицируемых лиц,
- Совершенно отдельный генеративный процесс, который создает синтетические данные с нуля без изменения или перетасовки исходного набора данных.
Это обеспечивает как защиту конфиденциальности, так и сохранение ценной статистической информации.

MOSTLY работает с компаниями из списка Fortune 100 в Европе, Северной Америке и Азии и привлекла 31 миллион долларов с момента своего запуска. Среди клиентов — CitiBank, Министерство внутренней безопасности США, Erste Group, Telefonica и два из пяти крупнейших банков США.
Первый в мире набор инструментов с открытым исходным кодом для создания безопасных для конфиденциальности синтетических данных.
Как часть набора инструментов MOSTLY, SDK для синтетических данных доступен в виде отдельного пакета Python по адресу https://github.com/mostly-ai/mostlyai под полностью разрешительной лицензией Apache v2. Более того, он прост в использовании.
Эберт поделился:
«Мы гарантируем, что наша технология очень проста в использовании, потому что раньше, с устаревшей анонимизацией, вам нужно было быть экспертом. С Mostly AI вам не нужно решать, как защитить конфиденциальность.
Механизмы активируются автоматически для любого набора данных, который вы вводите, чтобы обеспечить полную анонимность».
Однако, по словам Эберта, в то время как организации стремятся к широкому использованию данных в искусственном интеллекте и инновациях, данные остаются разрозненными и недоступными для большинства сотрудников, а у привратников нет мотивации для обмена.
«В прошлом доступ к данным осуществлялся в индивидуальном порядке. Предприятия обращались к нам с конкретными проблемами, такими как улучшение моделей оттока клиентов, которые не оправдали себя из-за низкого качества обучающих данных.
Строгие правила, такие как GDPR, запрещали доступ к производственным данным, поэтому они искали синтетические наборы данных, которые соответствовали бы требованиям конфиденциальности и отличались высоким качеством».
Сегодня происходит сдвиг в сторону демократизации данных в масштабах всего предприятия, что позволяет каждому сотруднику эффективно использовать ИИ, а руководители стремятся усилить технические команды, отделы маркетинга, продаж и другие бизнес-подразделения.
Ценность открытого исходного кода
По словам Эберта, открытый исходный код играет решающую роль в миссии MOSTLY по демократизации данных:
«Нашей миссией всегда была демократизация данных, и мы считаем, что это настолько важный ресурс, что нам необходимо открыть доступ к данным не только для бизнеса, но и для общества в целом».
В основном работает с «огромными» компаниями из списка Fortune 100, а использование технологии с открытым исходным кодом значительно облегчает клиентам развертывание ее в любой среде, тестирование и последующий органичный рост внутри организации.
Эберт утверждает:
«Мы можем говорить о том, что ИИ спасает мир, лечит рак и помогает бороться с климатическим кризисом весь день. Если ты не собираешься открыть данные для широкой общественности, неправительственных организаций и исследователей, это стремление не станет реальностью.
Если данные накапливаются в крупных корпорациях, крупных технологических компаниях, у них всегда есть коммерческие мотивы, и мы не будем использовать ИИ для общественного прогресса.
Например, мы тоже хотят более тесно интегрироваться с ведущими облачными провайдерами, и в этом помогает открытый исходный код».
Как синтетические данные могут стимулировать инновации в стартапах и совместную работу предприятий
По словам Эберта, быть специалистом по этике ИИ в душе означает следить за тем, чтобы ответственные методы ИИ — прозрачность, справедливость и конфиденциальность — были встроены в изобретения с самого начала, а не рассматривались как второстепенные вещи.
Она отмечает, что многие стартапы, разрабатывающие продукты для предприятий, не имеют своего владеть наборов данных, и «традиционными методами могут потребоваться месяцы для создания неполных и небезопасных анонимных наборов данных «швейцарского сыра».
«Традиционные методы анонимизации занимают месяцы и по-прежнему приводят к неполным, малоценным наборам данных, которые могут быть не полностью безопасными. Синтетические данные сокращают этот процесс до одного-двух рабочих дней, что позволяет компаниям быстро и безопасно обмениваться данными. «
Она советует стартапам проактивно запрашивать синтетические данные:
«Если Банк предоставляет синтетическую версию своих финансовых транзакций, в пользу этого получают обе стороны — стартап может создавать более качественные продукты, а банк получает более эффективные инновации.
Они могут разрабатывать более совершенные продукты, а предприятиям, заинтересованным во внедрении инноваций в стартапы, всегда нужны данные для их подтверждения».