Скрейпинг данных для разработки ИИ

Отличный разбор юридических вопросов по сбору (скрейпингу) данных для целей разработки искусственного интеллекта (ИИ).

🖊️
это перевод текста "Data scraping for AI development" авторства Джоанны Фрирз, представителя Lionshead Law
В тексте упоминаются социальные сети и/или иные продукты, принадлежащие корпорации Meta Platforms Inc., которая признана экстремистской организацией и запрещена на территории РФ.

Машинное обучение и искусственный интеллект используются в бизнесе уже более десяти лет, и внедрение генеративного ИИ в настоящее время стало повсеместным. По мере того, как использование и разработка ИИ достигают своего пика, мы, возможно, не удивляемся тому, что он ожидает свободы и хочет идти в своем собственном направлении (на самом деле, вероятно, это уже произошло), и что при этом он оставляет за собой ряд сложных проблем, которые приходится решать его создателям. По мере углубления понимания того, чем становится искусственный интеллект, и повышения осведомленности о том, как он может работать, я обнаружила, что моих клиентов спрашивают: “Откуда берутся ваши обучающие данные?”, “Защищены ли они авторским правом?”, “Был ли разрешён сбор данных?”, “Откуда вы знаете, что в этом нет предвзятости?"”. Как только ответы будут предоставлены и рассмотрены, осведомлённый клиент неизбежно скажет: “Нам нужно, чтобы вы гарантировали свои ответы”, и именно в этой области спотыкаются многие провайдеры программного обеспечения.

Разработчики, как правило, собирают свои данные[1] с помощью третьих лиц; изображения, используемые для обучения, могут быть частью огромных массивов данных, полученных от агентств по сбору данных, которые собирают данные с сайтов социальных сетей, таких как Instagram*, Meta[2] / Facebook*, Twitter / X и TikTok. Некоторые из этих операций по сбору данных и обучению, возможно, проводились до принятия GDPR и Data Protection Act 2018 года, и источник данных не является таким “чистым” или “разрешённым”, как того требуют нормативные акты и законодательство, а также как того всё чаще требуют уполномоченные органы.

Различными крупными фирмами было подготовлено несколько весомых и полезных статей по вопросам сбора и защиты данных. В этой статье рассматриваются проблемы со стороны клиентов как с точки зрения вопросов, которые клиенты могут задать поставщикам технологий искусственного интеллекта, так и с точки зрения шагов, которые необходимо предпринять технологическим компаниям, чтобы иметь возможность решить эту проблему. В нем содержатся ссылки на применимое законодательство и предложения о том, как вы можете помочь своему провайдеру технологий и клиентам, занимающимся закупкой технологий, разобраться в вопросах использования собранных данных и разработанного на их основе ИИ.


  1. В оригинальной статье используется термин scraping, поэтому в рамках этого перевода, где употребляется сбор данных, под ним понимается сбор данных с помощью технологии скрейпинга (не путать с парсингом) - прим. пер. ↩︎

  2. Запрещена в РФ, подробнее об этом см. в начале этой статьи; * запрещены в РФ, см. выше – прим. пер. ↩︎

Meta, данные

В середине 2024 года Meta ввела новые условия ведения бизнеса, предоставив себе разрешение использовать общедоступные и непубличные пользовательские данные, собранные с 2007 года, для обучения своих ИИ-моделей, окончательно закрыв открытый вопрос о том, что Meta делает с нашими данными (предупреждение о спойлере) Meta использует наши данные для обучения своих систем.

Признавая, что компания Meta всегда поступала именно так, в своём заявлении Meta привязала обработку к “законным интересам” в соответствии с GDPR (и DPA 2018, принятого в Великобритании), заявив, что “у нас есть законные интересы в обработке данных для создания этих сервисов”.

Использование принципа “законных интересов” в соответствии со статьей 6.1(f) GDPR требует от Meta учитывать три ключевых критерия и удовлетворять всем трём их частям перед обработкой. Британский ICO[1] объясняет этот тест так:

  1. есть ли законный интерес, стоящий за обработкой;
  2. необходима ли обработка, являются ли данные адекватными, актуальными и ограничены (только) тем, что необходимо; и
  3. является ли законный интерес, превалирующий над правами и свободами личности, балансом интересов субъектов персональных данных и законным интересом в обработке.

Все три элемента должны быть учтены и выполнены, чтобы применялось исключение и чтобы компания (например, Meta) могла заявить, что у неё есть законные интересы в обработке данных.

Означает ли тот факт, что данные необходимы для обучения ненасытного аппетита ИИ, стоящего за сервисами Meta, что сбор данных оправдан и, следовательно, “законен”? По сути, Meta говорит о том, что если вам нужен сервис, вы должны участвовать в его разработке. Является ли это неписаным соглашением, заключаемым с социальными сетями при размещении публикаций, которое обеспечивает легитимность, адекватность и актуальность этого действия? Различные группы потребителей и технические надзорные органы подвергли сомнению законность заявления Meta о “законных интересах”, и компания столкнулась с жалобами на неприкосновенность частной жизни в 11 государствах-членах ЕС. Это вполне обоснованное беспокойство.

В своём пресс-релизе об изменении условий Meta добавила, что “люди могут возражать [против удаления данных][2], используя форму, которую можно найти в нашем Центре конфиденциальности, если они того пожелают”, но сомнительно, позволит ли закапывание положений про "отказ от использования" в своих Условиях конфиденциальности утверждать Meta, что пользователи действительно могут отозвать своё согласие и соблюсти баланс между их собственными интересами и интересами Meta. Безусловно, ICO в Великобритании рассматривает сбор данных для разработки генеративного искусственного интеллекта как деятельность с высоким уровнем риска. В тех случаях, когда происходит “невидимая обработка” и люди не знают об обработке, ICO предупреждает, что они могут потерять контроль над тем, как и какие организации обрабатывают их персональные данные, и, таким образом, не смогут реализовать свои законные права на их защиту.

Meta отметила, что её подход “согласуется с тем, как другие технологические компании разрабатывают и совершенствуют свой опыт в области искусственного интеллекта в Европе”, фактически утверждая, что все это делают, поэтому всё должно быть в порядке. Конечно, большинство разработчиков и представителей технологической индустрии уже знали, что большие данные собираются и используются для обучения новых программ, но то, что подобные изменения попадают в заголовки газет, удивляют и возмущают пользователей, указывает на то, что такой тип использования данных (включая неактивные аккаунты Facebook, связанную информацию и распространение данных, собранных третьими лицами из онлайн-источников) многих удивляет и беспокоит.


  1. Имеется в виду Information Commissioner's Office (Офис уполномоченного по вопросам информации) - прим. пер. ↩︎

  2. здесь и далее - в квадратных скобках приведены уточнения переводчика - прим. пер. ↩︎

На что я согласился? Удивительные положения условий онлайн-сервисов
На что именно порой дают согласия пользователи при использовании онлайн-сервисов или ПО.

Что ещё может поджидать пользователя в условиях онлайн-сервисов, смотрите здесь

Компания X придерживается характерного противоположного подхода к раскрытию информации о сборе данных. В апреле 2023 года Илон Маск пригрозил подать в суд на Microsoft за использование данных, которые она извлекла из [социальной сети] X, для обучения OpenAI в MS (где Маск ранее был членом правления!). Возможно, это был ответный удар, когда Microsoft объявила, что уберет X из своей рекламы, но то, что это попало в заголовки газет, намекало на то, что были подняты ставки на сбор данных.

Летом 2023 года X запустила X.AI заявив, что будет использовать для обучения своего искусственного интеллекта только общедоступные данные. Что именно является "общедоступным", по мнению X, неясно, но компания, похоже, продолжает придерживаться высоких моральных принципов и в конце 2023 года изменила условия ведения бизнеса, чтобы предотвратить сбор данных без предварительного согласия, установив ограничения на объём данных, которые могут быть собраны, и только в том случае, если используется утилита сбора Xrobots.txt, который отключает все остальные роботы-сканеры. Xrobots позволяет роботам-поисковикам Google подключаться в рамках сделки, заключенной X с Google, для привлечения трафика к X. Сделка с Google позволяет Google сканировать вышедшие из системы и неактивные аккаунты, а также активные, предоставляя как устаревшие, так и текущие данные. Новые условия X также позволяют социальной сети собирать биометрические данные, что, по-видимому, является полной противоположностью “общедоступным данным”, которые, как утверждается, будут использоваться для обучения X.AI. Этот тип обработки данных может быть оспорен и должен быть разрешён – принятие условий X даёт такое разрешение.

Несмотря на то, что Meta решила не включать личные сообщения, что может свидетельствовать о том, что она сбалансировала права и свободы отдельных лиц со своими законными интересами, это просто подтверждает, что Meta может читать, исследовать и использовать эти сообщения, если захочет.

Что касается второй части теста, то, учитывая огромный объем наборов данных, остается спорным вопрос о том, собирается ли “только то, что является актуальным и необходимым”. Возможно, Meta (и её соратники) придерживаются мнения, что для того, чтобы быть по-настоящему “искусственным интеллектом” (и, возможно, также пройти тест Тьюринга), её ИИ должен знать всё о том, что такое человек, – от нашей любви к гифкам с кошками до наших грешков, наших нравов и приступов, горя и истерии. Несмотря на то, что только одна Meta содержит огромное количество данных (на одном Facebook 4 миллиарда пользователей ежедневно публикуют 2,45 миллиарда записей), независимо от того, являются ли они структурированными или неструктурированными, анонимными или поддающимися идентификации, остается открытым вопрос: действительно ли у какой-либо компании есть законный интерес использовать “наши” данные без конкретного, осознанного согласия?

Широкое обобщение Meta о том, что, поскольку сбор выполняется с использованием и в интересах технологии искусственного интеллекта (неспецифический термин, охватывающий широкий спектр технологий), это законно и что это делается практически в каждом бизнесе, разрабатывающем ИИ (что верно), почти наверняка не является устойчивым. Так зачем же делать это заявление, зная, что оно, скорее всего, будет оспорено? Учитывая, что новый Закон ЕС об искусственном интеллекте (Регламент (ЕС) 2024/1689) направлен на гармонизацию разработки, вывода на рынок, ввода в эксплуатацию и использования систем искусственного интеллекта в ЕС, а также то, что новый закон налагает на поставщиков технологий больше обязательств по получению сертификации для своих продуктов искусственного интеллекта, возможно, что Meta (и т.д.) меняют свои термины, чтобы заявить о “географических, поведенческих, контекстуальных или функциональных условиях, в которых они предназначены для использования” (статья 42.1), и таким образом перевести свою технологию в категорию “предположительно совместимых” и избежать дальнейших расспросов и надзора.

Независимо от мотивации этих изменений (если они не соответствуют заявленным, а об этом мы можем только догадываться), сбор данных будет продолжен, потому что это наиболее доступный способ защиты данных для обучения моделей искусственного интеллекта, которые мы планируем использовать в будущем. Поскольку увеличение объёма данных и улучшение качества сбора (возможно) приводит к совершенствованию технологий, что можно сделать с практической точки зрения для защиты пользователей и оказания помощи компаниям в предоставлении своим клиентам необходимых гарантий?

AI Act: обзор закона ЕС об искусственном интеллекте
Обзор закона ЕС об искусственном интеллекте (“AI Act”) на русском языке. GPAI, запреты, требования к разработчикам ИИ.

подробный обзор закона ЕС об ИИ (EU AI Act) смотрите здесь

Знайте свой источник

Разработка генеративного ИИ требует от разработчиков сбора (а в некоторых случаях и сопоставления) и обработки собранных данных. Затем такие данные применяются для обучения базовой ИИ-модели, пересматриваются, калибруются и в конечном итоге развёртываются (как правило) в бета-версии, а затем модель улучшается на основе обратной связи.

Большинство разработчиков генеративного ИИ полагаются на общедоступные источники данных для обучения, либо привлекая агентства для предоставления данных, либо собирая их самостоятельно (крупные компании). Компаниям, приобретающим собранные данные у их поставщиков, необходимо убедиться, что эти поставщики получили разрешение на это. Разработчики, использующие такие агентства, должны спросить:

  • Являются ли эти данные собранными непосредственно из Интернета или полученными косвенно от другой организации, которая собрала их в Интернете?
  • Есть ли у вас явное разрешение на сбор этих данных?
  • От кого?
  • Когда было предоставлено это разрешение?
  • Покажите нам это разрешение (или исключение, под действие которого подпадает ваш сбор данных).
  • Позволяет ли вам ваш контракт лицензировать или продавать эти данные на коммерческой основе?
  • Имеет ли сторона, у которой вы собрали данные, разрешение на сбор персональных данных?
  • Включают ли условия использования поставщика данных гарантию получения разрешения и возмещение ущерба в случае претензий в связи с несанкционированным использованием?

Разработчикам, собирающим данные собственными силами для обучения своего искусственного интеллекта, надо:

  • убедиться, что они знают источник данных и записывают его в журнал данных;
  • проверить, имеют ли компании, у которых они собирают данные, разрешения на это, и использовать эти данные для обучения искусственного интеллекта;
  • попросить компании, чьи данные собраны, подтвердить, что у них есть разрешение от пользователей на предоставление данных для сбора данных и обучения;
  • проверить условия использования компаний, чьи данные используются, чтобы убедиться в наличии гарантий на эти данные и возмещения ущерба в случае претензий в связи с несанкционированным использованием.

Все разработчики также должны убедиться, что обрабатываемые ими данные, будь то изображения, текст, видео или другая информация, соответствуют законодательству о защите данных.

На биометрические данные также должно быть специальное разрешение в соответствии с GDPR и соответствие требованиям BIPA, Data Privacy Bill, Закона ЕС об искусственном интеллекте, POPIA и аналогичных документов.

Разрешённые данные, законное использование

Как отмечено выше, проверка того, что считается “законным использованием”, проводится в три этапа, и в рамках соблюдения исключения о законном использовании разработчики должны убедиться, что их обработка является законной, необходимой и обеспечивает соблюдение прав человека.

Законно ли это? Разработчик (и клиент, заказывающий разработку чего-либо с использованием ИИ) должен обеспечить, что результат, полученный с помощью ИИ:

  • не нарушает никаких законов (не только GDPR, BIPA или Закона ЕС об искусственном интеллекте); и
  • для его создания есть законное основание.

Планка на вход высока, как и должно быть. Чтобы пройти первую часть этого теста, разработчику необходимо:

  • убедиться, что на данные не только есть разрешения, но и они не подпадают под какие-либо ограничения, такие как авторское право или права на товарные знаки;
  • обеспечить или запросить гарантию того, что данные не являются конфиденциальными, коммерческой тайной, не подпадают под действие санкций или не нарушают какой-либо закон о дискриминации.

Вторая часть первого элемента теста – это оценка законности [основания использования]. “Интерес” разработчика может заключаться в разработке ИИ для собственного или коммерческого использования, либо на его собственной платформе, либо в выводе его на рынок для приобретения третьими лицами. Однако в ICO очень чётко прописаны правомерные основания; разработчик должен быть в состоянии доказать конкретное назначение модели и гарантировать, что при её последующем использовании будут соблюдаться защита данных и права и свободы субъекта данных, поэтому сбор данных для спекулятивной разработки никогда не пройдёт этот тест, если не будут применены строгие меры контроля и мониторинга в той модели, которая создана.

Разработчикам необходимо обратиться к своим поставщикам [данных] и быть способным ответить на следующие вопросы:

  • Есть ли законное основание для сбора и использования этих данных?
  • Были ли соблюдены все законы в отношении сбора этих данных?
  • Можем ли мы подтвердить, что авторские права, патенты, товарные знаки, законы о защите данных (в том числе, биометрических) не были нарушены, и можем ли мы получить гарантию и возмещение ущерба в соответствии с вашими заверениями?
  • Есть ли у нас чёткое и обоснованное заявление об использовании собранных данных?
  • Это необходимо? Это проверка на основе фактов. Поскольку для большинства разработок в области ИИ требуются большие данные, что облегчает сбор данных, использование набора данных, вероятно, будет необходимым при условии, что набор данных соответствует определённой цели.

Разработчики должны показать и быть в состоянии обосновать, если их спросят:

  • что обучить на данных возможно только с использованием большого набора данных, собранных таким образом;
  • что имеется обоснование для использования собранных данных и известен результат этого.

Наконец, превалируют ли права отдельных лиц над интересами разработчика? Если существует законная цель и для этого необходим сбор данных, то в ходе тройного теста, который должны пройти разработчики, необходимо решить, имеют ли интересы, права и свободы отдельных субъектов данных преимущественное значение перед определённой целью и потребностью в собранных данных.

Не следует игнорировать “восходящий риск” потери контроля над своими данными даже одним человеком, но он почти наверняка подпадает под аргумент Meta “все это делают”, и когда мало кто действительно знает, как на самом деле используются их данные, где они хранятся и кем, это, безусловно, нечестная игра, для противодействия которой следует проводить оценку. Последующие риски для отдельных лиц включают использование разработанного искусственного интеллекта для создания неточной информации, нанесение ущерба репутации и социальному ущербу на индивидуальном уровне, на уровне сообщества и района. Действительно ли, что если программа искусственного интеллекта создана для этих целей или может быть развернута для них, то виновато программирование, а не данные, используемые для её обучения, и вероятность того, что тройной тест будет правильно или справедливо оценён и применён, в любом случае минимальна? И снова тест некорректен. Как бы то ни было, при рассмотрении последующих последствий разработчик, выполняющий свои юридические обязательства, должен:

  • контролировать и доказывать, действительно ли генеративная ИИ-модель используется для заявленной цели;
  • оценивать и регистрировать риски для отдельных лиц во время разработки и после развертывания; и
  • принимать меры по снижению рисков для физических лиц.

Там, где разработчик предоставляет API, который облегчает разработку другим, он может подробно рассказать о том, как этот API используется. Это можно сделать, используя условия лицензирования и контракты (разумеется) и сохраняя за собой возможности аудита и мониторинга, и разработчикам следует попытаться это сделать, хотя практические аспекты, связанные с пониманием того, как будут использоваться API, сопряжены с определёнными трудностями и рисками нарушения безопасности и утечки конфиденциальной информации.

Замыкание цикла

Разработчикам необходимо убедиться, что их собственный цикл разработки закрыт для сбора данных, и что данные, которые они создают, и информация, которую они обрабатывают для клиентов, не могут быть использованы для обучения других ИИ. На простом уровне, если (например) разработчик создаёт приложение, использующее распознавание лиц, он должен быть в состоянии определить, откуда взялись его обучающие данные, чтобы обучить приложение распознавать лица, или, если он использовал виджеты для облегчения разработки [своего] приложения, используемые данные и разрешения, предоставленные для их обучения таких плагинов.

Данные, собранные разработчиком, должны быть закрыты [от сбора], а разрешения [на их сбор] для их собственных сайтов и информации, откуда данные могут быть собраны, отключены в пользовательских настройках, а также в настройках конфиденциальности и безопасности. Сообщение клиентам о том, что это было сделано, демонстрирует, что разработчик относится к этому серьёзно. Это также помогает пресечь нарушение авторских прав или последующие претензии, предъявляемые в тех случаях, когда произведение было создано разработчиком и, следовательно, принадлежит ему, но затем используется повторно, и предъявляется претензия заказчику или разработчику. В этом отношении совет разработчикам вести логи кода и проверять работу коллег и источник их работы – это больше, чем просто соблюдение правил гигиены разработки, это необходимая мера предосторожности против судебных разбирательств.

Разработчики также должны знать, что данные, обрабатываемые для клиентов, не должны быть доступны для обработки третьими лицами, поскольку это может привести к нарушению обязательств по конфиденциальности перед клиентом и авторских прав третьими лицами. Такой тип проверки может легко привести к утечке данных в широко разработанных контрактах, полученных от клиентов (или предоставленных разработчиками), и поэтому такие положения необходимо проверять и обновлять, чтобы отразить проводимую работу по разработке и предоставленные разрешения или отказ в них.

Однако в соответствии с их собственными бизнес-правилами и условиями разработчики не должны давать никаких гарантий того, что они скрывают информацию или предотвращают её удаление, поскольку гарантия на этот счет никогда не может быть 100%. Вместо этого любая информация, полученная от клиентов (изображения, текст, видео, код, товарные знаки, фирменные наименования и т.д.), должна быть гарантирована ими [в части правомерного использования разработчиком], и на клиента должна быть возложена максимально возможная ответственность за проверку источника и права собственности на предоставленную им информацию, а также обязательство "заблокировать её" должно быть приклеено к клиенту. Клиент также должен подтвердить в соответствии с контрактом, что данные и информация, которые он идентифицирует, приобретает или предоставляет разработчику, не могут быть собраны [скрейпингом], а если они могут быть или были получены таким образом, то были обеспечены все необходимые разрешения для их создания, хранения и использования третьими лицами, а все применимые к ним законы - соблюдены. В этом отношении предпочтительнее возмещение ущерба.

Прозрачность и искусственный интеллект после установления истины

Закон ЕС об ИИ требует от разработчиков, которые используют искусственный интеллект для “создания или манипулирования изображениями, аудио- или видеоконтентом, которые заметно напоминают существующих людей, объекты, места, сущности или события и которые могут ложно показаться человеку подлинными или правдивыми (deep fakes)”, чётко обозначать их как таковые. Комиссия ЕС также предполагает, что она может “поощрять и облегчать разработку кодексов практики на уровне Союза для содействия эффективному выполнению обязательств, касающихся обнаружения и маркировки искусственно созданного или манипулируемого контента”, чтобы помочь пользователям понять, что такое “сгенерированный компьютером” [контент] (глава 4, статья 4). Ирония в том, что способность быть "более человечным, чем человек" проистекает из данных, собранных с разрешения или без него, используемых этично или иным образом и разрабатываемых с определённой целью или без неё. У этого закона благие намерения, но на данный момент законодательство похоже на наклеивание бумажного уведомления на вулкан с надписью “Осторожно, содержимое может быть горячим”.

Может ли программа самосертифицироваться и саморегулироваться? По-видимому, для этого имеются широкие возможности и нет никаких ограничений при условии проведения испытаний и наличия доказательств соответствия требованиям. Если ИИ настроен таким образом, чтобы отмечать свою домашнюю работу, мы должны убедиться, что он выполняет её правильно как с точки зрения работы, так и с точки зрения оценки!

Пытаться загнать "джинна данных" обратно в бутылку бесполезно, он слишком большой и умный для этого – уже имеющаяся информация настолько обширна, что включает в себя все аспекты того, что делает нас людьми и как мы живём на этой планете. Сбор данных проводился в больших масштабах в течение многих лет при незначительном регулировании или этическом надзоре, и это должно продолжаться до тех пор, пока ненасытный аппетит ИИ требует постоянного обновления огромных массивов данных. На данный момент закон развивается через практические решения, кодексы и нормативные акты применительно к тому, что, по сути, является крупнейшим информационным хищением (или утечкой данных, если вы предпочитаете быть циничным) в истории.

Совет, который следует дать клиентам, заключается в следующем:

  • будьте осторожны при передаче данных и фиксируйте, куда они передаются, компании и разработчики должны знать об этом, а также должны быть проинформированы физические лица;
  • никогда не гарантируйте, что полученная и предоставленная информация является правильной, полной или разрешённой надлежащим образом, за исключением случаев, когда это исходный материал, который остается под контролем одного лица;
  • следите за тем, чтобы их собственные творческие результаты и персональные данные не были доступны для сбора;
  • заверение людей в том, что их данные находятся в безопасности, потому что они дали разрешение на их использование, неуместно и, вероятно, неверно.

Заявление о том, что всё, что вы когда-либо выкладывали в Интернет, может быть использовано для разработки “вашего искусственного интеллекта”, вызывает панику, но это, вероятно, самое близкое к истине представление о том, для чего использовался и будет использоваться сбор данных для разработки ИИ. Учитывая решительные усилия по созданию компьютеров “лучше, чем у человека” и (подобно предложениям по терраформированию Марса) по “интеллектуализации” Интернета, есть все шансы, что ИИ подскажет нам, как его нужно регулировать, чтобы достичь интерпретируемой ИИ версии этичности, соответствия требованиям и законности.

До тех пор, пока ИИ не покажет нам лучший способ, юристы должны участвовать в дискуссиях о более эффективном регулировании использования персональных данных и правовых и этических последствиях, связанных с каждым человеко-машинным взаимодействием. Мы должны быть в состоянии консультировать клиентов о том, как закрыть бэкдор для сбора данных, а не просто “установить чек-бокс” в отношении использования информации и чётко представлять, откуда поступает восходящий поток данных и как выходные данные используются в нисходящем направлении, чтобы избежать сбора данных [скрейпингом] и утечек данных.

ИИ-скрейпинг и ”общедоступные веб-данные”
Перевод одного из мнений о скрейпинге общедоступных данных компаниями - разработчиками ИИ, и о роли robots.txt в этом.

ещё один материал про скрейпинг данных для ИИ доступен по этой ссылке