ИИ-скрейпинг и "общедоступные веб-данные"

Перевод одного из мнений о скрейпинге общедоступных данных компаниями - разработчиками ИИ, и о роли robots.txt в этом.

Denis Dorotenko

Mar 1, 2025 • 3 min read

🖊️

это перевод текста "AI scraping & “publicly available web data”" авторства Мэттью Баттерика, писателя, дизайнера, программиста и юриста.

Общедоступные веб-данные – это фраза, призванная вызвать в воображении идею “данных, сделанных автором общедоступными в Интернете”, поскольку многие веб-страницы таковы. Но в контексте автоматической обработки обучающих данных ИИ это означает нечто более простое и понятное: каждый байт, к которому можно получить доступ через общедоступную сеть.

В чём проблема? В общедоступной сети содержится много материалов, которые не были размещены автором. Например, Anna’s Archive содержит ссылки на огромное количество работ, охраняемых авторским правом (вкл. несколько копий моей книги, доступных для скрейпинга). Это относится также к изобразительному искусству, книгам, журналам, шрифтам, программному -обеспечению, музыке, телешоу, фильмам — к чему угодно. Все это доступно для тех, кто хочет достаточно усердно покопаться в общедоступной сети.

Обучение против плагиата

Мне часто предлагали, чтобы LLM могли “учиться” на данных в Интернете, но не “заниматься плагиатом”. С технической и юридической точек зрения до сих пор остается открытым вопрос о том, где позиция LLM в этом спектре. (Между тем, приверженцам метафоры “обучения” следует внимательно рассмотреть аргументацию Джона Сирла о китайской комнате.)

Но эта дихотомия обходила стороной узловую проблему, которая в том, что многие авторы — люди в Интернете, включая меня, извлекают выгоду из нашего творчества способами, которые полностью зависят от читателей — людей (обычно их называют “трафиком”). Например, легко представить веб-сайт, работающий на базе LLM, который достаточно хорошо “усвоил” мою работу, чтобы донести информационную ценность моих работ, но в форме, достаточно энтропированной, чтобы это не выглядело плагиатом. Ну и что? Это всё равно негативно скажется на моём бизнесе. Честно говоря, если бы читатель-человек скопировал мою статью, чтобы намеренно создать рыночную замену, я бы тоже не стал считать это “обучением”. Я бы счёл это грабежом — финансовым, моральным, юридическим. (И да, такое случалось)

Ограничения robots.txt

Некоторые компании, занимающиеся искусственным интеллектом, которые собирают “общедоступные веб-данные” для обучения моделей, также говорят, что есть простое решение: файл robots.txt. Ну, погодите. Идея создания файла robots.txt возникла примерно в 1994 году, когда автоматическое сканирование веб-страниц получило широкое распространение. Это небольшой файл, который находится на верхнем уровне веб-сайта и указывает, какие веб-скрейперы, если таковые имеются, владелец веб-сайта желает исключить. В эпоху ИИ идея заключается в том, что компании, работающие с ИИ, могли бы идентифицировать свои средства сбора обучающих данных, а веб-издатели могли бы использовать свои robots.txt, чтобы исключить и эти средства.

Как человек, публикующий статьи в Интернете, я предвижу серьёзные проблемы, связанные с тем, что будущее интеллектуальной собственности, размещенной в Интернете, будет зависеть от этой тонкой трости:

Соблюдение требований компанией, проводящей скрейпинг, является полностью добровольным. Файл robots.txt – это не техническая защита, как пароль; это просто выражение предпочтения. (Есть признаки того, что страсти накаляются)
Зависимость от robots.txt создаёт постоянную, увеличивающуюся нагрузку на веб-авторов, поскольку каждый разработчик ИИ идентифицирует себя по-разному.
Сайты, подобные Anna's Archive, обычно не запрещают кому-либо использовать robots.txt, так что моя работа все равно просочится к читателям таким образом.
Моё окружение юристов-ботаников, возможно, задаётся вопросом: “разве файл robots.txt не является договорным обязательством?” Давайте в целом предположим, что это так. Если вы подадите на такого веб-скрейпера в местный суд или суд штата в соответствии с теорией договорного права за игнорирование файла robots.txt, я ожидаю, что первое, что они скажут, это то, что ваш иск отклоняется в соответствии с федеральным законом о защите авторских прав. Дело закрыто — если только вы не хотите подать иск о нарушении авторских прав в федеральный суд, что по разным административным и рациональным причинам вряд ли сделает обычный веб-автор.

Так что на практике я ожидаю, что этот манёвр robots.txt будет просто театральным жестом, который не окажет никакого практического или юридического воздействия на этих скрейперов, которые будут делать всё, что им заблагорассудится. На самом деле, я не удивлюсь, если компании, занимающиеся продвижением ИИ, сделали точно такой же расчёт в отношении robots.txt.

(Хотя я и юрист, я не ваш юрист. Ничто в этом сообщении не является юридической консультацией.)

обновление, 65 дней спустя

Крупные компании, занимающиеся ИИ, похоже, не замечают, что их экстрактивная стратегия сработает только один раз. Мы переживаем необычный момент в истории человечества, когда у нас есть эта штука — Интернет, — который содержит самый большой набор произведений, созданных человеком за всю историю. И ещё много всякой всячины. Но на данный момент хорошее в значительной степени перевешивает плохое.

Однако это скоро перестанет быть так, поскольку ИИ наводнит Интернет токсичным ИИ-мусором. Со своей стороны, компании, работающие с ИИ, крайне неохотно обучают модели на основе данных, сгенерированных ИИ, поскольку это приводит к коллапсу модели - состоянию вырожденного статистического поведения, которое возникает, когда модель ИИ обучается на основе данных, сгенерированных ИИ. Вероятно, с другой стороны, ИИ-модель имеет тенденцию выдавать результаты, близкие к медиане. Таким образом, обучение другой ИИ-модели на основе этих выходных данных приведет к потере разнообразия в её обучающем наборе данных. Подобно тому, как популяция животных, скрещивающихся из поколения в поколение, теряет генетическое разнообразие. В сегодняшнем выпуске NYT: превосходное объяснение и визуализация коллапса модели.

Таким образом, заполняя Интернет помоями, связанными с ИИ, крупные ИИ-компании загрязняют тот самый ресурс, который им необходим для выживания (звучит знакомо, люди?). Пройдёт совсем немного времени, и Интернет перестанет быть эффективным способом сбора данных, поскольку он будет безвозвратно загрязнён материалами, созданными с помощью ИИ.