Применяется ли AGPL при дистилляции данных в свою модель?

На просторах чата Подлодки всплыл очень интересный вопрос. Cформулирую его близко к оригиналу следующим образом:

Если обучаем свою модель на основе выходных данных другой модели (т.е. при её дистилляции), доступной под AGPL-3.0, то своя модель тоже должна быть под AGPL или её можно лицензировать под другой лицензией (например, BSD)?

Вопрос классный. И он сразу тащит за собой букетом ряд сопутствующих вопросов, на которые также нужно ответить для подготовки ответа на первый:

  • Какие пределы применения AGPL: только ПО или нет? Применима ли она к ИИ-моделям, их выходным данным (output)?
  • Что такое ИИ-модель с т. зр. интеллектуальной собственности: ПО, база данных, иное?
  • Что такое выходные данные модели: часть ПО, базы данных, иное?
  • Что такое дистилляция (в контексте обучения моделей)? Есть ли в рамках этой операции действия по копированию данных (или кода ПО) из одной модели в другую? Есть ли здесь извлечение из базы данных?

Интересно, что уже был разбор схожего вопроса (про код и веса YOLOv8), где справедливо затронули вопрос, считать ли обученные модели частью ПО или выходными данными. И как видим, там к единой точке зрения так и не пришли. Оно и понятно: представитель Ultralytics следует интересам компании, не ослабляя её позицию в зарабатывании денег на продажах коммерческой лицензии и оставляя для неё же своими ответами манёвр на будущее на случай потенциальных споров, чтобы его же ответы не были в будущем ей в ущерб, если в них окажется больше правовой свободы для пользователей её продуктов, чем в иных её проявлениях.

Чтобы найти ответ на заданный вопрос, давайте всё же пойдём по пути поиска ответов на сопутствующие.

Юридический контекст вокруг AGPL и ИИ-моделей

При подготовке ответа надо принять во внимание существующий контекст по юридической стороне исследуемого вопроса. Полагаю, вначале стоит обрисовать этот контекст, которым руководствовался, чтобы был более понятен дальнейший ход моих рассуждений:

  1. Окружающие обстоятельства. Юридический комментарий при разборе такого вопроса во многом зависит от того, (a) про какую юрисдикцию ведём речь (т.к. в разных странах нормы законов и юридические трактовки могут сильно отличаться), (b) какую сторону конфликта сопровождает юрист (т.е. на какой позиции строить ответ – у кого берут данные или кто берёт, нужно ли это пресечь или обосновать как допустимое), (с) что именно технически происходит в реальности.
  2. Что я понимаю под дистилляцией? То, что описано в глоссарии Ultralytics, той самой статье Хинтона и ко (2015), в этом блоге и таком учебнике. Осилить технические детали изложенного мне сложно, но в юридическом контексте важным увиделось следующее: (1) в этом процессе передаются данные от одной модели к другой; (2) происходит их сохранение для модели-ученика (чтобы потом не обращаться к модели-учителю).
  3. Что мне понимать под моделями? Пока нет однозначного общего подхода, какие это объекты с т. зр. авторских прав, и опять же, см. п. (1). Но мои комментарии ниже – только в части России (как юрисдикции), поэтому для простоты исходим,[1] что модель – это программа для ЭВМ (ст. 1261 ГК РФ) + база(ы) данных (ст. 1260 ГК РФ).[2]
  4. Сложности с AGPL. Хотя AGPL – это copyleft-лицензия, но как знаю, в юридических спорах она нередко спотыкается.[3] И как сам её текст изрядно запутан, так и судебная практика по ней.[4] И опять же, вопрос её применения зависит от п. (1).
  5. Open source и авторство. В России создателям ПО порой сложно доказать своё авторство на него. В т.ч. из-за вопросов использования стороннего опенсорса в своём программном коде.[5]
  6. Патенты на ПО, алгоритмы. За бортом ответа оставляю вопросы по патентам (т.к. это дополнительный большой юридический пласт, и тоже зависит от юрисдикции). Но напомню, что в AGPL про патенты есть раздел 11 – возможно, в нём уже есть ответы на часть ваших вопросов.
  7. Риски. Раз нет однозначного ответа в законе и устоявшейся судебной практики, имеем дело с рисками правовой неопределённости. Причём, как возможного нарушения чужих интеллектуальных прав (при использовании чужих данных для своей модели), так и возможных сложностей с доказыванием нарушения своих прав (если кто-то будет использовать вашу модель, а перед вами возникнут проблемы с доказыванием, что у вас действительно есть права на модель и её элементы – в том числе сторонние: open source, полученные при дистилляции данные, UGC и т.д.).

Таким образом, рассуждения ниже – это поиск ответа на обозначенный вопрос с учётом этого контекста выше. Отталкиваясь от него, нам стоит иметь в виду следующие аспекты.

Промежуточные знания (подходим к ответу)

  1. Понятие ПО, БД. В России под ПО понимается «… совокупность данных и команд <…> в целях получения определённого результата, включая подготовительные материалы, полученные в ходе разработки …, и порождаемые ею аудиовизуальные отображения» (ст. 1261 ГК РФ). Под базой данных – «… совокупность самостоятельных материалов <…>, систематизированных таким образом, чтобы эти материалы могли быть найдены и обработаны с помощью <…> ЭВМ». Т.е. в состав ПО включаются данные, а в БД – материалы (считай, тоже данные),[6] которые могут храниться вне ПО.
  2. Базы данных в составе модели. В состав модели (как объекта прав) включаю базы данных, т.к., например, те же веса (как набор параметров), вопросы-ответы (пары запросов пользователей и ответов модели, включая «правильные» в текстовой, векторной или иной форме) могут быть признаны БД (в юридическом понимании).
  3. Аудиовизуальные отображения. Что под этим понимать? ГК РФ (как это нередко бывает) не раскрывает понятие. При этом, подразумеваем, что это не то же самое, что и аудиовизуальное произведение (ст. 1263 ГК РФ), раз называется по-другому. Понятно, что по умолчанию имеется в виду графический интерфейс (GUI) самой программы[7] (т.к. есть же ПО и без него), но нельзя исключать, что в это понятие могут быть отнесены и выходные данные мультимедийного характера (изображения, видео).
  4. «Заражение» выходных данных, извлечение из БД. Согласен с ответом Gemini, но (а) это применимо для (A)GPL (см. FAQ про это), а правообладатель может своими дополнительными условиями (ToS, EULA и т.п.) это перекрыть;[8] (b) в этом же FAQ есть и дополнительные разъяснения, когда возможно такое «заражение» GPL-лицензией (будет применимо и к AGPL). И да, это перекликается с нормой закона, что никто не вправе извлекать из БД материалы (=данные) и использовать их без разрешения правообладателя, за исключениями, что в законе. Извлекать = переносить всё её содержание или её существенную часть на другой носитель любыми техническими средствами и в любой форме (ст. 1334 ГК РФ).
  5. Извлечённые данные (из первой БД) в составе второй БД как использование первой БД. Из-за правовой неопределённости, а также исходя из трактовки понятия «извлечение данных из базы данных», не исключено, что при судебном споре правообладатель модели-учителя (в которую входит первая БД, из которой брались данные при дистилляции) может построить свою позицию, что (при дистилляции) была извлечена существенная часть данных из его базы данных неправомерно,[9] и эти данные были сохранены в другой модели-ученике (в которую входит вторая БД).
  6. Размытость критерия существенности. Законы[10] не дают разъяснения, что считать существенной частью БД, когда речь про извлечение (т.е. нет некоего правила про условные 5-10% от всего объёма БД как допустимое значение для извлечения/копирования без согласия правообладателя БД). Определяться это будет судом ситуативно, исходя из обстоятельств конкретного спора.[11]
  7. Пределы AGPL. AGPL прямо говорит в своей преамбуле, что она применяется не только на программный код. Поэтому можем исходить из того, что AGPL будет применяться ко всему, что лежит в репозитории, на содержание которого есть явное указание (например, в файле README), что оно лицензируется по AGPL. Но опять же, упираемся в вопрос (см. выше), считать ли выходные данные (которые не лежат в репозитории, но получаются в результате работы содержимого AGPL-репозитория) подпадающим по действие AGPL.

Всё это приводит нас к следующему.

Формулируем ответ (и допущения к нему)

Обращу внимание, что при ответе есть ряд условных допущений. Так, например, исхожу из того, что (1) юридическая квалификация модели – это ПО + БД,[12] (2) в репозитории AGPL применяется ко всем файлам в нём, (3) выходные данные (output) – это не аудиовизуальные отображения (в понимании ст. 1261 ГК РФ), (4) к обсуждаемому кейсу не применимы исключения, описанные в GPL FAQ, (5) если происходит извлечение из базы данных (входящей в состав модели), то нет возможности (или это затруднено) определить объём извлекаемых данных (по отношению к общему объёму данных в ней).[13]

Итого, с учётом вышеизложенных контекста и допущений, получилось следующее.

Возможный ответ

  • Если используются только выходные данные (output) модели, которая под AGPL, и нет использования её же кода, весов (параметров), иных элементов as is, лежащих в репозитории под AGPL, в составе своей модели, то не видится обязанность лицензировать свою модель под той же AGPL.[14]
  • При этом, стоит убедиться, что нет никаких сопутствующих условий, ограничений или правил от правообладателя AGPL-модели касательно применения её выходных данных (например, в виде EULA, ToU, ToS или даже правил в тексте README).[15]
  • Для надёжности можно получить и прямые разъяснения (что не нужно применять AGPL) от правообладателя модели, чьи выходные данные будут использоваться.[16]
  • Однако, пока открыт вопрос, считать ли собранные (при дистилляции) выходные данные AGPL-модели также извлечением из баз данных (которые вместе с AGPL-кодом, входят в состав модели и лежат в репозитории). Если считать, то в соответствии с законами РФ можем столкнуться с фактом использования чужой БД (правообладателя модели) в понимании ст. 1334 ГК РФ. И дальше развилка: (1) если output содержит в себе фрагменты файлов (кода, весов модели или иных элементов) в том же виде, как они находятся as is в репозитории под AGPL, то можно говорить, что AGPL применима к ним (и к связанным с ними остальным РИД), см. п. 1 ответа выше; (2) если output не содержит, то высока вероятность квалификации этой ситуации как упомянутой аналогии (когда условия GPL не будут автоматически распространяться и на книгу), но с учётом п. 2 ответа и допущения (4) выше.[17]

Послесловие

Естественно, приведённые выше мои комментарии и возможный ответ – это просто юридические размышления вслух, не юридическая консультация. Примечательно, что даже Gemini в своём ответе стелет себе своему правообладателю соломку вида: «… ваша новая модель, скорее всего, не будет считаться производной работой…», «Крайне рекомендуется проконсультироваться с юристом …», «С большой долей вероятности, вы можете использовать …». Что ж, разработчики Google следуют той же дорогой, что и ребята из Ultralytics: минимизируем риски своей компании, добавляем дисклеймеры, приходите за коммерческой лицензией.

И да, тут же рядом возникают иные замечательные вопросы. Например:

  1. Считать ли веса объектами, охраняемыми авторским правом? Если это только математические формулы.
  2. Как учесть авторские права на результат объединения различных моделей (как, например, WhisperSpeech)? Что он собой будет представлять, и как учесть авторские права и ограничения правообладателей моделей, что легли в основу?
  3. Раз в состав программ для ЭВМ входят данные, то выделять ли всё же в составе моделей и базы данных (как отдельные объекты прав) или признавать все элементы модели только как ПО?
  4. Что именно понимать под аудиовизуальными отображениями? Относить ли к ним генерируемые нейросетью изображения и видео? И если да, тогда зачем разделять правовую квалификацию между текстовыми данными (как непопадающими под понятие аудиовизуального) и изображениями, видео как выходных данных моделей?
  5. Как быстро мы придём к судебным спорам по реверс-инжинирингу моделей и примерам cleanroom как успешным примерам защитных позиций в таких спорах?

Но их разбор – предмет исследования и юридического анализа в рамках иных материалов.

Послевкусие

Поиск решения этой задачи – юридический квест (сложный, но увлекательный). Естественно, нет восприятия задачи как завершённой – скорее, как восход на гору открывает вид на другие (более высокие) горы хребта. И аналогичное ощущение: не хардкор, но близко.

Поймал себя на мысли, что изложение материала подобно генерации ответа ИИ – что ж, моя нейросеть тоже подумала и дала результат. Но так изначально не планировалось: просто быстро стало понятно, что разбор вопроса выйдет за пределы формата удобного ответа в tg-чате, а описание контекста и допущений позволит более наглядно показать, почему и как пришёл к такому ответу.


  1. Здесь пока не беру во внимание сложные объекты, составные произведения, мультимедийные продукты, иные произведения (которые одни из героев ГК РФ). Оценка их применимости для юридической квалификации сущности моделей – это тема отдельной статьи (и не одной). Но, конечно, для применения к модели (как РИД) напрашивается конструкция составного произведения. И ждём, когда изменится закон в части того, что относимо к сложному объекту (иначе получается, что некое «иное аудиовизуальное произведение» таковым является, а на порядок более сложные в производстве и содержании цифровые продукты (ИИ-модели, онлайн-сервисы, ПО и др.) – нет). ↩︎

  2. Как все понимаем, в open source могут быть и репозитории, в которых доступны только данные, без программного кода. Однако, набор опубликованных в open source данных (например, веса, иные параметры) может быть и частью ПО, см. далее про определение термина ПО (в понимании ГК РФ). ↩︎

  3. Например, вспоминаем переход MongoDB – не просто так они его делали. ↩︎

  4. Один из новейших значимых кейсов, связанных с AGPL – Neo4j v PureThink (США). ↩︎

  5. Например, судебное дело по иску А. Мамичева к своему бывшему работодателю. ↩︎

  6. Да, интересно, что в определении термина «база данных» закон не использует понятие именно данных (вместо этого – материалы), но в рамках текущего обсуждения это некритично. Тем более, что этот пробел восполним судебной практикой. ↩︎

  7. Кстати, видимо, это одна из причин, почему видеоигры российские суды во многом настойчиво квалифицируют как программы для ЭВМ, а не как мультимедийные продукты (ст. 1240 ГК РФ): ведь можно обосновать, что интерфейс игры – это как раз и есть аудиовизуальные отображения. ↩︎

  8. Имею в виду, что не переписать условия AGPL (тогда в этом случае это будет уже не лицензия AGPL, а иная производная лицензия на базе AGPL – например, таковой как раз является SSPL у MongoDB), а сделать дополнительные в виде иного документа (например, условий использования данных). Возможно, в этом случае может быть и нарушение им самим условий AGPL, но это всё равно может стать ещё одним барьером, который надо преодолеть правообладателю модели-ученика (для доказывания правомерности использования данных из модели-учителя). ↩︎

  9. Например, если будет иметь место несоблюдение какого-либо условия AGPL разработчиком модели-ученика, в которую влили данные, полученные при дистилляции. ↩︎

  10. Т.к. комментарии ответа относимы только к российской юрисдикции (см. п. (1) выше), то здесь речь только про российское законодательство (ГК РФ ч.4 и остальные НПА). ↩︎

  11. Правда, и правообладатель базы данных (данные которого используют для обучения своей модели) тоже может потратить много времени и сил на доказывание, что нарушены его права. Спор между Вконтакте и Dobule Data тому подтверждение. ↩︎

  12. С учётом моего примечания [2] выше. ↩︎

  13. Будет справедливым вопрос: если в репозитории лежит файл с данными, и известен его объём (в Гб), то нельзя ли посчитать объём полученных выходных данных по отношению к такому файлу? Логика в этом есть, но есть проблема: эти данные могут быть производной частью от другой базы данных. ↩︎

  14. Опять же, если обсуждаемый кейс не попадает под исключения, описанные в GPL FAQ (см. выше). ↩︎

  15. С учётом моего примечания [8] выше. ↩︎

  16. Правда, как мы видим, не всегда правообладатели готовы дать ответ, который ожидают пользователи, см. пример с YOLO8 выше. ↩︎

  17. Безусловно, вопрос становится более интересным, если собранный при дистилляции output (не в as is виде) будет признаваться производным произведением (применительно к России – ст. 1260 ГК РФ). Такое признание будет усилением позиции правообладателей моделей-учителей. В рамках этого материала такой подход также сейчас не рассматриваю, чтобы не усложнять анализируемую ситуацию. ↩︎


Какие материалы могут помочь продвинуться в этом вопросе и смежных темах:

Are AI models’ weights protected databases? - Kluwer Copyright Blog
The ongoing Artificial Intelligence (AI) revolution has machine learning models at its core. Contrary to classic computer programs written by developers, many of these models rely on vast artificial neural networks trained in giant amounts of data. In general, they use what is called a transformer architecture. No one individually writes or encodes these models;... Continue reading

Не читал при подготовке ответа, но ссылка в закладках была, делюсь

Читаем лицензию AGPL
Подробный разбор, в чём разница между лицензиями GPL и AGPL. Не хардкор, но близко.

Перевод внушительного разбора лицензии AGPL и её сложностей

P.S. Спасибо друзьям (разработчикам и аналитикам), кто дал нужные мне пояснения на мои вопросы, возникшие во время этого квеста.