Как и практически каждая другая технологическая компания, Adobe за последние несколько лет активно внедряет искусственный интеллект. С 2023 года компания запустила ряд различных AI-сервисов, включая Firefly — свой набор инструментов для генерации медиа на базе искусственного интеллекта. Однако теперь столь активное внедрение этой технологии может привести к проблемам: новый судебный иск утверждает, что Adobe использовала пиратские книги для обучения одной из своих AI-моделей.
В коллективном иске, поданном от имени Элизабет Лайон, писательницы из Орегона, утверждается, что Adobe использовала пиратские версии многочисленных книг, включая её собственные, для обучения программы SlimLM.
Adobe описывает SlimLM как серию небольших языковых моделей, которые могут быть «оптимизированы для задач помощи с документами на мобильных устройствах». Компания заявляет, что SlimLM была предварительно обучена на SlimPajama-627B — «дедуплицированном, мультикорпусном, open-source датасете», выпущенном Cerebras в июне 2023 года. Лайон, написавшая ряд руководств по написанию научно-популярной литературы, утверждает, что некоторые её работы были включены в датасет для предварительного обучения, который использовала Adobe.
В иске Лайон, о котором впервые сообщило агентство Reuters, говорится, что её произведения были включены в обработанное подмножество изменённого датасета, который стал основой программы Adobe: «Датасет SlimPajama был создан путём копирования и модификации датасета RedPajama (включая копирование Books3)», говорится в иске. «Таким образом, поскольку это производная копия датасета RedPajama, SlimPajama содержит датасет Books3, включая защищённые авторским правом произведения Истца и членов Класса».
«Books3» — огромная коллекция из 191 000 книг, которые использовались для обучения генеративных AI-систем, — уже давно является источником юридических проблем для технологического сообщества. RedPajama также упоминался в ряде судебных разбирательств. В сентябре иск против Apple утверждал, что компания использовала защищённые авторским правом материалы для обучения своей модели Apple Intelligence. В иске упоминался этот датасет и утверждалось, что технологическая компания копировала защищённые произведения «без согласия, без указания авторства и без компенсации». В октябре аналогичный иск против Salesforce также утверждал, что компания использовала RedPajama для целей обучения.
К сожалению для технологической индустрии, такие судебные иски уже стали довольно обычным явлением. Алгоритмы искусственного интеллекта обучаются на огромных датасетах, и в некоторых случаях эти датасеты, как утверждается, включают пиратские материалы. В сентябре Anthropic согласилась выплатить 1,5 миллиарда долларов ряду авторов, которые подали на неё в суд и обвинили компанию в использовании пиратских версий их работ для обучения чат-бота Claude. Это дело считалось потенциальным поворотным моментом в продолжающихся юридических спорах по поводу использования защищённых авторским правом материалов в обучающих данных для AI, которых становится всё больше.

