ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ
Сегодня
Анна Петрович
мыслитель-самоучка
КНИГИ ПОД НОЖ
Или глобальное пиратство
-
Участники дискуссии:
410 -
Последняя реплика:
Только что
Посмотрите на это фото. Миллионы этих книг ждут гидравлического ножа, чтобы стать обучающими данными.
Снимок всплыл в судебных документах, опубликованных в Washington Post. Это, предположительно, склад для операции под названием Project Panama. Так в компании Anthropic (это те, кто делает Claude) называли скупку и оцифровку книг для обучения ИИ.
Считается, что на книгах модель учится писать живее и человечнее, чем на интернет-переписках, поэтому книги ей нужны позарез. Anthropic партиями, за десятки миллионов долларов, скупала миллионы подержанных томов — у продавцов вроде Better World Books и британского World of Books, пробовала договориться даже с Нью-йоркским магазином Strand (это магазин со слоганом «18 миль книг», они впрочем отказались от сотрудничества) и с Нью-Йоркской публичной библиотекой.
Книги не расставляют по полкам и не берегут. Их режут — специальная гидравлическая машина срезает корешок, страницы прогоняют через промышленные сканеры, а сами книги, уже «отработанные», отдают на переработку. То есть бумажные тела книг после оцифровки просто уничтожают. Перегнать так собирались от 500 тысяч до двух миллионов книг за полгода. Руководит этим Том Терви, который двадцать лет назад помогал собирать спорный, с точки зрения авторского права, проект Google Books.
А еще во внутреннем плане проекта прямо написано: «Мы не хотим, чтобы про это стало известно».
До того как перейти на честную скупку, ИИ-компании, судя по тем же бумагам, не брезговали и пиратством. Сооснователь Anthropic Бен Манн в 2021 году 11 дней лично качал книги с пиратской библиотеки LibGen. Meta, если верить переписке сотрудников, скачала больше 81 терабайта пиратских книг через торренты с арендованных серверов Amazon, чтобы труднее было отследить. OpenAI скачивание с LibGen признала, но уверяет, что удалила все до запуска ChatGPT.
Слово суду. Судья Уильям Олсап летом 2025-го решил, что учить ИИ на книгах в принципе можно, это «трансформативное» использование. А вот за скачивание пиратских копий Anthropic ответит: компания согласилась выплатить издателям и авторам полтора миллиарда долларов, не признавая вины. Выходит примерно по 3000 долларов за книгу.
Адвокат авторов Джастин Нельсон говорит, что тренд задала OpenAI, а за ней пиратство пошло вразнос по всей индустрии. Забавно, что профессор права Джеймс Гриммельман считает решение Anthropic уйти от пиратских библиотек к покупке и резке настоящих книг умным и законопослушным ходом.
Важная оговорка: точно не известно почти ничего. Чей это склад и где он, не раскрывают, цифры засекречены, а почти все остальное — косвенные улики из судебных бумаг, переписок и внутренних планов.
Снимок всплыл в судебных документах, опубликованных в Washington Post. Это, предположительно, склад для операции под названием Project Panama. Так в компании Anthropic (это те, кто делает Claude) называли скупку и оцифровку книг для обучения ИИ.
Считается, что на книгах модель учится писать живее и человечнее, чем на интернет-переписках, поэтому книги ей нужны позарез. Anthropic партиями, за десятки миллионов долларов, скупала миллионы подержанных томов — у продавцов вроде Better World Books и британского World of Books, пробовала договориться даже с Нью-йоркским магазином Strand (это магазин со слоганом «18 миль книг», они впрочем отказались от сотрудничества) и с Нью-Йоркской публичной библиотекой.
Книги не расставляют по полкам и не берегут. Их режут — специальная гидравлическая машина срезает корешок, страницы прогоняют через промышленные сканеры, а сами книги, уже «отработанные», отдают на переработку. То есть бумажные тела книг после оцифровки просто уничтожают. Перегнать так собирались от 500 тысяч до двух миллионов книг за полгода. Руководит этим Том Терви, который двадцать лет назад помогал собирать спорный, с точки зрения авторского права, проект Google Books.
А еще во внутреннем плане проекта прямо написано: «Мы не хотим, чтобы про это стало известно».
До того как перейти на честную скупку, ИИ-компании, судя по тем же бумагам, не брезговали и пиратством. Сооснователь Anthropic Бен Манн в 2021 году 11 дней лично качал книги с пиратской библиотеки LibGen. Meta, если верить переписке сотрудников, скачала больше 81 терабайта пиратских книг через торренты с арендованных серверов Amazon, чтобы труднее было отследить. OpenAI скачивание с LibGen признала, но уверяет, что удалила все до запуска ChatGPT.
Слово суду. Судья Уильям Олсап летом 2025-го решил, что учить ИИ на книгах в принципе можно, это «трансформативное» использование. А вот за скачивание пиратских копий Anthropic ответит: компания согласилась выплатить издателям и авторам полтора миллиарда долларов, не признавая вины. Выходит примерно по 3000 долларов за книгу.
Адвокат авторов Джастин Нельсон говорит, что тренд задала OpenAI, а за ней пиратство пошло вразнос по всей индустрии. Забавно, что профессор права Джеймс Гриммельман считает решение Anthropic уйти от пиратских библиотек к покупке и резке настоящих книг умным и законопослушным ходом.
Важная оговорка: точно не известно почти ничего. Чей это склад и где он, не раскрывают, цифры засекречены, а почти все остальное — косвенные улики из судебных бумаг, переписок и внутренних планов.
Дискуссия
Еще по теме
Еще по теме
Дмитрий Котов
ПРИВЕДЕТ ЛИ ИИ К ГИБЕЛИ ЧЕЛОВЕЧЕСТВА?
Le Figaro: шансы — один к десяти
Алексей Антонов
ДИВНЫЙ НОВЫЙ МОЗГ
Как человечество проигрывает, подсаживаясь на ИИ
Елена Мельникова-Григорьева
Доктор семиотики, специалист по знаковым системам
ИИ О СМЫСЛАХ, БОГЕ, ЛГБТ, СОВЕСТИ И ДРУГОМ. ЧАСТЬ 5
Размышления большой языковой модели
Елена Мельникова-Григорьева
Доктор семиотики, специалист по знаковым системам
ИИ О СМЫСЛАХ, БОГЕ, ЛГБТ, СОВЕСТИ И ДРУГОМ. ЧАСТЬ 4
Размышления большой языковой модели