OpenAI должно объяснить удаление пиратских наборов данных книг
Причины удаления наборов данных
OpenAI, возможно, вскоре придется объяснить, почему были удалены два спорных набора данных, состоящих из пиратских книг. Ситуация становится все более серьезной, так как в центре коллективного иска от авторов, которые утверждают, что ChatGPT был незаконно обучен на их произведениях.
Важность решения OpenAI
Решение OpenAI удалить эти наборы данных может оказать решающее значение и принести победу авторам. Не подлежит сомнению, что OpenAI удалила наборы данных, известные как «Books 1» и «Books 2», до выпуска ChatGPT в 2022 году.
Происхождение наборов данных
Эти наборы данных были созданы бывшими сотрудниками OpenAI в 2021 году. Они были составлены путем сбора информации с открытого интернета, и большая часть данных была извлечена из теневой библиотеки под названием Library Genesis (LibGen).
