Correos electrónicos internos recientemente revelados muestran que Meta, la empresa matriz de Facebook, descargó masivamente libros pirateados a través de redes torrent para entrenar sus modelos de inteligencia artificial, a pesar de las advertencias de sus propios empleados sobre la ilegalidad de estas acciones.
La magnitud de las descargas
Según documentos judiciales revelados, Meta descargó "al menos 81.7 terabytes de datos a través de múltiples bibliotecas shadow mediante el sitio Anna's Archive, incluyendo al menos 35.7 terabytes de datos de Z-Library y LibGen". Adicionalmente, la empresa había descargado previamente otros 80.6 terabytes de datos de LibGen.
Advertencias internas ignoradas
Los correos electrónicos internos muestran que varios empleados expresaron su preocupación por estas prácticas. "Descargar torrents desde un ordenador corporativo no se siente correcto", escribió Nikolay Bashlykov, ingeniero de investigación de Meta, en un mensaje de abril de 2023, según reveló Ars Technica.
Para septiembre de 2023, Bashlykov elevó sus preocupaciones al equipo legal, enfatizando que el uso de torrents implicaría "compartir" los archivos hacia el exterior, lo cual "podría no ser legalmente correcto".
Intentos de encubrimiento
La empresa aparentemente intentó ocultar sus actividades de varias maneras:
- Evitó usar servidores de Facebook para las descargas
- Operó en "modo sigiloso"
- Modificó la configuración para minimizar el compartido de archivos
- Intentó evitar que las descargas pudieran ser rastreadas hasta sus servidores
Frank Zhang, investigador de Meta, describió el trabajo como en "modo sigiloso" en mensajes internos, mientras que Michael Clark, ejecutivo a cargo de la gestión del proyecto, admitió en una declaración que la empresa modificó la configuración para minimizar el compartido de archivos.
Implicaciones legales
Los autores demandantes argumentan que la magnitud de la piratería de Meta es "asombrosa", señalando que actos de piratería de datos mucho menores -apenas el 0.008% del volumen descargado por Meta- han resultado en investigaciones criminales.
La situación se complica aún más por el hecho de que Mark Zuckerberg, quien había declarado no tener participación en las decisiones relacionadas con LibGen, aparece mencionado en los mensajes no redactados como parte del proceso de toma de decisiones.
La respuesta de Meta
Meta no ha respondido inmediatamente a las solicitudes de comentarios sobre estas revelaciones. Sin embargo, la empresa ha mantenido consistentemente que el entrenamiento de IA con LibGen constituye un "uso justo" del material.
En una moción de desestimación presentada el mes pasado, Meta argumentó que los demandantes no han podido demostrar que algún libro fuera efectivamente descargado por terceros desde Meta a través de torrent.
La empresa ha indicado que planea "aclarar el registro y desmentir esta alegación sin mérito" durante el juicio sumario, mientras continúa la investigación limitada sobre sus actividades de compartición de archivos.