Enlaces accesibilidad

Com és que es destrueixen llibres per entrenar la IA?

  • Parlem amb Xavier Vinaixa, director tècnic de Sorensen AI, i Marçal Font, propietari llibreria Fènix de Badalona
  • Reivindiquen la sobirania europea i un treball en col·lectiu davant d'una qüestió que pot esdevenir patrimonial
Cafè d'idees - Com es destrueixen llibres per entrenar la IA?
Aleix Campubrí i Pont

Empreses que treballen amb intel·ligència artificials compren llibres vells i els destrueixen per alimentar els seus models d'IA. Ens ho expliquen l'expert en IA Xavier Vinaixa, director tècnic de Sorensen AI, i Marçal Font, propietari llibreria Fènix de Badalona, que es va adonar sobre aquests moviments, els quals assegura es continuen produint en els darrers dies.

Font ha recordat com va ensumar-se que alguna cosa estava passant en rebre "comandes desgavellades" que van fer saltar les alarmes, amb els "conseqüents desgavells de despeses d'enviaments, que pujaven moltíssim". Ha detallat que es tracta de llibres que tenen un preu molt baix, però que per cada exemplar pagaven uns 50 euros d'enviament, ja que anaven als Estats Units. "No té cap sentit, això ens feia preocupar", ha dit, destacant que està passant a tot el món.

Set de dades

El llibreter apunta que "estem en un moment gens perillós" puix per ara compren llibres amb ISBN, però alerta que "això acabarà aviat" i que només "estem a la punta de l'iceberg".

"Estem arribant a un punt que els experts estan dient: el mur de dades. Han fet servir tota la informació pública digitalitzada per entrenar i ha arribat a un topall, ja no hi ha més dades", assenyala l'expert en una conversa al Cafè d'idees amb Gemma Nierga, sobre els motius que hi ha darrere de tot plegat. Per aquest motiu recorren a llibres antics, els quals destaquen que són obres molt específiques, com dietaris, actes de congressos o manuals tècnics, en cerca de "la totalitat del coneixement". "Estic veient el retrocés del mar abans del tsunami. Té molt pocs números de no ser un tsunami", alerta el llibreter de vell, assegurant que ens hem de preparar.

Vinaixa destaca que la destrucció que en fan és per motius econòmics, puix li tallen el llom per anar més de pressa a fer la digitalització. "Però el tecnofeixisme és així i quan descobreixin que tenen el poder...", ha dit preguntat sobre la possibilitat que les empreses tecnològiques puguin acabar obligant a passar per elles per accedir al coneixement. Font demana "exhaustivitat" i "treball en col·lectiu" davant d'un problema que pot esdevenir patrimonial: "Si no, perdrem bous i esquelles", alerta, reivindicant el paper que fan els llibreters. "Hem de posar-nos a preparar, i això ha de ser institucional, una estratègia per, quan arribi el tsunami, estar preparats", afegeix.

La sobirania en IA

En aquest sentit, els dos entrevistats reivindiquen la sobirania europea davant de la compra massiva de llibres per alimentar la IA. "Algun dia voldrem tenir una intel·ligència artificial europea, més ben feta a poder ser, i necessitarem aquest material", apunta el llibreter, mentre Vinaixa apunta que "el català és una cosa que no funciona bé" en els models que hi ha actualment. Alhora, destaca que els Estats Units han vetat l'ús del model d'Anthropic a aquells qui no siguin estadunidencs: "Aquí hi ha un tema de sobirania. Ens estan comprant les dades i no tens accés".

"Nosaltres som l'arxiu, hem de fer l'arxiu", afegeix Vinaixa, destacant que manca transparència sobre els objectius d'aquestes empreses. "Necessitem sobirania perquè no ens passi això, perquè no vingui un Donald Trump i digui: 'Això ara no ho fas servir'". Font considera que és "una oportunitat de fer bé un model d'intel·ligència artificial" amb una "dada que sigui de qualitat". Amb tot, el llibreter assegura que les empreses són coneixedores que han detectat aquests moviments. "No estem atacant a ningú. Estem dient: 'Sou els bons, sou els que podeu fer-ho'", remarca.

La necessitat de l'objecte físic

El llibreter de vell també ha volgut reivindicar la necessitat de tenir l'objecte físic, puix una part de la informació no passa a la digitalització, a ser escanejada: "Compren la meitat de la dada, l'escaneig d'un llibre sempre suposa una minva d'informació". Si es fa correctament i hi ha metadades "es poden fer filigranes", però actualment compara aquestes empreses amb El Monstre de les Galetes. "És un desaprofitament, molt poc eficient", lamenta.

Font també ha descartat rebutjar la venda dels darrers exemplars que hi pugui haver d'una obra, tot criticant el debat plantejat aquests dies. "És molt injust que la cadena més petita de la vàlua del llibre, que estem a la primera línia, aguanti tot el pes, perquè, a més a més, és impossible", apunta. Com a mesura davant aquestes empreses, el llibreter ha impulsat per fer un catàleg sobre què tenen els llibreters de vell abans de l'ISBN. "Estem detectant petites faltes, les coses grans no les perdrem", afegeix.