Articles
És possible acabar amb els biaixos dels algorismes? (1a part)
17 de juny de 2019
1
, , , , , ,

per Ricardo Baeza-Yates * i Karma Peiró.

El futur s’està creant a partir de la intel·ligència artificial, ja que bona part de les decisions que prenem en les nostres vides estan influenciades per l’acció dels algoritmes d’aprenentatge automàtic. No obstant això, els sistemes automatitzats tenen biaixos que poden convertir la nostra quotidianitat en una bombolla de felicitat, mostrant-nos només allò que ens agrada. Si no fem alguna cosa per canviar aquesta situació, potser un dia descobrirem que com el protagonista del Show de Truman no sabrem distingir la realitat de la ficció.

 

Ciència ficció?

Imagini’s que cerca feina en una empresa de gran prestigi, amb unes condicions de treball i sou més que acceptables. La companyia a la qual aspira rep moltes demandes, i no fa entrevistes personalitzades ni tests perquè considerar que les habilitats que es destaquen són sovint exagerades. A canvi, demana la contrasenya del correu electrònic de l’aspirant perquè un algoritme rastregi els missatges personals i crei un perfil del candidat. Donaria vostè el consentiment per a que un sistema d’intel·ligència artificial (IA) revisés el que té a la seva bústia de correu, a canvi d’optar a la feina de la seva vida?

L’exemple que acabem de descriure és real. L’agència de recol·locació de treball finlandesa DigitalMinds té una vintena de grans corporacions com a clients. En rebre moltes demandes de possibles candidats, necessita estalviar temps. i prefereix que un algoritme faci la selecció de manera automàtica.

Les innovacions tecnològiques en el sector del reclutament de personal no són cap novetat: els primers formularis en format test van aparèixer a la dècada dels anys 40 del segle passat; els 90 ja es feien servir tècniques digitals i, ara, és el torn de la intel·ligència artificial. DigitalMinds va començar a fer servir algoritmes “intel·ligents” per a selecció de personal en 2017. També els utilitza per escodrinyar el Facebook i Twitter personal dels aspirants. El sistema analitza l’activitat del candidat i com reacciona. Amb els resultats es pot saber si una persona és introvertida o si s’expressa correctament, a més d’altres aspectes de la personalitat.

La IA és bona per a establir patrons i relacions ingents, així com per agilitzar processos i realitzar operacions amb big data. No obstant això, el problema és que els algoritmes no són neutres. Tampoc les dades que serveixen per a entrenar-los, perquè tenen biaixos. I això no és res de nou.

En els anys 80, el vicedegà de l’Escola de Medicina de l’Hospital St.George de Londres, Geoffrey Franglen,  havia d’avaluar unes 2.500 sol·licituds cada any.  Per automatitzar el procés va escriure un algoritme que l’ajudés a revisar, basant-se en el comportament d’avaluació de sol·licituds anteriors. Així, aquell any, els candidats es van sotmetre a una doble prova abans de ser admesos: la de l’algoritme, i la dels professors. Franglen va adonar-se que les qualificacions coincidien en un 90-95%, el que demostrava que l’algoritme podia reemplaçar els humans en aquesta fase tan tediosa. Però en 1984, la direcció del centre va mostrar la seva preocupació per la poca diversitat dels candidats. I la Comissió per a la Igualtat Racial del Regne Unit va denunciar l’Escola per discriminació xenòfoba i de gènere. Resulta que cada any s’havien deixat fora de la selecció unes 60 persones que l’algoritme discriminava perquè tenien cognoms no europeus i dones.

No tots els biaixos són perjudicials. Per exemple, que hi hagi més infermeres que infermers pot ser positiu per les seves qualitats empàtiques en el tracte dels pacients. Però que els polítics siguin majoria no ho és tant, perquè un punt de vista de la població (el femení) no està igualment representat. Els resultats dels algoritmes  poden donar lloc a discriminacions per raons de gènere, raça, edat o classe  social, per mencionar els més importants. La pregunta ara seria… i llavors per què s’apliquen?

Qüestió de justícia 

Una xarxa neuronal és un conjunt de nodes interconectats, semblant a la xarxa de neurones del cervell humà.

La majoria d’algoritmes que operen avui estan basats en el que es coneix com a deep learning (o aprenentatge profund): una tècnica de processament de dades basada en xarxes neuronals artificials que funcionen per capes i que permeten aprendre. Està inspirat en el funcionament bàsic de les neurones del cervell. Aquesta tècnica existeix fa més de 50 anys, però és ara que tenim el suficient volum de dades i capacitat de computació per aplicar-la en una multitud de casos pràctics.

Actualment, molts dels dispositius que reconeixen la veu, la cara, l’iris, fan servir aquestes xarxes neuronals. Aquest reconeixement s’aconsegueix introduint al sistema milions d’elements etiquetats que entrenen la màquina. Però tornant a la nostra pregunta: Si se sap que els algoritmes tenen biaixos, per què els utilitzem? Una resposta podria ser que el benefici o encert dels resultats és considerablement superior (més d’un 90% en la majoria dels casos) que el perjudici o error. És això just pels que surten perjudicats? En aquest punt es podria encetar una llarga discussió sobre què és o no és just a la vida.

Resulta molt difícil ser just amb tothom. Un algoritme pot ser-ho amb un col·lectiu de dones però discriminar a un home. En aquest sentit, l’investigador Andrew Selbst —del Data&Society Research Institute— explica que decidir la discriminació en intel·ligència artificial és ben complicat. “És un procés en constant evolució, igual que qualsevol aspecte de la societat”.

Els biaixos són semblants als prejudicis: tots els tenim, en menor o major grau. Molts els heretem del nostre entorn social o familiar sense adonar-nos. El biaix més gran és creure que no tenim cap prejudici. Però… atenció: si els biaixos no es corregeixen, hi ha el risc d’habitar un futur on cada cop sigui més difícil el progrés social perquè els prejudicis es perpetuïn.

Com estar segurs, doncs, que totes les dades que introduïm al sistema representen l’univers que volem predir? Aquest és un dels principals dilemes d’avui dia. No podem estar segurs. Per ser rigorosos també cal dir que els algoritmes ben dissenyats —tot i tenir biaixos— són justos d’acord amb els paràmetres que se’ls han donat. A diferència dels humans -que poden variar la seva decisió en funció d’un estat d’ànim o de l’estat de cansament físic i mental- els algoritmes sempre funcionen igual.

Humans decisions and machine predictions és un interessant estudi nord-americà que demostra com en decidir atorgar una fiança en un procés judicial, l’aprenentatge automàtic pot funcionar millor que les decisions d’un jutge, inclús quan podrien discriminar als negres o hispans. Els resultats van donar que, quan era molt evident que la persona tenia molt baix risc en reincidir, tant els jutges com l’algoritme coincidien en alliberar-lo sota fiança abans del judici. Però l’algoritme era més just que el jutge al predir casos de major risc de reincidència de crim. I això és perquè les màquines són sistemàtiques, inclús quan són tan racistes com els jutges.

Quants tipus de biaixos existeixen?

Hi ha tres tipus de biaixos clàssics: l’estadístic, el cultural i el cognitiu. L’estadístic procedeix de com obtenim les dades, d’errors de mesuratge o similars. Per exemple, si la policia està més present en alguns barris que en altres, no serà estrany que la taxa de criminalitat sigui més alta on tingui major presència.

El biaix cultural és aquell que deriva de la societat, del llenguatge que parlem o de tot el que hem après al llarg de la vida. Els estereotips de les persones d’un país en són un exemple clar.

Per últim, el biaix cognitiu és aquell que ens identifica i que depèn de la nostra personalitat, dels gustos i de les pors. Per exemple, si llegim una notícia que està alineada amb el que pensem, la nostra tendència serà validar-la encara que sigui falsa.

Aquesta última desviació es diu també ‘biaix de confirmació’. Bona part de les notícies falses (fake news) s’alimenten d’aquest raonament per difondre’s més ràpidament. Per aquest motiu,  si no ens qüestionem el que llegim o veiem, correm el risc d’avançar cap a una involució humana. L’historiador Yuval Noah Harari alerta en el seu darrer llibre 21 Lliçons per al segle XXI que “amb la tecnologia actual, és molt fàcil manipular les masses”. I si seguim el que pensa la majoria de gent, què passa quan moralment la massa estigui equivocada?

I encara més biaixos…

Les màquines poden treballar amb molts més biaixos, tots derivats dels principals que acabem d’esmentar. Les dades que fa servir un algoritme tenen els trets culturals i cognitius dels seus usuaris. I les dades usades tenen biaixos estadístics. D’igual manera, el disseny d’aquests algoritmes poden reflectir aspectes dels seus creadors.

Trobem el biaix d’ordre (rànquing) quan fem una cerca a la Web, ja que les persones tendeixen a fer clic a les primeres posicions i el buscador podria interpretar que aquestes respostes són millors que les següents. Per aquesta raó, els cercadors adapten els números de clics per mitigar l’efecte de l’ordre dels resultats.

Els biaixos de presentació els trobem a les recomanacions en l’àmbit del comerç electrònic. Només allò que el cercador mostra a l’usuari podrà tenir clics. Tot el que no surti en la pàgina de resultats queda fora de consulta. És un cercle viciós, com el de l’ou i la gallina. I l’única manera de trencar-lo és mostrar l’univers total de resultats.

Això ha de veure amb el que es coneix com a “filtre bombolla“[1]: el sistema mostra únicament allò que t’agrada. Com es basa en les accions del passat, no és possible veure allò que es desconeix. En cas de continuar així, arribarà un moment que ens podem sentir com el personatge principal de la pel·lícula El show de Truman, que un bon dia s’adona que tot el seu món és un engany. I que s’ha perdut què hi ha més enllà de l’horitzó. El filtre bombolla no és només per als usuaris, també ho és per al programari: les persones només triaran els elements que els han presentat en primer lloc. El problema és que les multinacionals optimitzen els costos d’aquests sistemes automatitzats a curt termini i el que s’hauria de fer és invertir per assegurar que funcionaran també en el futur.

El problema és que les empreses optimitzen els costos d’aquests sistemes automatizats a curt termini i el que s’hauria de fer és invertir en conèixer millor el món. En aquesta lògica, si una xarxa social només mostra notícies falses, desapareixerà. Si un lloc de comerç digital només destaca els productes venuts a curt termini, desapareixerà perquè hi haurà una altra empresa que ho farà millor. Però entretant també estarà destruint molts negocis que no van ser mostrats, pel biaix de presentació. Les multinacionals tecnològiques ja fa temps que estudiant el biaix i la justícia dels resultats perquè afecta greument a la societat.

Un biaix de gènere el veiem quan cerquem a xarxes socials d’empreses. Els primers resultats seran perfils masculins, perquè hi ha menys dones en posicions directives. Una possible solució seria introduir-li al sistema dades noves perquè en els vint primers resultats hi hagués la mateixa proporció de gènere. Però abans caldria decidir per a cada professió quina hauria de ser la proporció correcta. Perquè per diferents raons —per exemple, físiques— sempre hi haurà majoria d’homes en certes professions. I altres —per exemple, per empatia— estaran dominades per les dones.

Existeixen també desviacions de segon rang! Un exemple es quan una persona fa servir la informació dels primers resultats d’un cercador i la reutilitza per escriure nous articles. Una recerca publicada en 2008 sobre la genealogia de pàgines web va demostrar que el 35% de les pàgines de la Web tenien continguts d’altres pàgines ja existents.[1] Aquest problema s’agreuja amb el funcionament actual dels cercadors, perquè quan són recol·lectades estan ja esbiaixades i el cercador creu que són encara més rellevant.

Biaixos n’hi ha per donar i regalar. Hi ha desenes de culturals i encara més de cognitius. S’han arribat a classificar fins a un centenar, però serien uns 25 els més importants. Començant pel de ‘confirmació’, que ja hem mencionat. A l’article The Ultimate List of Cognitive Biases: Why Humans Make Irrational Decisions s’enumeren uns 49 biaixos cognitius. I, en un altre de la revista Forbes, mencionen 8 com els principals per al màrqueting.

En tot cas, els biaixos més perillosos són els cognitius perquè estan arrelats a cada persona. L’única manera de resoldre’ls és canviar a cada persona, el qual d’entrada ja sembla una proesa impossible. I és que… cal donar la raó a Harari quan diu que és molt fàcil manipular les persones i molt complicat eliminar els biaixos.

 

     * Continua llegint la segona part, dedicada a donar possibles solucions per a minimitzar els biaixos dels algoritmes que serà publicat en breu.

————————————————————————————————————————* Ricardo Baeza-Yates és científic de dades i  CTO de NTENT, una companyia de tecnologia de cerca semàntica basada en Carlsbad, Califòrnia. A més és director dels programes de postgrau de ciència de dades de Northeastern University, campus Silicon Valley. És també fundador del Grup de Ciència de la Web i Computació Social en el Dept. de Tecnologies de la Informació i les Comunicacions de la Universitat Pompeu Fabra (UPF). Els seus interessos de recerca inclouen algorismes i estructures de dades, recuperació d’informació, cerca i mineria de dades en la Web a més de data science i visualització de dades. 


 

[2] Ricardo Baeza-Yates, Álvaro R. Pereira Jr., Nivio Ziviani. Genealogical trees on the Web: a search engine user perspective. In WWW 2008, Pekín, China, Abril 2008, 367-376

About author

Karma Peiró

Continguts relacionats

Captura de Pantalla 2019-07-14 a les 12.41.43

«Desprotegides, malgrat tot»

per Ricardo Baeza-Yates * i Karma Peiró. El futu...

Llegir més
cervell

És possible acabar amb els biaixos dels algoritmes? (2a part)

Vivim en una societat cada dia més controlada per...

Llegir més
Captura de pantalla 2019-02-10 a les 20.24.31

«Blockchain: Fum o futur contra les fake news?»

per Ricardo Baeza-Yates * i Karma Peiró. El futu...

Llegir més

There is 1 comment

Deixa un comentari

L'adreça electrònica no es publicarà. Els camps necessaris estan marcats amb *