Articles ND NacióDigital.cat Ntrevistes
Ricardo Baeza-Yates: «El Big Data a la Web el generen els internautes»
5 de novembre de 2015
0
, , ,
(Article publicat a NacióDigital 4/11/2015)

Ricardo Baeza | (Foto: Adrià Costa)

Viktor Mayer-Schönberger i Kenneth Cukier, autors del llibre: Big Data: Una revolució que canviarà la manera com vivim, treballem i pensem, expliquen que no podem entendre la revolució de les dades massives si les quantitats que representen no les traduïm a una equivalència de la vida real. Són xifres tan immenses que resulta complicat fer-se a la idea de què implica.
Avui, l’investigador del Yahoo! Labs, Ricardo Baeza-Yates, ha obert la segona jornada del Big Data Congress parlant sobre les dimensions de la Web –entesa com tot el contingut que podem trobar a Internet-. “La Web és infinita, ha anat creixent al llarg dels més de 20 anys d’existència d’Internet. A mesura que s’han anat incorporant usuaris, el contingut ha crescut exponencialment”. El resultat és una allau enorme de dades que es poden filtrar, analitzar i estudiar per canviar patrons, encertar més en els serveis que ofereixin o entendre comportaments ciutadans. Els reptes als quals s’enfronten avui dia els experts en Big Data passen per detectar el biaix, la redundància, la dispersió i la privadesa.
NacióDigital ha parlat amb el vicepresident de YahooLabs perquè expliqui amb més detall el que implica el concepte Big Data i com influeix la interacció dels 3.000 milions d’usuaris que actualment té Internet. “És un concepte complicat perquè depèn del moviment de milions de persones disperses per tot el món. Però es pot dir que tot el que està a la Web és Big Data”.

El biaix i el desert digital
Actualment, hi ha uns 850 milions de webs actives a Internet. Però quantes d’aquestes es coneixen? I com es pot arribar a elles? Moltes queden ocultes perquè els cercadors no les destaquen. “És important prestar atenció al biaix de les dades”, insisteix Baeza-Yates. Aquest pot ser de caire tecnològic, educatiu, econòmic, geogràfic, social, cultural, lingüístic, religiós, polític, de gènere, de soroll, de validesa, etc. “Agafa la Wikipedia, el seu contingut en biografies està esbiaixat en personatges masculins. Per dues raons: perquè hi ha menys personatges femenins degut a com s’ha explicat la Història però també perquè la majoria d’editors de la Wikipedia són homes. Altre biaix més subtil és la manera en què un blog molt popular va pujant posicions de visites, mentre que altres queden relegats a l’última posició. Per tant, mai tenen l’oportunitat de ser vistos”.
L’investigador de Yahoo! Labs denomina aquesta tendència el “desert digital”. “Vindria a ser tot el contingut d’Internet que ningú llegeix. A partir d’unes dades de Twitter del 2011, vam observar que més d’un 1% d’usuaris no té cap seguidor. Si comptes, els milions d’usuaris que registra aquesta xarxa social parlem d’una quantitat molt alta. El mateix passa a Facebook: alguna vegada has llegit totes les entrades escrites per un amic teu? A on queda això? Un percentatge molt alt del contingut que es canvia cada dia a Wikipedia, no el veu ningú”.
L’altre aspecte interessant del Big Data de la Web és qui genera el contingut. Una part molt petita el creen mitjans de comunicació, administracions públiques i empreses. “Aquest contingut és de qualitat però és molt poc si el comparem amb la gran quantitat generada pels 3 mil milions d’internautes, que pengen vídeos, blogs, fotos, àudios, etc. Part d’aquest material és molt bo, però és complicat trobar-lo”.
A Yahoo! Labs es van analitzar dades de Facebook i es va arribar a la conclusió que només el 7% dels usuaris generaven la meitat del contingut de la plataforma. “Hi ha molts perfils buits, sense res. El mateix passa a Twitter. Només el 2% genera la meitat de les piulades del món”. Segons Ricardo Baeza-Yates aquest és un fet normal, reproduït de la vida real a Internet. “En aquest Big Data Congress quan el moderador d’una conferència deixa temps al públic per fer una pregunta, d’un miler d’assistents només aixequen la mà una o dues. El mateix passa a Internet: els que llegeixen són milions i els que escriuen molt pocs”.
El Big Data a la publicitat
Quan parlem de publicitat, el Big Data també es té molt en compte. “Només el 3% dels usuaris actius de Yahoo! és suficient per mantenir tots els serveis que oferim. Aquesta xifra, encara que sembli molt baixa, és enorme. Uns pocs fan possible que moltíssims gaudeixin de serveis gratuïts. Però no tots els clics valen el mateix. Si algú consulta el resultat que està a la posició número 20, té més valor. Per què? Si com a cercador, sempre mostro el més visitat, com puc estar segur que no hi ha un nou contingut que valgui la pena i que no estic destacant? Apliquem la fórmula: “Explorar i explotar”, de manera que donem l’oportunitat a pàgines web en posicions baixes de ser visitades”.
Tot i que a Barcelona s’ha celebrat per primera vegada el Big Data Congress, l’investigador del Yahoo! Labs puntualitza que, avui dia, als Estats Units tot passa per l’anàlisi de les dades massives. “Hi ha un ecosistema: tant d’empreses que creen tecnologies noves com d’altres que treballen per facilitar-ne la feina dels que investiguen amb les dades, per representar-les i aplicar els resultats amb diferents propòsits”. Per acabar, Ricardo Baeza-Yates ha pronosticat que el Big Data personal, amb sensors en el cos i a la llar, permetrà que les persones puguin millorar la seva qualitat de vida, amb medicina personalitzada.

Ricardo Baeza, al Big Data Congress Foto: Susanna Sáez Catllà


 
 

About author

Karma

Continguts relacionats

Sí, fem vaga

(Article publicat a NacióDigital 4/11/2015) Vikto...

Llegir més
1200_1517742870576_1453398394foto_554908O

«​Amb la corrupció política no es pot ser només reactiu: ens empobreix i malmet la qualitat democràtica»

(Article publicat a NacióDigital 4/11/2015) Vikto...

Llegir més
1200_1524767083IMG_2712

Arxivers catalans preserven més de dos milions de tuits sobre abusos sexuals del #Cuéntalo

(Article publicat a NacióDigital 4/11/2015) Vikto...

Llegir més

There are 0 comments

Deixa un comentari

L'adreça electrònica no es publicarà. Els camps necessaris estan marcats amb *