Chris Anderson, Google i el Petabyte: The end of theory

Estàndard

“”Tots els models estan equivocats, però alguns són útils.”

aixó digué el tan proclamat estadista George Box fa 30 anys, i tenia raó. Però quina elecció teníem? Només aquests models, des de les equacions cosmològiques fins a les teories del comportament humà, semblaven capaços a d’explicar coherentment, encara que imperfectament, el món que ens envolta. Fins ara. Avui les companyies com Google, que han crescut en una era de dades massivament abundants, no han de fonamentar-se en models equivocats. En efecte, no han de fonamentar-se en cap model.

Fa seixanta anys, els ordinadors digitals feien la informació llegible. Fa vint anys, Internet la feia accessible. Fa deu anys, els primers motors de cerca composaven una base de dades senzilla. Ara Google i les companyies que pensen com ella filtren l’època amb més informació de la història i tracten aquest corpus massiu de dades com el laboratori de la condició humana. Ells són els nens de l’Edat del Petabyte.

L’Edat del Petabyte és diferent perquè la quantitat importa. Els kilobytes s’emmagatzemaven en disquets. Els Megabytes s’emmagatzemaven en discs durs. Els Terabytes s’emmagatzemaven en diversos discs. Els Petabytes s’emmagatzemen en un núvol. Mentre fèiem avançar la progressió i anàvem des de l’analogia de la carpeta fins a l’analogia de l’armari fins a l’analogia de biblioteca fins…, bé, davant dels petabytes hem defugit de les analogíes organitzatives.

El petabyte ens demana una aproximació totalment diferent, demana de nosaltres que deixem de pensar les dades com quelcom que es pot visualitzar en la seva totalitat. Això que ens força a veure les dades primer matemàticament i, més tard, a establir-ne un context. Per possar un exemple, Google va conquerir el món de la publicitat amb res més que matemàtica aplicada. No pretenia saber-ho tot sobre la cultura i les convencions de la publicitat, només suposava que les millors dades, amb les millors eines analítiques, guanyarien. I Google va tenir raó.

La filosofia que sosté l’ideari de Google és que els usuaris no sabem per què una pàgina és millor que una altre: si les estadístiques d’enllaços ens diuen que ho és, és suficient. Cap anàlisi semàntic o causal es utilitzat aquí. Aquest es el motiu per el que Google pot traduir algunes llengües sense “coneixer-les” de fet (donats els mateixos corpus de dades, Google pot traduir klingon al persa tan fàcilment com pot traduir el francès al alemany). Aquest és el motiu per què també pugui lligar anuncis amb contingut sense tenir cap coneixement o suposició sobre els anuncis o el contingut.

Parlant a la O’Reilly Emerging Technology Conference aquest març passat, Peter Norvig, el director d’investigació de Google, oferia una actualització de la màxima de George Box: “Tots els models estan equivocats, i cada vegada més un pot reeixir sense ells.”

Aquest és un món on les quantitats massives de dades i la matemàtica aplicada reemplacen totes les demés eines que puguin posar-se en marxa. Fora totes les teories del comportament humà, des de lingüística fins a sociologia. Oblidem taxonomia, la ontologia, i la psicologia. Qui sap per què la gent fa el que fa? L’important és que ho fan, i que podem seguir-ho i mesurar-ho amb una fidelitat sense precedents. Amb prou dades, els números parlen per si mateixos.

Però el gran objectiu aquí no s’està publicitant, tanmateix. Això és la ciència. El mètode científic es construeix al voltant d’hipòtesis provables. Aquests models, majoritàriament, són sistemes visualitzats en les ments dels científics. Un cop pensats els models es proven i els experiments confirmen o falsifiquen els models teòrics de funcionament del món. Aquest es el camí per el que la ciència ha anat fent camí durant centenars d’anys.

Però els científics s’estan preparant per reconèixer que la correlació no és causació, i que cap conclusió no s’hauria de treure simplement sobre la base d’una correlació entre X i Y (només podria ser una coincidència). Més enllà d’això, s’han d’entendre els mecanismes subjacents que connecten el dos. Una vegada es té el model, es poden connectar els conjunts de dades amb confiança. Les dades sense un model són només soroll.

Però si plantejem les dades de forma massiva, aquesta aproximació a la ciència — hipotesis, model, prova —; diventa obsoleta. Considerem els físics: els models newtonians eren crues aproximacions a la veritat (errades en el nivell atòmic, però encara útils). Fa cent anys, la mecànica quàntica estadísticament ordenada oferia una millor fotografia. Però la mecànica quàntica és encara una altra model, i com a tal, també, és defectuós, sens dubte una caricatura d’una realitat subjacent més complexa. Durant les passades décades la raó dels físics han anat introduït-se en l’especulació teòrica sobre magnífics models n-dimensionals unificats, i ara no saben com portar a terme els experiments que falsificarien les hipòtesis ja que les energies són massa potents, els acceleradors massa cars, etcètera.

No només els físics, també la la biologia s’està dirigint en la mateixa direcció. Els models que éren ensenyats a escola sobre gens “dominants” i “recessive” que condueixen un procés estrictament Mendelian han resultat ser una simplificació fins i tot més gran que les lleis de Newton. La descoberta d’interaccions de proteïna de gens i uns altres aspectes de l’epigènetica ha desafiat la visió del ADN com un destí i fins i tot ha introduït l’evidència de que l’ambient pot influir en els trets heretables, una cosa que és considerada genéticamente impossible.

Ben aviat, com més sabrem sobre biologia, més allunyats ens trobarem d’aconseguir un model que la pugui explicar. Però ara hi ha un camí millor.

Els Petabytes ens permeten dir: “La correlació és suficient”. Podem parar de buscar models. Podem analitzar les dades, sense les hipòtesis sobre les quals es podrien mostrar. Podem introduïr les dades dintre dels grups de computació més grans que el món mai hagi vist i descubrir algoritmes estadístics que la ciència no pot plantejar.

El millor exemple pràctic d’això és l’eina de seqüenciació de gens de J. Craig Venter. Per mitjà de seqüenciadors d’alta velocitat i superordinadors que estadísticament analitzen les dades que produeixen, Venter va anar seqüenciant una serie d’organismes individuals fins a seqüenciar ecosistemes sencers. Al 2003, començava a seqüenciar l’oceà, rememorant el viatjge del Capità Cook. I al 2005 començava seqüenciar l’aire. En el procés, va descobrir milers d’espècie desconegudes de bacteris i altres formes de vida.

Si les paraules “descobrir una espècie nova” encara et porta a la ment a Darwin i els seua dibuixos d’ocells, es que encara estas atrapat en una vella manera de fer ciència. Venter no pot dir-te gairebé res sobre les espècies que ha descobert. No sap a què s’assemblen, com viuen, ni molta cosa sobre la seva morfologia. Ni tan sols no té la seva sequencia genètica sencera. Tot el que té és un blip —una única seqüència que, sent diferènt de qualsevol altra seqüència de la base de dades, representa una espècie nova.

Aquesta seqüència es pot relacionar amb unes altres seqüències de les que sí en sabem més. En aquest cas, Venter pot fer algunes suposicions sobre els animals, per exemple, que converteixen la llum del sol en energia d’una manera particular, o que venen d’un avantpassat comú. Però més enllà d’això, no té un model millor d’aquestes espècies que el que Google té de la seva pàgina de MySpace. Són només dades. Pero analitzant amb els recursos de computació que li ofereix Google, Ventre ha avançat en biologia més que qualsevol més de la seva generació.

Aquest tipus de pensament està llest per ser presentat en societat. Al febrer, la National Science Foundation anunciava The Cluster Exploratory, un programa que financia la investigació dissenyada per executar en una plataforma de computació distribuïda a gran escala i desenvolupada per Google i IBM conjuntament amb sis universitats de pilots. El grup constarà de 1,600 processadors, uns quants terabytes de memòria, i centenars de terabytes d’emmagatzematge, junt amb el programari, incloent-hi IBM Tivoli i versions obertes de Google File System i MapReduce. Els primers proyectes de CluE inclouràn simulacions del cervell i del sistema nerviós i altres investigacions biologiques per trobar el lloc intermig entre el wetware i el software.

Aprendre a utilitzar un ordinador en aquesta escala pot ser difícil. Però l’oportunitat és gran. La nova disponibilitat de quantitats enormes de dades, junt amb les eines estadístiques per fer cruixir aquests números, ofereix tota una nova manera nova d’entendre el món. La correlació substitueix a la casualitat, i la ciència pot avançar fins i tot sense models coherents, teories unificades, o qualsevol tipus d’explicació mecànica. No hi ha cap raó per agafar-se als antics procediments.

És temps de preguntar: Què pot aprendre la ciència de Google?”

Aquest article ha estat traduït de la revista Wired, de la que Chris Anderson és el director.

Per altre banda, la revista The edge hi afegeix alguns articles complementaris que poden servir per entendre aquesta teoría.

ALIMENTANT A LES MASSES:
Introduïm dades, treiem preduccions de collita
Ben Paynter
PERSEGUINT EL QUARK:
De tant en tant necessites airejar la informació
David Harris
GUANYANT EL JUDICI:
Dades d’extracció minera d’escombreria
John Bringardner
SEGUINT LES NOTICIES:
Una manera intel·ligent de predir conflictes i guerres
Adam Rogers
MIRANT ALS CELS:
L’espai es gran, però no el suficient per ser incommesurable.
Michael D. Lemonickt
ESCANEGANT ELS NOSTRES ESQUELETS:
Les imatges d’ossos mostren el gast i el desgast
Thomas Goetz
SEGUINT LES TARÍFES AÈREES:
Elaborant algoritmes per predir els preus dels bitllets
Cliff Kuang
PREDINT EL VOT:
Identificant petits blocs de vots
Garrett M. Graff
POSSANT PREU AL TERRORISME:
Asseguradores que medeixen riscos, costos
Vince Beiser
VISUALITZAN EL BIG DATA:
Gràfiques de paraules
Mark Horowitz
RASTREJANT LES ZONES CALENTES:
Monitoritzar hora a hora les epidèmies
Sharon Weinberger
CLASSIFICANT EL MON:
Google inventa una nova manera de processar les dades
Patrick Di Justo
Anuncis