Blog de la Biblioteca de Matemàtiques i Informàtica


Deixa un comentari

Google i reCAPTCHA: on no arriba l’OCR arriba l’usuari

reCAPTCHAGoogle ha tornat a sorprendre mig món amb un moviment tan inesperat com hàbil. El 16 de setembre anunciaven oficialment la compra de reCAPTCHA, un servei de CAPTCHA molt popular, amb la característica afegida que ajuda a digitalitzar llibres i diaris antics.

Un CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart) és un sistema d’autenticació que intenta determinar si l’usuari que vol accedir-hi és un ésser humà o una màquina, mostrant paraules o seqüències de caràcters una mica distorsionades que l’usuari ha de reproduir en una caixa de text. L’objectiu és evitar que els robots es puguin registrar a determinats serveis -per exemple, obrir un compte de correu electrònic per enviar correu brossa- o participar a enquestes.

Quan es digitalitza un text imprès s’obté una imatge. Per convertir aquella imatge a text i poder-hi fer cerques, exportar-lo, editar-lo o escalar-lo, cal passar un programa de reconeixement òptic de caràcters (OCR). Depenent de diversos factors -qualitat de l’original, suport, tipografia- el reconeixement és més o menys precís i els errors habituals, la qual cosa fa el procés lent i costós.

Text digitalitzat i text reconegut després de passar l'OCR

Text digitalitzat i text reconegut després de passar l'OCR

La particularitat de reCAPTCHA és que mostra dues paraules. La primera no té cap característica especial, però la segona ha estat digitalitzada prèviament d’un llibre o diari antic i l’OCR no l’ha reconegut. Si l’usuari reprodueix correctament la primera imatge, el sistema assumeix que també ho ha fet correctament amb la segona, de manera que la feina que l’OCR no ha estat capaç de fer, l’ha fet l’usuari gratuïtament. Segons reCAPTCHA es resolen al dia uns 200 milions de CAPTCHA arreu del món. Amb la col·laboració sovint inconscient de milions d’usuaris s’hauria pogut arribar a un nivell d’exactitud superior al 99,5%.

Tenint en compte que un dels projectes estrella de Google és justament Google Books, entenem de seguida l’interès per adquirir la companyia. L’endemà d’anunciar la compra de reCAPTCHA anunciaven un acord amb On Demand Books que permetrà imprimir a demanda qualsevol dels dos milions de llibres de domini públic prèviament digitalitzats, des de qualsevol llibreria o institució que hagi adquirit la Espresso Book Machine.

PS. El Turing a què fa referència l’acrònim CAPTCHA és Alan Turing, de qui ja hem parlat abans, i concretament al Test de Turing però a la inversa.

Font: Vida digital


Deixa un comentari

Dataliberation, o com recuperar les dades dels serveis de Google

Data Liberation FrontCada vegada és més freqüent el debat entre defensors i detractors de Google a causa d’una política expansiva que sembla imparable. Molts usuaris patim la contradicció entre gaudir d’unes aplicacions innovadores, que ens han facilitat enormement la vida i la sensació que cada vegada depenem més del gegant intangible, el ciberleviatan que creix dia a dia i que ha deixat de ser un motor de cerca per abastar-ho gairebé tot. El creixement de Google recorda altres intents monopolístics anteriors i els usuaris som reticents a la dependència però, sobretot, a la incertesa pel que fa al control de les nostres dades.

Si fem servir Gmail, Google Docs i Google Reader, per exemple, no només oferim un llaminer perfil de qui som i quins interessos tenim, sinó que a més allotgem el correu i els nostres documents als servidors de l’empresa nord-americana, amb la qual cosa en perdem el control. Malgrat la inquietud que pot provocar aquesta situació i les posicions absolutament contràries de gent més que documentada, és l’usuari qui ha de valorar els beneficis i els riscos i optar pel que més li convingui. Arribats a aquest punt i suposant que decidim abandonar algun dels serveis que utilitzàvem, es planteja la qüestió de la importació/exportació de dades, la migració d’un servei a un altre de la competència, els formats oberts i els estàndards.

En aquest sentit Google torna a anar unes quantes passes davant de la majoria i un equip d’enginyers de la companyia han creat el “Front d’Alliberament de Dades” amb l’objectiu de garantir que els usuaris puguin exportar les dades que ells mateixos han generat, de manera senzilla, sense costos afegits i usant formats oberts. Al web hi ha, ordenades per productes, les explicacions detallades per guiar-nos durant el procés d’exportació. Encara no hi són tots, però segons el propi equip dues terceres parts de la feina està feta i continuaran en la mateixa línia.

El plantejament de Google és fidelitzar l’usuari a través de la innovació i la qualitat dels seus productes, que s’hi quedi perquè realment ho vol enlloc d’atrapar-lo perquè no pugui marxar. Facilitar-nos la sortida és sens dubte una bona política que haurien de prendre com a exemple moltes altres companyies, però en el nostre cas fa que la contradicció a què al·ludíem al principi encara s’agreugi.

Font: El blog de Enrique Dans | Error500


Deixa un comentari

El tricicle de Google Street View arriba més enllà que el cotxe

Google Trike

Ja fa mesos que els cotxes de Google Street View circulen per les ciutats d’arreu del món fotografiant els carrers per donar suport a Google Maps. Per superar els obstacles físics i poder captar imatges també d’aquells emplaçaments per on no pot circular un cotxe, Google ha posat a circular el Google Trike, que recorrerà zones peatonals i turístiques fent fotografies per completar els mapes a peu de carrer.

Podeu veure un exemple del funcionament de Google Maps a partir d’aquesta fotografia de l’edifici històric de la UB.

Més informació: Google Street Views Takes to a Tricycle (PC World)

Font: google.dirson.com


Deixa un comentari

BlindSearch o quin navegador afina més?

Motors de cerca

Ja fa uns anys que Google és de llarg el navegador més usat, però no és l’únic. Microsoft està intentant recuperar les posicions perdudes amb Bing i Yahoo! es resisteix a desaparèixer. Segurament si preguntéssim als internautes la majoria dirien que Google és el millor, però això només seria una opinió.

BlindSearch ens proposa que fem l’experiment a ulls clucs. Només cal fer una cerca i ens mostra tres columnes de resultats, una per a cada motor, però sense dir-nos quin és quin. Un cop analitzats els resultats podem escollir el que més ens convenci i llavors sí, ens desvetlla quin cercador hem triat.

Hem estat fent proves. Amb un total de 10 cerques hem triat els resultats més ajustats al que demanàvem i la conclusió és contundent:

ResultatsPer descomptat aquests resultats són només una prova sense cap pretensió científica, al contrari, però sembla que es confirma la preeminència de Google també en la qualitat de la cerca.

Sigui com sigui que cadascú faci les seves consultes i es decideixi pel que més li convingui.

Font: L’home dibuixat