Blog de la Biblioteca de Matemàtiques i Informàtica

Google i reCAPTCHA: on no arriba l’OCR arriba l’usuari

Deixa un comentari

reCAPTCHAGoogle ha tornat a sorprendre mig món amb un moviment tan inesperat com hàbil. El 16 de setembre anunciaven oficialment la compra de reCAPTCHA, un servei de CAPTCHA molt popular, amb la característica afegida que ajuda a digitalitzar llibres i diaris antics.

Un CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart) és un sistema d’autenticació que intenta determinar si l’usuari que vol accedir-hi és un ésser humà o una màquina, mostrant paraules o seqüències de caràcters una mica distorsionades que l’usuari ha de reproduir en una caixa de text. L’objectiu és evitar que els robots es puguin registrar a determinats serveis -per exemple, obrir un compte de correu electrònic per enviar correu brossa- o participar a enquestes.

Quan es digitalitza un text imprès s’obté una imatge. Per convertir aquella imatge a text i poder-hi fer cerques, exportar-lo, editar-lo o escalar-lo, cal passar un programa de reconeixement òptic de caràcters (OCR). Depenent de diversos factors -qualitat de l’original, suport, tipografia- el reconeixement és més o menys precís i els errors habituals, la qual cosa fa el procés lent i costós.

Text digitalitzat i text reconegut després de passar l'OCR

Text digitalitzat i text reconegut després de passar l'OCR

La particularitat de reCAPTCHA és que mostra dues paraules. La primera no té cap característica especial, però la segona ha estat digitalitzada prèviament d’un llibre o diari antic i l’OCR no l’ha reconegut. Si l’usuari reprodueix correctament la primera imatge, el sistema assumeix que també ho ha fet correctament amb la segona, de manera que la feina que l’OCR no ha estat capaç de fer, l’ha fet l’usuari gratuïtament. Segons reCAPTCHA es resolen al dia uns 200 milions de CAPTCHA arreu del món. Amb la col·laboració sovint inconscient de milions d’usuaris s’hauria pogut arribar a un nivell d’exactitud superior al 99,5%.

Tenint en compte que un dels projectes estrella de Google és justament Google Books, entenem de seguida l’interès per adquirir la companyia. L’endemà d’anunciar la compra de reCAPTCHA anunciaven un acord amb On Demand Books que permetrà imprimir a demanda qualsevol dels dos milions de llibres de domini públic prèviament digitalitzats, des de qualsevol llibreria o institució que hagi adquirit la Espresso Book Machine.

PS. El Turing a què fa referència l’acrònim CAPTCHA és Alan Turing, de qui ja hem parlat abans, i concretament al Test de Turing però a la inversa.

Font: Vida digital

Escriu un comentari

Fill in your details below or click an icon to log in:

WordPress.com Logo

Esteu comentant fent servir el compte WordPress.com. Log Out /  Canvia )

Google photo

Esteu comentant fent servir el compte Google. Log Out /  Canvia )

Twitter picture

Esteu comentant fent servir el compte Twitter. Log Out /  Canvia )

Facebook photo

Esteu comentant fent servir el compte Facebook. Log Out /  Canvia )

S'està connectant a %s