Today is RECAPTCHA Day
Jei ne FaceBook’o API atidarymas visoms “trečiosioms šalims”, tai reCaPTCHA tikrai būtų galima pavadinti dienos naujiena internete. Kas do per biesas čia? Čia ne tiesiog dar vienas būdas kovoti su mūsų mylimuoju SPAM, kaip kažkodėl apibūdino jį Vaidas Žilionis, čia naudingas vartotojų išnaudojimo pavyzdys :D Iki šiol, captcha pagrindinė užduotis buvo tiesiog raidžių paveiksliuke pagalba sumažinti robotų komentavimo galimybę. Tuo tarpu kūrėjai pažiūrėjo į šitą reikalą kitu kampu, ir iš to padarė projektą, kuris ne tik saugos nuo spam, bet ir padės paversti knygas į skaitmeninį formatą. Vos ne SETI@HOME – tu kaip ir nieko nedarai, tik nori pakomentuoti, o čia, žiūrėk, dar ir gerą darbą padarai.
Kaip visa tai veikia?
Sistema ganėtinai paprasta. Vietoj įprasto vieno žodžio teks paveiksliuke įžiūrėti du. Bet užtai būsime tikri, kad ten žodžiai, o ne šiaip raidžių ar skaičių kratinys. Paveiksliukas bus gaunamas iš kūrėjų serverio, kur jo sudarymo principas bus toks:
pirmasis žodis – žinomas serveriui, ir jo paskirtis realiai tokia pati, kaip ir paprastojo captcha.
antrasis žodis – paimtas iš knygos, kurio OCR softas nepajėgia pats perkąsti. Kitaip sakant, reikia žmogaus įsikišimo. Iki šiol turbūt arba sėdėdavo žmogelis prie visų tokių kritiškų atvejų, ir taisydavo :) Dabar komentuotojai ir visokie kitokie vartotojai padės spręsti šią problemą.
Taigi, turim paveiksliuką su dviem žodžiais, dabar belieka vartotojui juos surinkti. Ar įvesta teisingai, patikrinama pagal pirmąjį žodį, ir, manau, kažkiek pagal antrąjį, nes kitaip labai lengvai galima apgaudinėti sistemą. Jei viskas gerai – tu gauni savo komentarą, o knyga – dar vieną iššifruotą žodį. Gėris, ne kitaip. Be to, tai dar sumažina robotų priėjimo galimybę, nes dabar kartais įmanoma captcha įmanoma iššifruoti su tuo pačiu OCR, o čia bus saugiklis – antrasis žodis, kurio OCR kaip ir nesuvokia. Tikimybė, kad spameriai turės geresnį OCR softą – nelabai tikėtina.
So…
Taigi, jei kas jau naudojat CAPTCHA, manau galit labai rimtai apsvarstyti šią galimybę. Vartotojui sunkiau būti neturėtų, o naudos bus gerokai daugiau. Aš bent kol kas nematau prasmės čia naudoti (re)captcha, bet jei kada prireiks tikrai taip padarysiu.

Iš tavo posto bent galima suprast kas tas reCaptcha :)
Kazkaip turbut pergreitai apie tai postinau neisigilnines per daug i jo antrinius uzdavinius.
O jei vartotojai įsigudrins antrą žodį vesti bet kokį, nes pamatys, kad jis nesvarbus?
Gal galima šiuos žodžius sukeisti vietomis, bet vartotojai gi turėtų sugebėti atskirti, kuris žodis iš knygos, o kuris ne, huh?
šiaip, gal ir neturėtų galėti lengvai atskirti. O be to, OCR turbūt sugebės nuskaityti dalį žodžio raidžių, tai patikrinti iki tam tikro lygio galės. Pagaliau, žodį galima pripažinti tikru, tik kai kokie 10 vartotojų jį taip pat įveda. O šiaip tokiu atveju reikia tikėti, kad pasaulis yra geras, ir niekas nesukčiaus. Čia kaip su WP – žmonės sugebėjo sukurti nemokamą gerą enciklopediją, gal pavyks ir čia? :)
Vistiek turim 2 žodžius, padarytus ta pačia technologija. Paveiksliuke matome žodžius kuriuos OCR vienodai skaitys. Pirmas – galima taisyti pagal žodyną, o antro nelabai. Na jei nėra žodyne – padarom, kad netaisytų – kaip išocr’ins taip lai ir paliekam. Gal būt pasiseks atpažinti be klaidos? Išvada – technologija nelabai efektyvi. Nors su FR netestavau, bet manau efektyviau, kai reikalaujama iš žmogaus pamastyti ir atlikti kažkokius veiksmus, plius dar papildomi tikrinimai prieš (ro)botus.