Rabu, 07 Oktober 2009

reCAPTCHA : Sebuah kreatifitas memanfaatkan masalah



reCAPTCHA adalah sebuah contoh kreatifitas manusia dalam menyelesaikan suatu masalah.



Dalam dunia internet sekarang ini sudah lazim kita temukan bot (program yang diotomatisasi) untuk melakukan spam dan/atau menghabiskan sumber daya bandwidth suatu situs. Bot ini melakukan comment spam pada blog-blog, membuat beratus akun email pada penyedia email gratis, melakukan kecurangan pada polling online, dan beragam hal lain yang meresahkan. Untuk mencegahnya digunakanlah CAPTCHA.


CAPTCHA (for Completely Automated Turing Test To Tell Computers and Humans Apart) pertama dibangun pada tahun 2000 oleh Luis von Ahn, Manuel Blum, Nicholas Hopper dan John Langford dari Universitas Carnegie Mellon untuk digunakan oleh Yahoo. CAPTCHA bekerja dengan cara membuat tes yang bisa dijawab oleh manusia tetapi tidak bisa dilewati oleh komputer, contohnya dengan membuat gambar teks yang terditorsi. Manusia mampu membaca teks tersebut tetapi (saat ini) komputer belum bisa membacanya dengan tepat.


Sekitar 200 juta CAPTCHA setiap hari berhasil dijawab oleh manusia. Dengan asumsi 1 CAPTCHA membutuhkan 10 detik untuk menjawabnya, maka akumulasi semua waktu tersebut sama dengan sekitar 150 ribu jam kerja. Sebuah hal yang disayangkan bila waktu sebanyak itu terbuang percuma.


reCAPTCHA memanfaatkan usaha manusia membaca tulisan CAPTCHA untuk membaca buku.


Memanfaatkan CAPTCHA untuk membaca buku?



Untuk mengarsipkan pengetahuan manusia dan agar memudahkan informasi tersebut diakses dunia, sekarang ini banyak proyek yang dilakukan untuk mendigitalisasikan buku-buku yang ditulis sebelum jaman komputer. Halaman per halaman buku tersebut di scanning menjadi bentuk gambar dan menggunakan aplikasi OCR (Optical Character Recognition) di rubah menjadi bentuk text. Hal ini dilakukan karena bentuk text lebih kecil ukurannya sehingga lebih mudah disimpan dan di download dan bisa dicari.


Permasalahannya adalah OCR tidaklah sempurna. Lihat gambar dibawah:
reCAPTCHA meningkatkan proses digitasi buku-buku tersebut dengan mengirim kata-kata yang tidak bisa dibaca oleh komputer ke web dalam bentuk CAPTCHA agar bisa diterjemahkan oleh manusia.


Permasalahan yang muncul adalah bagaimana komputer bisa menyatakan user telah memasukkan kata yang benar padahal komputer sendiri tidak bisa membaca CAPTCHA tersebut?


Jawabannya adalah dengan menggunakan dua buah kata. Satu kata sudah diketahui kebenarannya sedangkan satu kata yang lain adalah kata yang ingin diterjemahkan. Bila user benar pada kata yang sudah diketahui, maka kata yang diterjemahkan diasumsikan benar. Sehingga user dianggap telah mengetikkan CAPTCHA yang benar. Kemudian kata yang diterjemahkan diajukan lagi kebeberapa user lain sehingga cukup keyakinan bahwa terjemahan user pertama tadi adalah benar.


Saat artikel ini ditulis, reCAPTCHA sedang menerjemahkan edisi koran New York Times.


Untuk anda yang tertarik mendapatkan fasilitas CAPTCHA gratis sekaligus membantu proyek reCAPTCHA silahkan menuju ke situs reCAPTCHA.


nb: Saya berharap ada yang mau membuat proyek semacam reCAPTCHA ini dalam mendigitasikan kitab-kitab ulama jaman dahulu agar bisa diwariskan ke anak cucu kita mendatang.


Tidak ada komentar:

Posting Komentar