ReCaptcha - 1 ý tưởng hay !

**VnVision** · 25-11-2007 17:01

Mới gặp một ý tưởng này khá hay & mới mẻ (ít nhất với tớ). Tuy nhiên vì ko có thời gian dịch nên cứ post lên đây. Bác nào rảnh thì dịch cho mọi người nhé

http://recaptcha.net/learnmore.html

A CAPTCHA is a program that can tell whether its user is a human or a computer. You've probably seen them — colorful images with distorted text at the bottom of Web registration forms. CAPTCHAs are used by many websites to prevent abuse from "bots," or automated programs usually written to generate spam. No computer program can read distorted text as well as humans can, so bots cannot navigate sites protected by CAPTCHAs.

About 60 million CAPTCHAs are solved by humans around the world every day. In each case, roughly ten seconds of human time are being spent. Individually, that's not a lot of time, but in aggregate these little puzzles consume more than 150,000 hours of work each day. What if we could make positive use of this human effort? reCAPTCHA does exactly that by channeling the effort spent solving CAPTCHAs online into "reading" books.

To archive human knowledge and to make information more accessible to the world, multiple projects are currently digitizing physical books that were written before the computer age. The book pages are being photographically scanned, and then, to make them searchable, transformed into text using "Optical Character Recognition" (OCR). The transformation into text is useful because scanning a book produces images, which are difficult to store on small devices, expensive to download, and cannot be searched. The problem is that OCR is not perfect.

reCAPTCHA improves the process of digitizing books by sending words that cannot be read by computers to the Web in the form of CAPTCHAs for humans to decipher. More specifically, each word that cannot be read correctly by OCR is placed on an image and used as a CAPTCHA. This is possible because most OCR programs alert you when a word cannot be read correctly.

But if a computer can't read such a CAPTCHA, how does the system know the correct answer to the puzzle? Here's how: Each new word that cannot be read correctly by OCR is given to a user in conjunction with another word for which the answer is already known. The user is then asked to read both words. If they solve the one for which the answer is known, the system assumes their answer is correct for the new one. The system then gives the new image to a number of other people to determine, with higher confidence, whether the original answer was correct.

Currently, we are helping to digitize books from the Internet Archive.
How can I help?

In order to achieve our goal of digitizing books, we need your help.

If you run a website that suffers from problems with spam, you can put reCAPTCHA on your site. For some applications (such as Wordpress and Mediawiki), we have plugins that allow you to use reCAPTCHA without writing any code. We also have easy-to-use code for common web programming languages such as PHP.

**vansulich** · 25-11-2007 18:02

cái này có phải là chống spam như kiểu mã đăng ký forum VBB ko a`?
Nếu vậy thì nó đã được áp dụng trên thực tế rồi đấy nhỉ

**VnVision** · 25-11-2007 18:26

Được gửi bởi vansulich

cái này có phải là chống spam như kiểu mã đăng ký forum VBB ko a`?
Nếu vậy thì nó đã được áp dụng trên thực tế rồi đấy nhỉ

Theo thống kê mà bài viết đưa ra, mỗi ngày có khoảng 60 triệu đoạn mã Captcha đang được người dùng nhập. Trung bình mỗi người mất khoảng 10 giây để hoàn thành mã Captcha. Đây là một quãng thời gian ko đáng kể đối với một cá nhân. Tuy nhiên, nếu tính tổng thời gian đó, mỗi ngày có khoảng hơn 150,000 giờ đồng hồ được con người sử dụng chỉ để nhập mã Captcha. Nếu ta có thể tận dụng được khoảng thời gian này vào một việc có ích thì sẽ thật là ..có ích

Vì thế dịch vụ này đã thực hiện ý tưởng sẽ sử dụng các nội dung trong các cuốn sách mà các chương trình nhận dạng văn bản tự động không thể đọc được để làm mã Captcha. Các cuốn sách này đang cần được chuyển thành ebook.. Các đoạn captcha mà người sử dụng nhập vào này sẽ được sử dụng cho việc chuyển nội dung các cuốn sách kia thành dạng nội dung số.. và thế là công sức bỏ ra để gõ captcha đã trở thành có ích.

Cơ bản là thế, nhưng tất nhiên việc thực hiện ko chỉ đơn giản vậy, ai quan tâm có thể vào recaptcha.net để tìm hiểu thêm. Ý tưởng cơ bản của dịch vụ này rất sáng tạo

**VnVision** · 25-11-2007 19:29

Được gửi bởi lkn2

Ý tưởng rất có tính cộng đồng. Tuy nhiên thời gian để scan sách ra hình ảnh, rồi còn phải canh vị trí, nhận dạng câu nào đã được đánh thì cũng tốn khá nhiều thời gian.

Mà sách tiếng Anh thì dùng mấy chương trình nhận dạng chữ là xong.

Bác đọc lại đoạn quote hoặc chỉ cần đọc những chỗ bôi đậm thôi nhé:

A CAPTCHA is a program that can tell whether its user is a human or a computer. You've probably seen them — colorful images with distorted text at the bottom of Web registration forms. CAPTCHAs are used by many websites to prevent abuse from "bots," or automated programs usually written to generate spam. No computer program can read distorted text as well as humans can, so bots cannot navigate sites protected by CAPTCHAs.

About 60 million CAPTCHAs are solved by humans around the world every day. In each case, roughly ten seconds of human time are being spent. Individually, that's not a lot of time, but in aggregate these little puzzles consume more than 150,000 hours of work each day. What if we could make positive use of this human effort? reCAPTCHA does exactly that by channeling the effort spent solving CAPTCHAs online into "reading" books.

To archive human knowledge and to make information more accessible to the world, multiple projects are currently digitizing physical books that were written before the computer age. The book pages are being photographically scanned, and then, to make them searchable, transformed into text using "Optical Character Recognition" (OCR). The transformation into text is useful because scanning a book produces images, which are difficult to store on small devices, expensive to download, and cannot be searched. The problem is that OCR is not perfect.

reCAPTCHA improves the process of digitizing books by sending words that cannot be read by computers to the Web in the form of CAPTCHAs for humans to decipher. More specifically, each word that cannot be read correctly by OCR is placed on an image and used as a CAPTCHA. This is possible because most OCR programs alert you when a word cannot be read correctly.

But if a computer can't read such a CAPTCHA, how does the system know the correct answer to the puzzle? Here's how: Each new word that cannot be read correctly by OCR is given to a user in conjunction with another word for which the answer is already known. The user is then asked to read both words. If they solve the one for which the answer is known, the system assumes their answer is correct for the new one. The system then gives the new image to a number of other people to determine, with higher confidence, whether the original answer was correct.

Currently, we are helping to digitize books from the Internet Archive.
How can I help?

In order to achieve our goal of digitizing books, we need your help.

If you run a website that suffers from problems with spam, you can put reCAPTCHA on your site. For some applications (such as Wordpress and Mediawiki), we have plugins that allow you to use reCAPTCHA without writing any code. We also have easy-to-use code for common web programming languages such as PHP.

**itv** · 25-11-2007 20:17

nếu máy tính ko nhận dạng được thì làm sao biết người nhập dãy ký tự là chính xác hay ko ? nếu làm được điều này quả là thông minh ^^

**VnVision** · 25-11-2007 20:55

@itv & lkn2: Về vấn đề kiểm tra Captcha: Tất nhiên vấn đề cơ bản này phải được người sáng tạo ra ý tưởng đặt ra ngay từ khi nảy ra ý tưởng ban đầu rồi (tớ nghĩ là bọn Tâyxờ nó ko kém thông minh hơn mình nhiều đâu

). Bạn đọc đoạn sau trong bài quote nhé:

But if a computer can't read such a CAPTCHA, how does the system know the correct answer to the puzzle? Here's how: Each new word that cannot be read correctly by OCR is given to a user in conjunction with another word for which the answer is already known. The user is then asked to read both words. If they solve the one for which the answer is known, the system assumes their answer is correct for the new one. The system then gives the new image to a number of other people to determine, with higher confidence, whether the original answer was correct.

@lkn2: Mặc dù bác tìm hiểu nhiều về các công nghệ nhưng vẫn chưa thực sự hiểu đc sức mạnh của kỹ thuật công nghệ khi giải quyết những vấn đề có tầm vĩ mô. Mặc dù OCR nhận dạng một trang sách có thể không sai nhiều, và thời gian ngồi sửa những chỗ sai đó trong một trang là không lâu, nhưng hãy thử tưởng tượng bạn phải ngồi sửa hàng trăm nghìn trang sách như vậy, sẽ là bao nhiêu công sức? Và hãy nhìn hình minh họa ở trên, rõ ràng với những cuốn sách cũ, chữ nhòe, thì OCR nhận dạng còn rất kém.
Việc scan các cuốn sách thì tất nhiên là phải mất thời gian rồi, vì có dùng OCR thì vẫn phải scan trước như thường. Còn việc lấy ra những phần mà OCR ko nhận ra thì cũng được thực hiện tự động: "More specifically, each word that cannot be read correctly by OCR is placed on an image and used as a CAPTCHA. This is possible because most OCR programs alert you when a word cannot be read correctly." Việc cắt những phần đó & đặt vào những ảnh Captcha cũng sẽ được thực hiện tự động hết.

Đối với những vấn đề nhỏ, đơn lẻ, có thể công nghệ kỹ thuật ko mang lại kết quả khả quan hơn nhiều so với thủ công - đôi khi việc áp dụng những kỹ thuật hiện đại, phức tạp để xử lý một vấn đề nhỏ còn làm giảm năng suất xử lý công việc. Nhưng hãy nhìn thấy sức mạnh tự động hóa mà công nghệ đang mang lại cho con người khi giải quyết những vấn đề ở tầm vĩ mô!

Ví dụ một website sử dụng dịch vụ của recaptcha.net: đại gia mạng xã hội Facebook - kẻ đang lăm le vượt qua Myspace

**vaidep** · 25-11-2007 21:00

ý tưởng này hay đấy nhưng ko bít hiệu quả thực sự thế nào

**jcisio** · 26-11-2007 03:22

Được gửi bởi lkn2

Thời gian để ngồi scan, sau đó phân đoạn cũng gần như ngang bằng với thời gian ngồi nhìn cuốn sách và đánh vào máy tính. Tuy có tận dung thời gian thừa của cộng đồng, nhưng lại tốn thêm thời gian kia. Sao không nhận dạng tự động, sau đó ngồi dò lại, vì nhận dạng từ động cũng không sai nhiều lắm

Thông thường, các CAPTCHA đều phải có so sánh dữ liệu xem có trùng hay không. Ở hình minh hoạ, nếu tôi nhập như ORC nhận được, vậy ai sẽ là người kiểm tra cái tôi nhập có đúng hay không? Vì nếu vậy thì đoạn đó phải được nhận dạng trước, chứ không thì làm sao đúng với tác dụng của CAPTCHA được. Theo như cách đang làm thì lại tốn thêm thời gian nữa để nhập CAPTCHA.

Nếu chịu khó đọc bài quote ở recaptcha.net 1 lần thì chắc sẽ không có câu hỏi thế này.

Ý tưởng hay, mới, nhưng đem áp dụng thì không biết đến đâu. 150 nghìn giờ/ngày là thời gian nhập captcha (mà 10s/captcha hình như hơi lâu, khả năng nhận dạng từ chắc phải nhanh hơn 3-4 lần). Có một số từ máy tính đọc không được người đọc được, nhưng cũng có rất nhiều từ người cũng chào thua (nếu không có ngữ cảnh). Nhất là 1 số từ có thể nhận dạng theo 2-3 kiểu đều đúng, dễ dẫn đến sai hàng loạt.

recaptcha.net chưa có thống kê nào có biết có bao nhiêu cái recaptcha đã hiển thị, và nhờ đó có bao nhiêu từ đã được (xác nhận là) nhận dạng đúng...

Tuy nhiên ý tưởng không tồi. Cái recaptcha thấy cái viet bliki đang dùng.

**Markov** · 26-11-2007 07:59

Hic, anh em bàn bạc, mình đọc thấy rối cả lên.
Hệ thống này kiểu như anti captcha mình làm cách đây 2 năm, chỉ có dân chuyên spam là khoái thôi. Nguyên lý là khi một đoạn ký tự bảo vệ hiện lên thì phần mềm sẽ chụp ảnh khu vực này và dùng 1 OCR engine để chuyển từ image sang text rồi tự động nhập lại vào ô xác nhận
Vấn đề là captcha ngày càng tinh vi, các ký tự uốn lượn khôn lường, background thì tung hỏa mù làm nhiễu, cuối cùng chỉ có trí thông minh con người mới đoán ra được thôi.
recaptcha hay anticaptcha chỉ dùng được với những loại captcha đơn giản đến trung cấp thôi

**naphuonghic** · 26-11-2007 09:15

Wow, ý tưởng này hay đấy, ngay cả khi có bác nào đó spam, thì cũng trở thành có ích. Nhưng cũng khó khả thi lắm, vì phải biên soạn ra hết thì mới có thể detect được là nó gõ đúng hay không chứ

Chủ đề: ReCaptcha - 1 ý tưởng hay !

Hỗ trợ

Rate This Thread

ReCaptcha - 1 ý tưởng hay !

Bookmarks

Bookmarks

Quy định