如何在王珞丹裡面找出白百合?如何在春哥叢中發現姚明?也許你曾被12306那些神奇的驗證碼所折磨,也許你曾看著那些被折磨的傢伙而心中竊喜。無論怎樣的搞怪和奇葩,它們存在的根本目的其實是保護多數人的利益,維護一個正常的網路環境。
根據海外網報導,論壇上留言,社交網站裡註冊帳號,或者直接在網上買一張火車票……驗證碼隨處可見,在一定程度上阻擋了惡意軟體的肆虐。那麼,最初的驗證碼又是什麼樣子呢?
CAPTCHA
早在2000年,卡內基梅隆大學的Luis von Ahn發明瞭一種工具,以抵制網路上的不良軟體程序。假如你要在線購買車票,那麼你需要過目一組扭曲的字母,並輸入正確內容。這樣,系統可以將你判定為人類,而非機器程序。這就是所謂的CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart)。
然而,隨著惡意軟體的進步,驗證碼也跟著提升了難度,這使人們在辨識圖案這件事上要花費更多的精力。偶爾,也會出現些令人尷尬的情形。據說Yahoo曾收到一條求救資訊,詢問系統出現了『W A I T』字樣,可是他等了20分鐘卻沒有任何反應。
如果說這是一場介於網站和惡意程序/用戶之間的競爭,那麼最大的受害者是普通用戶。據Google統計,每天,地球人至少要填寫2億個驗證碼。平均來講,人們搞定一個驗證碼需要10秒的時間。往往我們還會因為看不清楚而不得不換一個新的來輸入。按照這些資料計算,人類每天在驗證碼上就浪費了50多萬個小時。這實在是一件令人沮喪的事。
兩個驗證碼
這樣大數量級的時間浪費問題再一次激發了Luis von Ahn,他開始思考,是否有什麼方法可以把這些碎片時間利用起來,哪怕僅僅是那短暫的10秒。面對如此奇妙的設想,他居然找到了答案。
如果你曾經填寫過類似下面形式的驗證碼,那麼恭喜你,儘管你可能並不知情,但實際上你在做著一件很有意義的事情——為舊書電子化。
解決這一問題的傳統做法是直接掃描書頁,然後由電腦來辨認圖片中的文字。這就是所謂的光學字元識別(OCR)。然而這一技術並沒有我們以為的那樣理想,對於一本50年前的舊書,電腦可正確辨識的文字甚至達不到30%。我們所看到的那些扭曲怪詞正是出自這樣的舊書。當然,這些辭彙變得扭曲只是為了抵抗那些惡意程序。
問題來了,如何判斷人們輸入的詞正確與否呢?上圖中出現的雙詞形式正是Von Ahn給出的解決方法。對於從舊書中提取出來的陌生詞語,電腦並不知道答案,所以也無法判斷電腦前的真人輸入的是否正確。但是系統可以多給出一個詞,這個詞系統是知道其正確文字內容的。輸入驗證碼的用戶並不知道哪個是哪個的,只是順其自然地把兩個詞都填上。
如果電腦知道正確答案的那個詞我們輸入對了,那麼系統會判定用戶是真人,從而推斷另一個輸入的詞也是正確的。當然,這樣一次判斷是不夠的。透過重複這一過程,如果還有(比如) 10個真人都輸入了相同的內容,那麼系統才會認為這個未知詞語真正得到了數字化。
這就是所謂的reCAPTCHA。在國外,Ticketmaster,Facebook,Twitter等很多站點都曾使用過這種技術。據統計,透過這種方法每天可以數字化的辭彙可達1億個。也就是說,每年會有250萬本書被數字化,而這一壯舉只不過是基於我們最簡單不過的填寫驗證碼完成的。儘管reCAPTCHA較以往的驗證碼難度更大,但資料表明,人們輸入的正確率高達92%。
然而這還並非最了不起的數字。要知道,很多偉大的工程都需要耗費巨大人力。很巧的是,建造埃及金字塔,修建巴拿馬運河,或者把一個人送上月球,這些事都牽扯了大約10萬人。這也不難理解,在互聯網出現以前,調度和照顧10萬人以上是很困難的事。如今,在將人類文化與知識數字化這一工作上,透過雙詞驗證碼做出過貢獻的個人超過了7.5億,這已經超出了世界人口的十分之一。試想,10萬人可以把一名太空人送上月球,那麼1億人能做出什麼?7.5億人又能實現什麼?
多鄰國(Duolingo)
Von Ahn並沒有停下腳步,順著這條思路,他又將故事推向了新的高度。也許你聽說過多鄰國(Duolingo),沒錯,正是驗證碼的發明者開發了這個語言學習平台。上億人在學習外語的同時,也在幫助翻譯資料。
我們知道,網路中的內容大部分為英文,而其他語言儘管比例相對略低,但體量依然巨大。Von Ahn想做的事是將網路中的大部分內容翻譯成各種主流語言。這件事目前仍無法依賴電腦來完成,原因同OCR一樣。當然,也有專業語言機構可以提供此種服務,但問題是費用極其昂貴。我們選取維基百科為例,其西班牙語版本內容僅為英語版內容的20%,如果把另外80%全部翻譯為西班牙語,那麼這至少需要5000萬美元。而Von Ahn則想讓上億人在不經意間攜手完成這一壯舉。
要實現這一點,至少需要克服兩個困難。一是需要擁有雙語能力的人;二是需要這些人有足夠的動機去做翻譯之類的事。哪一條看起來都很棘手,我們甚至不知道世界上有沒有1億人具備雙語能力,更別說引導他們去做翻譯工作。
然而有一件事正好可以一箭雙雕,那就是語言教育。如今,世界上有超過12億人在學習一門外語。單在美國,花上500美元購買語言軟體的人就超過500萬。Von Ahn卻反其道而行之,開發了Duolingo這款免費語言學習系統。
其基本原理在於人們免費學習語言的同時,也在翻譯內容。無論初級還是高級用戶,系統會分配相當難度的語句讓你翻譯,透過比對其他用戶的翻譯結果,你不斷地學習了這些內容。也就是說,人們都是在邊做邊學。令人驚訝的是,這一理念在實際應用中極為有效。
有趣的是,幾個初級水準的用戶合起來的效果與一名專業翻譯人員的貢獻相當。人們在學習的同時,也在創造價值。還以維基百科西班牙版為例,如果將那80%英文內容全部譯為西班牙語,在擁有10萬個活躍用戶的情況下只需5周時間;如果有100萬個活躍用戶,將只要80個小時。記住,這可是個價值5000萬美元的專案。
當然,多鄰國總是要盈利的。Von Ahn曾親自在網上表示,其盈利模式有兩點:一是付費翻譯。CNN和Buzzfeed這樣的機構會將待譯的英文內容交給將他們,多鄰國系統將這些內容發到正在學習英文的人手中,使其將新聞翻譯成各自的母語。CNN自然會為這些地道的文章買單;另外一點就是App的語言測試服務。大家知道,託福或者雅思考試收費很高,而你大概只需要一兩百塊錢就可以參加多鄰國提供的語言水準測試。這一點也很有競爭力。
儘管如此,我們不要忘記,這一系統的最大意義在於免費面向全人類。能夠花500美元買軟體的人也許只占5%,世界上還有95%的人無法承受這一負擔,卻同樣擁有學習的渴望。在創業過程中,這樣的商業模式與驅動模式非常值得我們借鑑。


我是廣告 請繼續往下閱讀
CAPTCHA
早在2000年,卡內基梅隆大學的Luis von Ahn發明瞭一種工具,以抵制網路上的不良軟體程序。假如你要在線購買車票,那麼你需要過目一組扭曲的字母,並輸入正確內容。這樣,系統可以將你判定為人類,而非機器程序。這就是所謂的CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart)。
然而,隨著惡意軟體的進步,驗證碼也跟著提升了難度,這使人們在辨識圖案這件事上要花費更多的精力。偶爾,也會出現些令人尷尬的情形。據說Yahoo曾收到一條求救資訊,詢問系統出現了『W A I T』字樣,可是他等了20分鐘卻沒有任何反應。
如果說這是一場介於網站和惡意程序/用戶之間的競爭,那麼最大的受害者是普通用戶。據Google統計,每天,地球人至少要填寫2億個驗證碼。平均來講,人們搞定一個驗證碼需要10秒的時間。往往我們還會因為看不清楚而不得不換一個新的來輸入。按照這些資料計算,人類每天在驗證碼上就浪費了50多萬個小時。這實在是一件令人沮喪的事。
兩個驗證碼
這樣大數量級的時間浪費問題再一次激發了Luis von Ahn,他開始思考,是否有什麼方法可以把這些碎片時間利用起來,哪怕僅僅是那短暫的10秒。面對如此奇妙的設想,他居然找到了答案。
如果你曾經填寫過類似下面形式的驗證碼,那麼恭喜你,儘管你可能並不知情,但實際上你在做著一件很有意義的事情——為舊書電子化。
解決這一問題的傳統做法是直接掃描書頁,然後由電腦來辨認圖片中的文字。這就是所謂的光學字元識別(OCR)。然而這一技術並沒有我們以為的那樣理想,對於一本50年前的舊書,電腦可正確辨識的文字甚至達不到30%。我們所看到的那些扭曲怪詞正是出自這樣的舊書。當然,這些辭彙變得扭曲只是為了抵抗那些惡意程序。
問題來了,如何判斷人們輸入的詞正確與否呢?上圖中出現的雙詞形式正是Von Ahn給出的解決方法。對於從舊書中提取出來的陌生詞語,電腦並不知道答案,所以也無法判斷電腦前的真人輸入的是否正確。但是系統可以多給出一個詞,這個詞系統是知道其正確文字內容的。輸入驗證碼的用戶並不知道哪個是哪個的,只是順其自然地把兩個詞都填上。
如果電腦知道正確答案的那個詞我們輸入對了,那麼系統會判定用戶是真人,從而推斷另一個輸入的詞也是正確的。當然,這樣一次判斷是不夠的。透過重複這一過程,如果還有(比如) 10個真人都輸入了相同的內容,那麼系統才會認為這個未知詞語真正得到了數字化。
這就是所謂的reCAPTCHA。在國外,Ticketmaster,Facebook,Twitter等很多站點都曾使用過這種技術。據統計,透過這種方法每天可以數字化的辭彙可達1億個。也就是說,每年會有250萬本書被數字化,而這一壯舉只不過是基於我們最簡單不過的填寫驗證碼完成的。儘管reCAPTCHA較以往的驗證碼難度更大,但資料表明,人們輸入的正確率高達92%。
然而這還並非最了不起的數字。要知道,很多偉大的工程都需要耗費巨大人力。很巧的是,建造埃及金字塔,修建巴拿馬運河,或者把一個人送上月球,這些事都牽扯了大約10萬人。這也不難理解,在互聯網出現以前,調度和照顧10萬人以上是很困難的事。如今,在將人類文化與知識數字化這一工作上,透過雙詞驗證碼做出過貢獻的個人超過了7.5億,這已經超出了世界人口的十分之一。試想,10萬人可以把一名太空人送上月球,那麼1億人能做出什麼?7.5億人又能實現什麼?
多鄰國(Duolingo)
Von Ahn並沒有停下腳步,順著這條思路,他又將故事推向了新的高度。也許你聽說過多鄰國(Duolingo),沒錯,正是驗證碼的發明者開發了這個語言學習平台。上億人在學習外語的同時,也在幫助翻譯資料。
我們知道,網路中的內容大部分為英文,而其他語言儘管比例相對略低,但體量依然巨大。Von Ahn想做的事是將網路中的大部分內容翻譯成各種主流語言。這件事目前仍無法依賴電腦來完成,原因同OCR一樣。當然,也有專業語言機構可以提供此種服務,但問題是費用極其昂貴。我們選取維基百科為例,其西班牙語版本內容僅為英語版內容的20%,如果把另外80%全部翻譯為西班牙語,那麼這至少需要5000萬美元。而Von Ahn則想讓上億人在不經意間攜手完成這一壯舉。
要實現這一點,至少需要克服兩個困難。一是需要擁有雙語能力的人;二是需要這些人有足夠的動機去做翻譯之類的事。哪一條看起來都很棘手,我們甚至不知道世界上有沒有1億人具備雙語能力,更別說引導他們去做翻譯工作。
然而有一件事正好可以一箭雙雕,那就是語言教育。如今,世界上有超過12億人在學習一門外語。單在美國,花上500美元購買語言軟體的人就超過500萬。Von Ahn卻反其道而行之,開發了Duolingo這款免費語言學習系統。
其基本原理在於人們免費學習語言的同時,也在翻譯內容。無論初級還是高級用戶,系統會分配相當難度的語句讓你翻譯,透過比對其他用戶的翻譯結果,你不斷地學習了這些內容。也就是說,人們都是在邊做邊學。令人驚訝的是,這一理念在實際應用中極為有效。
有趣的是,幾個初級水準的用戶合起來的效果與一名專業翻譯人員的貢獻相當。人們在學習的同時,也在創造價值。還以維基百科西班牙版為例,如果將那80%英文內容全部譯為西班牙語,在擁有10萬個活躍用戶的情況下只需5周時間;如果有100萬個活躍用戶,將只要80個小時。記住,這可是個價值5000萬美元的專案。
當然,多鄰國總是要盈利的。Von Ahn曾親自在網上表示,其盈利模式有兩點:一是付費翻譯。CNN和Buzzfeed這樣的機構會將待譯的英文內容交給將他們,多鄰國系統將這些內容發到正在學習英文的人手中,使其將新聞翻譯成各自的母語。CNN自然會為這些地道的文章買單;另外一點就是App的語言測試服務。大家知道,託福或者雅思考試收費很高,而你大概只需要一兩百塊錢就可以參加多鄰國提供的語言水準測試。這一點也很有競爭力。
儘管如此,我們不要忘記,這一系統的最大意義在於免費面向全人類。能夠花500美元買軟體的人也許只占5%,世界上還有95%的人無法承受這一負擔,卻同樣擁有學習的渴望。在創業過程中,這樣的商業模式與驅動模式非常值得我們借鑑。

