耳熟能詳?shù)尿炞C碼隱藏哪些科學奧秘

來源：咸寧網(wǎng) 時間：2020-08-18 17:20

上過網(wǎng)沖過浪的“老司機”都知道網(wǎng)站驗證碼，現(xiàn)在幾乎每個網(wǎng)站和論壇都會有驗證碼的出現(xiàn)。

有人說，驗證碼保護了網(wǎng)站服務器和用戶的隱私安全;還有人說，驗證碼嚴重影響了用戶體驗，是在浪費時間。那驗證碼到底是好是壞?驗證的原理是什么?什么樣的驗證碼才最安全?

驗證碼的誕生:區(qū)分計算機和真正的人

急沖沖地購買火車票，輸入賬號密碼后跳出一幅九宮格要求點擊指定圖片驗證，好不容易玩完“大家來找茬”，一看火車票已被搶光，這樣的情形你是否經(jīng)常遇到?對，阻礙你的就是耳熟能詳?shù)尿炞C碼。驗證碼的存在似乎讓用戶體驗不佳，那它存在的意義是什么?

“現(xiàn)在很多網(wǎng)站的注冊和登錄都需要用到驗證碼，為了區(qū)分計算機和真正的人?！?南京大學信息科學博士、南京視網(wǎng)么信息科技有限公司創(chuàng)始人張帥告訴記者，驗證碼英文“ CAPTCHA”直譯就是“全自動區(qū)分計算機和人類的圖靈測試 ”，而圖靈測試是人工智能圈一個著名的實驗，實驗者詢問一臺機器和一個人類一些問題，如果實驗者無法分辨他倆的差別，那么這臺機器便通過圖靈測試。驗證碼就是這個圖靈測試的反向和變種，用來區(qū)分計算機和人類。

早在驗證碼出現(xiàn)之前，垃圾郵件滿天飛，有人通過注冊大量新郵件賬號發(fā)送垃圾推廣郵件。郵件公司封號刪除的速度甚至趕不上他們注冊的速度，很多人深受其害。直到有程序員發(fā)現(xiàn)計算機程序難以識別手寫的文本，而人類可以輕易看懂，于是程序員在注冊賬號時設置一道門檻——必須輸入“歪曲”的文本才能完成注冊，用來區(qū)別計算機和真人，從此驗證碼登上歷史的舞臺。

“有了圖形驗證碼，可以拒絕重放攻擊(破壞身份認證的正確性)，有效避免了暴力請求破解的威脅。在圖形(數(shù)字)驗證碼的基礎之上，慢慢演化出了滑塊驗證碼、圖像驗證碼、智能驗證碼等新的驗證形式?！?張帥說，除此以外還有短信驗證碼，可用于對安全性要求較高的應用，比如支付寶、登錄銀行客戶端等，可以一定程度上避免賬號密碼泄露、身份偽造等行為。

那電腦程序是如何判斷驗證碼輸入的背后是人類還是軟件?張帥介紹，隨著技術的發(fā)展，通過圖像識別文字和人工智能技術，機器也具備了識別和理解驗證碼的能力。常見的方式是通過在圖像驗證碼中加入噪點，來影響機器識別驗證碼圖片的真實信息;還通過頁面上的腳本運行來進一步輔助判斷，來識別該操作是人類行為還是機器行為。

新式驗證碼有貢獻:每年數(shù)字化230多萬本舊書有網(wǎng)友做過計算，全世界的網(wǎng)民一天共要輸入上億次驗證碼，粗略估計，人類每天輸入驗證碼的時間已經(jīng)超過了50萬小時，驗證碼的存在是不是浪費時間和資源?

對此，從事視覺圖像領域工作多年的系統(tǒng)架構師王之琳表示，“存在即合理，驗證碼并不是一無是處?！彼e例，很多公益組織將舊書籍掃描成電子版時經(jīng)常出現(xiàn)無法識別的現(xiàn)象。書籍的內容大部分是文本，驗證碼也是文本，把掃描版的書籍文本對接到驗證碼上，讓用戶來識別。

簡單來說，就是打造一款新式驗證碼系統(tǒng)，系統(tǒng)會提供兩個單詞給用戶來識別，這兩個單詞都是書籍掃描版的一部分。計算機其實已經(jīng)知道第一個單詞的正確答案，之所以要展示出來，是為測試用戶是否是真人。而第二個單詞計算機暫時無法識別。對于這第二個單詞，一旦有10個人輸入了同樣的答案，那么這答案就會被當作是正確答案。靠這種方法，新式驗證碼系統(tǒng)每年能成功數(shù)字化230多萬本舊書，為人類文化事業(yè)做出了巨大的貢獻。

“用戶輸入驗證碼時，程序會不可避免地收集到用戶的行為數(shù)據(jù)，通過分析和訓練這些數(shù)據(jù)，得到各種用戶的行為模型和習慣?！?王之琳說，輸入驗證碼是一把雙刃劍，驗證用戶是否是真人的同時，帶來數(shù)據(jù)隱私泄露的風險。

“沒有絕對的好人，也沒有絕對的壞人。” 王之琳表示，一般情況下在許可協(xié)議和隱私協(xié)議中會有提到，系統(tǒng)會采集用戶的哪些數(shù)據(jù)，用于哪些用途。但截至目前，很多時候，用戶并沒有權力去選擇是否要分享這部分數(shù)據(jù)。

直到2018年，歐盟頒布了通用數(shù)據(jù)保護條例GDPR，才有了對個人數(shù)據(jù)的嚴格保護。但王之琳坦言，個人數(shù)據(jù)是很狹窄的范圍，如位置、DNA、聯(lián)系方式等。用戶鼠標在屏幕上從左往右滑動了一次都會被電腦程序記錄下來，但是這是否屬于隱私行為數(shù)據(jù)在協(xié)議中很難界定，也得不到保護。而且這種隱私的泄露不僅僅存在于智能驗證碼的學習過程中，還存在于整個互聯(lián)網(wǎng)。

AI越來越聰明:驗證碼未來何去何從在人工智能不斷發(fā)展的現(xiàn)在，機器能通過越來越多類型的圖靈測試，并且經(jīng)過了大量驗證碼類型的機器訓練，未來的驗證碼還能起到效用嗎?如果AI學會識別驗證碼并被別有用心的人利用，有哪些反制措施?

張帥認為，不管AI多聰明，驗證碼都不會被淘汰。他說，沒有絕對安全的系統(tǒng)。在利益的驅動下，反驗證碼的技術也會不斷提升。網(wǎng)站通過判斷是否有真人操作的行為來區(qū)別人機，攻擊者可以反復訓練機器去模擬真人的操作來混淆校驗的判斷。驗證碼和反驗證碼的技術會在此消彼長中交替著前行。破壞安全的方式也會越來越刁鉆，系統(tǒng)安全性措施會越來越嚴謹完善，所以不必太擔心。

還有網(wǎng)友表示，有的驗證碼過于復雜，有時多次驗證失敗難以注冊，非常影響用戶體驗。對此，王之琳表示，驗證碼已進入智能時代，操作體驗已經(jīng)變得簡單，用戶只需在頁面上點擊“I'm not a robot”(我不是機器人)的勾選按鈕即可。但其實從用戶打開頁面，加載出驗證碼的那一刻起，校驗的過程就已經(jīng)開始了。通過用戶在頁面上的停留時間、鼠標的移動速度、位置偏移，通過瀏覽器信息請求頭信息等共同作為參考因素，將這些復雜的數(shù)據(jù)傳到校驗服務器的后臺進行AI分析，來判斷是不是真人用戶的操作。

展望未來，張帥說，目前國內驗證碼技術大多停留在圖形圖像相關方向，忽略了對于語音和無障礙訪問的支持。雖然有部分網(wǎng)站提供了語音驗證碼的功能，但還是少數(shù)，他期望多關注和支撐殘障人士的使用體驗，提供更多形式的驗證方式。

編輯：胡慧娟

上一篇：新技術能快速將海水變成飲用水
下一篇：推翻此前“溫暖潮濕”判斷火星早期寒冷冰凍且含有大量冰蓋