你在免费帮自动驾驶汽车做训练

"选出所有交通信号灯。""点击包含人行横道的图片。",每次登录网站时都会出现的图片验证。很烦人对吧?但除了"证明你不是机器人"之外,这些任务还有另一个重要目的。

你在免费为 Google 的自动驾驶技术创建训练数据。

CAPTCHA 的进化

CAPTCHA 在 2000 年代初期作为"区分人类和计算机的测试"出现。从扭曲文字识别开始,它随着技术的进步不断演化。

  • 第一代(2000 年代):输入扭曲的字符。随着 OCR 技术的进步变得可以被破解
  • 第二代(reCAPTCHA v1,2009 年起):让人类阅读 OCR 无法识别的旧书扫描文字。为 Google Books 的数字化做出了贡献
  • 第三代(reCAPTCHA v2,2014 年起):"我不是机器人"复选框 + 图片选择。交通信号灯、人行横道、公交车和自行车出现了
  • 第四代(reCAPTCHA v3,2018 年起):对用户行为模式评分,只对可疑情况显示图片验证。大多数用户无需看到 CAPTCHA 即可通过

为什么是"交通信号灯"和"人行横道"?

reCAPTCHA v2 使用交通信号灯、人行横道、公交车、自行车和消防栓的图片并非巧合。这些都是自动驾驶汽车需要识别的物体。

Google 于 2009 年收购了 reCAPTCHA,并于 2016 年成立了自动驾驶部门 Waymo。通过 reCAPTCHA 收集的图片标注数据(如"这张图片包含交通信号灯"的信息)被用于训练机器学习模型。

换句话说,每次你回答"选出所有交通信号灯"时,你都在逐步提升自动驾驶汽车识别交通信号灯的能力。全球数亿用户每天免费执行这项工作。

"我不是机器人"背后发生了什么

有时只需点击"我不是机器人"复选框就能通过,但在那短暂的瞬间,Google 分析了大量令人惊讶的信息。

  • 鼠标移动:人类的鼠标移动有微妙的抖动,而机器人是直线移动
  • 点击位置:你在复选框上的确切点击位置。人类会略微偏离中心,而机器人过于精确
  • 页面停留时间:从打开页面到点击之间经过了多长时间
  • Cookie 和浏览记录:是否登录了 Google 账号,过去的 reCAPTCHA 回答记录
  • IP 地址:是否有大量请求来自同一个 IP 地址

所有这些信息被综合评估。如果被判定为"像人类",仅复选框就足够了。如果被认为"可疑",就会出现图片选择。

CAPTCHA 的未来 - 隐形验证

reCAPTCHA v3 在后台判断用户是人类还是机器人,无需任何用户交互。它分析页面上的滚动速度、打字节奏、触摸屏压力等行为模式来计算分数。

未来,CAPTCHA 可能会变得完全"隐形",在用户毫无察觉的情况下完成验证。

总结

每次你在 CAPTCHA 图片挑战中选择交通信号灯和人行横道时,你都在为 Google 的自动驾驶技术训练做贡献。在"我不是机器人"的背后,包括鼠标移动、点击位置和 IP 地址在内的大量数据正在被分析。下次 CAPTCHA 出现时,想着"我在为自动驾驶的未来做贡献",或许能让烦恼减轻一些。

本文相关术语

IP 地址 reCAPTCHA 将 IP 地址作为评估标准之一。 Cookie 过去的 reCAPTCHA 回答记录存储在 Cookie 中,影响未来的评估。 浏览器指纹 reCAPTCHA 也会分析浏览器特征来判断你是人类还是机器人。