什么是垃圾邮件

垃圾邮件（Spam）是指未经收件人同意而大量发送的骚扰信息。电子邮件是最常见的形式，但垃圾信息也出现在短信、社交媒体私信、论坛帖子和网站评论区等各种渠道。

全球约 45% 的电子邮件流量被归类为垃圾邮件。对企业而言，垃圾邮件浪费带宽和存储资源、降低员工生产力，更是钓鱼攻击和恶意软件的主要传播渠道。对个人用户来说，误点一个垃圾邮件链接就可能导致经济损失或凭证被盗。

垃圾邮件的历史 - 1978 年的第一封垃圾邮件

有记录的第一封垃圾邮件发送于 1978 年 5 月 3 日，DEC（数字设备公司）的营销人员 Gary Thuerk 向 ARPANET 上约 400 名用户发送了产品推广邮件。当时还没有「垃圾邮件」这个称呼，虽然收到了强烈反对，但据说确实促成了几笔交易。

「Spam」这个名称来源于 Monty Python 的喜剧短剧（餐厅菜单上每道菜都含有 SPAM 午餐肉，无论顾客点什么都会得到 SPAM）。1990 年代 Usenet 上大量灌水成为问题时，这种「不想要却被强加」的形象使得「spam」成为了骚扰信息的代名词。

2003 年美国颁布了 CAN-SPAM 法案，要求商业邮件提供退订机制。然而仅靠法律无法根除垃圾邮件，技术过滤手段不可或缺。

通过统计分析邮件内容中单词的出现概率来判断是否为垃圾邮件。用户每次将邮件标记为「垃圾邮件」都会促进学习，提高准确率。Paul Graham 在 2002 年发表的论文「A Plan for Spam」推广了这种方法。

在发送域的 DNS 记录中注册授权发送邮件的服务器 IP 地址。接收方验证发送方 IP 是否在 SPF 记录中，以检测伪造。

发送服务器为邮件附加数字签名，接收方使用 DNS 上的公钥验证签名。可同时检测邮件篡改和发件人伪造。

基于 SPF 和 DKIM 的验证结果，域名所有者可以指定认证失败邮件的处理策略（不处理/隔离/拒绝），并接收关于伪造尝试的报告。

Gmail 和 Microsoft 365 等主流邮件服务在这些技术基础上还结合了机器学习过滤。2024 年 2 月起，Gmail 要求日发送量超过 5000 封的域名必须配置 SPF、DKIM 和 DMARC。

僵尸网络是垃圾邮件大规模分发的基础设施。攻击者远程控制数万到数百万台被感染的设备，每台设备只发送少量邮件，以规避基于 IP 的黑名单。

网站评论区和联系表单的垃圾机器人也是严重问题。CAPTCHA 和蜜罐字段（对人类不可见的隐藏表单项）是常见防御手段，但高级机器人能突破 CAPTCHA，因此需要配合速率限制使用。

配置 SPF、DKIM 和 DMARC：防止域名被伪造，提高过滤准确率。DMARC 策略应逐步从 none 提升到 quarantine 再到 reject。
使用实时黑名单（RBL）：参考 Spamhaus、Barracuda 等黑名单，拒绝来自已知垃圾邮件源的邮件。
实施灰名单：临时拒绝首次连接，等待重发。正规邮件服务器会重发，而垃圾邮件机器人通常不会。

忽略垃圾邮件就没有危害: 即使忽略垃圾邮件本身，它仍然浪费服务器带宽和存储资源。更关键的是，钓鱼邮件和携带恶意软件的邮件混杂在垃圾邮件中，误点一封就可能造成严重损失。
点击「退订」就能停止垃圾邮件: 对正规企业的邮件，退订是有效的。但对恶意垃圾邮件，点击退订链接会告诉攻击者「这个邮箱地址有效且有人在看」，结果可能导致收到更多垃圾邮件。
用 Gmail 或 Outlook 就不需要垃圾邮件防护: 主流邮件服务的过滤准确率很高，但不是 100%。特别是针对性的鱼叉式钓鱼邮件可能绕过过滤器。用户自身的判断力和组织层面的 SPF/DKIM/DMARC 配置仍然至关重要。