众力资讯网

【Cloudflare 解释了昨天导致互联网大面积瘫痪的错误】昨天,互联网大片区

【Cloudflare 解释了昨天导致互联网大面积瘫痪的错误】昨天,互联网大片区域完全无法访问,许多其他网站和服务也运行缓慢。问题很快就被确定为 Cloudflare 网络瘫痪,但该公司花了一些时间才查明真正的原因。Cloudflare 表示,他们最初以为公司遭遇了大规模网络攻击,但随后意识到问题是由软件更新中的一个“棘手”错误导致。由于知名基础设施网络提供商 Cloudflare 出现故障,大量 App 和网站目前完全离线或严重中断。Cloudflare CDN 为许多知名 App 的网站提供支持,因此 Cloudflare 的任何故障都产生广泛的影响。这其中包括 X,用户目前无法发布或刷新时间线。该问题影响了全球网络用户。Cloudflare 表示,我们观察到的模式是连接会间歇性地断开约五分钟,然后恢复,之后再次断开。这种模式让该公司相信他们正遭受大规模 DDoS 攻击,因为技术故障通常不会自行修复。分布式拒绝服务攻击是指恶意行为者向服务器发送大量请求,以耗尽服务器的所有可用容量,导致合法用户无法访问服务。另一个明显的症状让我们误以为这是一次攻击:Cloudflare 的状态页面宕机了。该状态页面完全托管在 Cloudflare 的基础设施之外,不依赖于 Cloudflare。尽管最终证实这只是巧合,但它让参与问题诊断的团队成员一度认为,攻击者可能同时针对我们的系统和状态页面。IT 领域有一条不成文的规定:如果遇到具有奇怪症状的问题,那很可能是权限问题——而这次的情况正是如此。此次事件是由我们数据库系统权限的更改导致的,该更改导致数据库向我们的机器人管理系统使用的“特征文件”输出了多个条目。反过来,该特征文件的大小翻倍。随后,这个超出预期大小的特征文件被传播到我们网络中的所有机器。这些机器上运行的用于路由网络流量的软件会读取这个功能文件,以使我们的机器人管理系统能够及时更新,应对不断变化的威胁。该软件对功能文件的大小有限制,小于其两倍大小的限制。这导致软件运行失败。该文件由运行在 ClickHouse 数据库集群上的查询每五分钟生成一次,该集群正在逐步更新以改进权限管理。只有当查询运行在已更新的集群部分时,才会生成错误数据。因此,每五分钟都有可能生成一组正确的或错误的配置文件,并迅速在网络中传播。我们对此次事件给客户和整个互联网带来的影响深表歉意。由于 Cloudflare 在互联网生态系统中的重要性,任何系统故障都是不可接受的。我们的网络一度无法正常路由流量,这令我们团队的每一位成员都感到非常痛心。我们知道今天我们让你失望了。