周四,许多Facebook用户无法访问该社交网站长达两个半小时,这是该网站四年来最严重的宕机,Facebook在一篇帖子中说。
这些问题可以追溯到Facebook在其一个系统中所做的改变。
当错误检查程序在Facebook系统中发现无效数据时,就会调用一段数据进行更改。这段数据本身被解释为无效,这导致系统尝试用同一段数据替换它,因此开始了反馈循环。
这个循环导致每秒数十万个查询被发送到Facebook的数据库集群,这让整个系统无法承受。
用户的结果是“DNS错误”消息,无法访问该站点。
Facebook软件工程总监罗伯特·约翰逊(Robert Johnson)在该网站上的一篇帖子中写道:“停止反馈周期的方法非常痛苦——我们必须停止这个数据库集群的所有流量,这意味着关闭该网站。”。“一旦数据库恢复并修复了根本原因,我们就慢慢地允许更多的人返回该站点。”
这个问题还没有完全解决。约翰逊说,Facebook必须关闭自动系统才能使网站恢复运行。但该系统在保护网站方面起着不可或缺的作用。
Facebook现在正在探索处理这种情况的新方法,这样就不会导致另一个反馈循环。
他写道:“我们再次为网站宕机道歉,我们希望你知道,我们非常重视Facebook的性能和可靠性。”。
这是Facebook被一些用户关闭的第二天。周三,Facebook指责第三方网络提供商让一些人无法访问该网站。