云服务中断如何让韧性成为开发者关键能力
影响DevOps工具的中断威胁让开发者仿佛回到1999年的编码方式。这种威胁有多严重?企业又能采取什么措施?
Robert Lemos,特约撰稿人
2025年9月25日 | 5分钟阅读时间
图片来源:Profit_Image via Shutterstock
随着开发者和DevOps团队日益依赖各种云服务——从DevOps流水线到代码生成人工智能模型——这些团队面临的中断可能导致应用程序故障的可能性不断增加,专家认为重大事件即将发生。
GitHub工程高级副总裁Jakub Olesky表示,此类性能影响(而非全面中断)很典型,仅影响部分用户或服务。
“我们深度致力于确保能够优雅处理中断并最小化停机时间,”他说。“这意味着优先投资于规模、安全部署和韧性,对每次事件的改进都有明确时间表。”
相关阅读: UltraViolet通过Black Duck测试业务扩展AppSec能力
然而,一些行业专家认为,重大事件导致开发者数小时甚至数天停机的发生只是时间问题。在某些方面,Shai-Hulud蠕虫就造成了这样的中断——该蠕虫对Node包管理器(npm)生态系统的污染导致500多个软件包受损,大规模清理工作使许多开发者停滞不前。
提供备份和韧性服务的公司GitProtect.io网络安全策略师Daria Kulikova表示,这些中断和事件强调,随着应用团队日益依赖通用基础设施,关键云服务的任何问题都可能产生连锁反应。
Kulikova说,软件团队越来越依赖基于云的工具,包括GitHub等源代码托管服务、持续集成/持续部署(CI/CD)流水线、集成开发环境(IDE)和AI辅助编码平台。她解释说,这在现代软件开发中创造了系统性的单点故障。
“即使是轻微的云中断或减速也可能在多个团队和项目中产生连锁反应,停止开发流水线,阻塞代码审查,并延迟发布,”Kulikova说。
DevOps服务大多可靠
相关阅读: Claude代码安全审查通过氛围检查吗?
总体而言,开发或部署服务非常可靠。在讨论开发者应如何准备Microsoft Azure DevOps(ADO)潜在中断时,许多评论者指出该服务很少出现重大问题。
一位发帖者表示:“很确定ADO的正常运行时间已经轻松超过我们任何本地服务。”
到目前为止,DevOps服务的中断大多较小,未对软件开发产生严重影响。根据信息服务提供商IsDown的2024中断报告,平均中断持续时间不到两小时(106分钟)。
然而,根据GitProtect.ai收集的数据,2025年上半年,DevOps平台总共发生了330起事件。拥有超过10亿用户的Azure DevOps在今年前六个月发生了74起事件,包括报告的最长性能下降之一,持续159小时。根据报告,GitHub事件上半年同比增长58%;在报告的109起案例中,17起被列为重大事件,总计超过100小时的中断。
GitLab上半年修补的漏洞比前一年少,但仍面临59起事件,总计1,346小时中断。GitLab首席技术官Sabrina Farmer表示,该平台的正常运行时间服务级别目标为99.8%,最近三个月已超过这一目标。
相关阅读: 最小化、强化和每日更新:安全容器的新标准
“GitLab在过去五年中没有发生重大的全站点中断,”她说。“我们最严重的中断是2017年由维护期间人为错误引起的数据库事件。此后我们实施了多重防护措施以防止类似事件。”
为开发提供更多韧性
“事先,人们应该知道会发生什么,如何响应,以及他们的角色是什么,”她说。“韧性来自技术灵活性与有纪律的操作实践的结合。”
DevOps团队应将韧性融入工作流。GitHub的Olesky指出了开发者和开发团队构建中断韧性的方法,例如使用本地优先工作流、在CI/CD流水线中设计回退和故障转移,以及缓存依赖项。
GitLab的Farmer认为,对AI编码助手、CI/CD服务和测试平台日益增长的依赖使得规划中断对开发团队更加重要。
“依赖单一供应商或未能实施优雅降级的团队正在将其生产力,有时甚至是用户体验置于风险之中,”她说。“特别是AI可能会经历先前已解决的事件,用户仍在测试技术边界,以及许多提供商刚刚开始大规模部署的新基础设施。”
在最近的Anthropic中断期间,一位人士认识到为AI推理系统提供现场冗余的好处,在在线论坛上发帖:“很高兴我们拥有内部负载均衡/故障转移LLM推理系统,因此这次中断不会影响我们的生产环境。”
GitProtect的Kulikova表示,开发团队应专注于使工作流具有韧性,在适当位置添加冗余,备份重要数据,并拥有可快速激活的替代测试和构建环境。她建议对这些故障转移策略进行压力测试,模拟中断以发现可能在实际事件中停止开发的隐藏依赖或瓶颈。
“事先,人们应该知道会发生什么,如何响应,以及他们的角色是什么,”她说。“韧性来自技术灵活性与有纪律的操作实践的结合。”
关于作者
Robert Lemos,特约撰稿人
拥有20多年经验的资深技术记者。前研究工程师。为超过24家出版物撰稿,包括CNET News.com、Dark Reading、MIT的Technology Review、Popular Science和Wired News。获得五项新闻奖,包括2003年因对Blaster蠕虫的报道获得最佳截稿时间新闻(在线)奖。使用Python和R分析各种趋势数据。近期报告包括网络安全工作者短缺和年度漏洞趋势分析。
您可能还喜欢
应用安全:自我复制的“Shai-hulud”蠕虫针对NPM包
应用安全:用于敏感通信的Gmail:风险是什么?
应用安全:Google快速共享漏洞绕过允许零点击文件传输
应用安全:静态扫描、红队和框架旨在发现不良AI模型
特色内容
查看Black Hat USA会议指南,获取更多关于展会的报道和情报。
DR Technology最新文章
零信任:AI攻击时代的优势与局限 - 2025年9月20日 | 5分钟阅读
云边缘是新攻击面 - 2025年9月18日 | 4分钟阅读
Ray Security采取主动数据安全方法 - 2025年9月17日 | 3分钟阅读
SecurityScorecard收购AI自动化能力,提升供应商风险管理 - 2025年9月16日 | 2分钟阅读
阅读更多DR Technology
发现更多
Black Hat | Omdia | 与我们合作 | 关于我们 | 广告 | 转载 | 加入我们 | 新闻通讯注册 | 关注我们
版权所有 © 2025 TechTarget, Inc. d/b/a Informa TechTarget。本网站由Informa TechTarget拥有和运营,该全球网络的一部分负责告知、影响和连接全球技术买家和卖家。所有版权归其所有。Informa PLC的注册办公室是5 Howick Place, London SW1P 1WG。在英格兰和威尔士注册。TechTarget, Inc.的注册办公室是275 Grove St. Newton, MA 02466。
首页 | Cookie政策 | 隐私 | 使用条款