如何减少云浪费:归结为三个步骤
一家保险公司通过第一步,就将一个应用程序的年运营费用削减了近1亿美元。
这几乎如同牛顿定律;每有一个关于云计算资源支出增长的数据,就有一个等量且相反的关于资源浪费程度的数据。例如,Gartner预测,全球终端用户在公有云服务上的支出将从2024年的5957亿美元猛增至2025年的7234亿美元,增长21.5%。与此同时,近期一项针对300家公司的调查显示,78%的受访者估计其年度云支出中有21%到50%被浪费。诸如此类,不胜枚举。
无论如何量化,浪费在非必要云资源上的预算总额都是巨大的——有时在单个组织内部,其数额之大令人震惊。这篇博客探讨了三个步骤,以控制自由放任的云资源管理(有时戏称为"ClickOps"),实现与业务更紧密集成、本质上更精益的支出(即"FinOps"方法)。为了阐明其中一步,我将分享一家大型保险公司如何将其在本地运行一个旗舰分析模型的1亿美元年度预算,削减到云端每天仅需800美元。
相关阅读:保险业云迁移策略:行业领导者的经验教训 (2025年10月6日 | 博客)
免责声明:额外容量并非总是浪费
“云浪费"的真正含义是什么?
对于某些应用,一定量的云开销是有益的。在这些情况下,超量配置10%至20%可以使IT团队免于不断调整应用规模或疲于应对临时性工作负载。考虑到边际成本与潜在混乱之间的权衡,保留一些特定于应用的超额容量通常是更好的选择。
许多应用更严重的问题在于,当从本地资源迁移到云端时,简单的"直接迁移"可能会代价高昂。在迁移任何特定应用的规划过程中,应首先提出"我将其迁移到云端想要达到什么目的?“这个问题,以确保架构模式满足或超出成本预期。如果迁移工作不首先从这个角度考虑,迁移到云端的好处往往会丧失。这就引出了……
步骤一:将应用思维从资本性支出转变为运营性支出
将大型的(通常是遗留的)应用原样迁移到云端会导致巨大的浪费。遗留应用因多年来(甚至数十年)在过时架构上不断附加增量功能而变得庞大臃肿。直接将它们迁移到云端的成本可能比保留在本地更高,这个问题只能通过战略性的重新思考来解决。
实现遗留工作负载现代化的关键,在于利用云的"租赁模式”。这需要将应用的架构从本地固定成本(CapEx)模式,转变为云端灵活的按使用付费成本(OpEx)结构。
现实案例
一家大型保险公司将其"皇冠明珠”——风险与定价分析系统——运行在本地。它需要超过100台服务器、一个大型数据湖农场,以及大约150名工程师来持续管理网络、数据管理、提取-转换-加载(ETL)流程等。该应用维护成本高昂,但无法退役;其功能是这家保险公司业务的核心。
如果该公司只是简单地将应用直接迁移到云端,其低效架构的运营成本可能高达原来的两倍,并且仍然需要数十名工程师来维护。相反,该保险公司对该应用进行了现代化改造,为其重新设计了云原生架构。现在,风险与定价分析应用存放在云端的非活动冷存储中,这意味着在需要时可以将其唤醒,并在几分钟内动态注入数据进行分析。分析现在可以更快地运行,之后数据实例被清空,应用回到成本极低的归档存储中。
收益是巨大的:该应用在云端现在只需3到5人管理,分析可以每天运行,而不是每几个月一次。敏感的 personally identifiable information (PII) 仅在生产的几分钟内存留;其余时间,它都存放在安全的云存储中。
将应用从CapEx重新架构为OpEx的成本效益同样巨大。风险与定价分析系统在本地运行的年成本接近1亿美元。
在云端,它每天的成本不到800美元。
- 800美元 × 365天 = 每年292,000美元(为保险起见,我们四舍五入到30万美元,以涵盖杂项!)
- 100,000,000美元 - 300,000美元 = 每年节省超过99,700,000美元
步骤二:设置防护机制
未充分利用或闲置的云资源会迅速累积。僵尸进程、孤儿资源和废弃账户很容易被识别为浪费,可以通过自动化解决方案持续高效地进行修复。
尽管许多开发人员和运维工程师不愿大声承认,但他们通常对云计算并不熟悉。如果他们职业生涯的大部分或全部时间都在运营本地环境,那么在云迁移过程中会遇到困难。如果他们尚未学会如何针对云进行优化,可能在尝试重新架构应用时引入的成本比节省的还要多。
为了简化过渡,经验丰富的平台团队设置防护机制是一个巨大的成本节约手段。他们可以在幕后建立解决方案,自动化和优化云资源管理,使用基础设施即代码(IaC)来用一致的企业策略取代ClickOps。应用程序可以通过镜像生命周期管理系统运行,并根据预定义策略自动将资源高效打包到云实例中,从而在无需用户干预的情况下优化云资源消耗。随着团队向云端过渡,防护机制可以帮助他们避免经典错误,并在每次新的成功中建立信心。
步骤三:将云支出与业务成果紧密挂钩
在许多公司或大型业务部门(LOB)中,IT是一个单一的、集中化的成本中心,控制着包括云在内的所有技术支出。虽然这些IT组织可能支持特定的业务,但其预算与业务部门的损益(P&L)报表并没有紧密关联或被纳入其中。如果总体IT支出按计划进行,个别支出就不会受到严格审查——为什么要放慢创新的步伐呢?
云财务运营(FinOps)将技术、财务和业务部门聚集在一起,根据其将产生的财务影响来影响运营流程。它是一种积极主动的状态,而非事后反思,自然会在评估云支出与其所能驱动的、针对收入目标和利润率的弹性之间的权衡时,迫使团队发挥创造力。
例如,如果一个IT组织将支持某个应用的云资源增加两倍以确保其在全球范围内坚如磐石,但这样做会使运营利润率降低30%,那么这个权衡是相当大的。这对业务来说值得吗?能否以另一种更便宜的方式实现弹性?Apptio和Infracost等FinOps工具是该领域不断增长的解决方案的一部分,有助于在不牺牲收入目标或风险承受能力的情况下降低基础设施成本。
了解更多
您组织的云消耗在增长吗?云浪费也在增加吗?了解更多关于IaC和策略即代码(PaC)的好处,请参阅HashiCorp网络研讨会:部署策略防护的基础设施——创建和执行防护机制。
并阅读关于通过基础设施云优化云运营和投资回报的最新指南,以了解哪些策略可以在您的组织中有效降低成本。
免责声明:额外容量并非总是浪费
步骤一:将应用思维从资本性支出转变为运营性支出
步骤二:设置防护机制
步骤三:将云支出与业务成果紧密挂钩
了解更多