能源浪费:处理数据中心中的闲置服务器
服务器可能成为数据中心的“懒汉”,消耗电力却无所事事。为什么不鞭策它们发挥效用呢?
Uptime Institute早在2015年就估计,闲置服务器可能浪费约30%的能耗,而虚拟化等趋势带来的改进已基本趋于平稳。
据Uptime称,数据中心中“功能死亡”服务器消耗的电力比例似乎再次攀升,这对于努力控制成本并瞄准可持续性的运营商来说不是好消息。Uptime Institute数字弹性副总裁Todd Traver确认,这个问题值得关注。“对闲置功耗的分析将推动关注IT规划和应用设计、采购流程,以及最初使服务器得以安装在数据中心的业务流程,”Traver告诉ComputerWeekly。
然而,他指出,高性能多核服务器需要更高的闲置功耗,范围在20W或以上,比低功耗服务器可提供超过200%的性能提升。如果数据中心短视地专注于减少服务器功耗,那将推动错误的购买行为。“这实际上可能增加总体功耗,因为它会显著次优化每瓦消耗处理的工作负载量,”Traver警告。
那么,应该怎么做?
数据中心运营商可以通过确保硬件提供基于应用必须支持的服务级别目标(SLO)的性能来帮助减少闲置功耗。“一些IT部门倾向于过度购买服务器性能,‘以防万一’,”Traver补充道。
他提到,可能会遇到担心应用性能的IT团队的阻力,但仔细规划应确保许多应用轻松承受正确实施的硬件电源管理,而不影响最终用户或SLO目标。首先,根据工作负载调整服务器组件和能力,并理解应用及其需求,以及吞吐量、响应时间、内存使用、缓存等。然后确保硬件C状态电源管理功能被开启和使用,Traver说。
第三阶段是持续监控和提高服务器利用率,有软件可用于帮助平衡跨服务器的工作负载,他补充道。
基础设施管理提供商SolarWinds的首极客Sascha Giese同意:“使用在大型数据中心中使用的编排软件,我们实际上能够动态关闭当前无用的机器。这可以有很大帮助。”
改进机器本身和改变心态仍然重要——摆脱对高性能的过度强调。关闭东西也可能延长硬件寿命。
Giese说,即使服务器级别发生技术改进和密度增加,更广泛的考虑仍然存在,超越敏捷性。这都是更大难题的一部分,可能不提供完美解决方案,他说。
新思维可能解决如何测量和解释能耗和利用率,这在不同的组织中可能不同,甚至预算方式也不同。“显然,管理员有提供大量资源的利益。这是一个大问题,因为他们可能不考虑持续成本,这基本上是大局中你所追求的,”Giese说。
设计节能方案
托管数据库提供商EDB的PostgreSQL研究员Simon Riggs作为开发人员经常处理功耗代码。在软件中实施功耗减少技术,包括PostgreSQL时,团队首先使用Linux PowerTop分析软件,查看系统哪些部分在闲置时唤醒。然后他们查看代码以了解哪些等待循环是活跃的。
正常操作的典型设计模式可能是在工作请求到达时唤醒,或每两到五秒重新检查状态。在50个闲置循环后,模式可能是从正常模式移动到休眠模式,但在被唤醒工作时直接返回正常模式。
团队通过延长等待循环超时到60秒来减少功耗,Riggs说这在响应性和功耗之间提供了良好平衡。“这个方案相当容易实施,我们鼓励所有软件作者遵循这些技术来减少服务器功耗,”Riggs补充道。“虽然看起来明显,添加‘低功耗模式’对许多企业来说不是优先事项。”
他指出,进展可以且应该定期审查——并补充说,他发现了EDB团队在功耗编码方面可以清理的更多领域,同时保持应用的响应性。“可能每个人都认为处理这些事是别人的工作。然而,或许50-75%的服务器没有被充分利用,”他说。“在像银行这样的企业中,有5000-10000个数据库,其中很多不做太多事。许多数据库是1GB或更小,可能每天只有几笔交易。”
云提供商Exponential-e的首创新官Jonathan Bridges表示,减少为不活跃服务器供电对于寻求更可持续和节省成本的数据中心至关重要,许多工作负载——包括云环境——在大部分时间闲置,而横向扩展通常没有有效架构。“我们发现很多幽灵VM[虚拟机],”Bridges说。“我们看到人们尝试引入软件技术,因此云管理平台通常联合这些多个环境。”
持续监控可能揭示未充分利用的工作负载和其他差距,可以通过自动化和业务流程逻辑来针对关闭或至少围绕IT支出做出更战略性的业务选择。
然而,尤其是在影子IT普遍存在的情况下,IT部门通常不知道发生了什么。此外,随着组织增长、扩展和全球分散,并管理多个最初未设计为协同工作的现成系统,这些问题可能变得更加普遍,Bridges指出。“通常,你监控东西的可用性,你更多监控东西的性能。你并不真正深入这些以找出它们未被消耗,”他说。“除非它们被设置为查看所有部门,并且不仅做传统监控和检查。”
重构应用以成为公共云或本地容器化的云原生可能在这方面提供一个机会,以更有效地构建应用,实现高效的扩展——或缩减——帮助减少每台服务器的功耗。
虽然已经实现了电源效率和密度改进,但行业现在应该寻求做得更好——并且快速,Bridges建议。
着手评估正在发生什么的组织可能会发现他们已经相当高效,但更多时候他们可能会发现一些过度配置,可以在不等待新技术进步的情况下解决。“我们处于一个时间点,我们在全球面临的挑战,影响了供应链和一系列事情,正在看到能源成本飙升,”Bridges说。“仅电力成本通胀就可能增加6-10%的成本。”
平台即服务(PaaS)提供商Platform.sh的首产品官Ori Pekelman同意服务器闲置问题可以解决。然而,他坚持认为,这必须回到重新考虑关于消耗计算机资源最佳方式的整体心态。“当你看到今天软件如何在云中运行时,你看到的低效率水平绝对荒谬,”他说。
低效率不是孤立的
不仅服务器运行闲置,还有所有其他围绕可持续性的考虑,如范围3计算。例如,升级可能产生净负面效应,即使安装新设备后服务器功耗水平在日常基础上更低。
向云本身的移动可能掩盖其中一些考虑,仅仅因为能源和水使用等账单被抽象化,不在最终用户面前。
数据中心提供商本身也可能有动机在追求业务和客户增长的过程中掩盖其中一些成本。“这不仅仅是关于闲置服务器,”Pekelman说。“而且数据中心排放在过去20年中没有膨胀。思考这一点的唯一方式是花时间构建模型——健壮的模型,考虑多年,而不只专注于每台服务器的能源使用。”
他警告,修复这些问题将需要更多工程和“实际科学”。提供商仍在使用20年前的技术,而仍然无法在使用模式已经“非常满”时共享和扩展更好利用的负载。这可能意味着,例如,如果可能,减少重复映像,而是每台服务器上只有一个副本。
工作负载也可以本地化或动态地在全球移动——例如,到瑞典而不是法国,以核能供应——取决于你对那些能源来源好处的看法。其中一些可能需要在其他领域进行权衡,如可用性和所需的延迟,以实现所需的灵活性。
这可能不是数据中心提供商自己想要的,但应最终帮助他们交付客户越来越可能寻找的东西。“通常,如果你不是数据中心提供商,你的利益更与地球一致,”Pekelman建议。“权衡目标与效率,可能不是现在而是以后。好消息是,这意味着更好地做软件。”