人工智能(AI)和机器学习(ML)可以是激励创新的宝贵工具,但它们的管理要求与在中等CPU和内存利用率下运行的典型企业IT应用不同。因为AI和ML倾向于以非常高的利用率运行密集的计算,电力和冷却成本消耗的预算比例可能高于IT团队的预期。
这不是一个新问题,但其影响正在加剧。
随着越来越多的cpu密集型应用程序(如数据仓库和业务智能)的普及,IT部门常常忽略了它所累积的电费——特别是因为这些费用通常是由运营部门而不是IT部门承担的。
“数据科学团队的领导者通常有权在任何时间处理任何事情,”人工智能开发公司首席执行官兼创始人马克•斯沃茨(Mark Swartz)表示神经.“用这些奢侈的方法来解决繁重的计算需求的日子将在未来五年内开始下降。”
对电力和冷却成本进行更严格审查的一个原因是,人工智能通常依赖于高性能计算(HPC),而数据仓库和商业智能应用可以在标准系统上运行。高性能计算和人工智能运行得更加火热,任何人都不应该被增加的账单蒙住眼睛,Addison Snell说Intersect360一家专门研究高性能计算问题的研究公司。
“与任何类型的IT工作相关的成本都可能很热。如果你还没有准备好使用人工智能,如果你认为它和(常规的)企业it服务器一样,那么你可能会对它的电力和冷却成本感到惊讶。”
那么如何才能避免“价签休克”呢?以下是可以采取的六个步骤。
1)货比三家,选择更便宜的能源
如果您可以选择将数据中心放置在公司办公室之外,那么寻找良好的可再生能源,从水力雷竞技电脑网站发电开始。水力发电是最便宜的电力来源之一。微软HPC市场动态高级顾问Steve Conway表示:“微软和谷歌将数据中心设在大型水源附近是有原因雷竞技电脑网站的。亥伯龙神的研究.
风力发电也比化石燃料便宜,这就是为什么许多数据中心设在中西部的原因。雷竞技电脑网站和电是农村地区更便宜大城市比。大多数主要城市的数据中心是必要性雷竞技电脑网站的原因——北弗吉尼亚是最大的数据中心市场由于其接近联邦政府——但这不是闻所未闻的地方在爱荷华州数据中心(微软、谷歌、Facebook),俄克拉何马州(谷歌),和新墨西哥州(Facebook)。
此外,尝试在夜间运行计算密集型应用程序,因为在非高峰时段,电价往往会下降,Conway说。
2)使用AI优化电量使用
这似乎是违反直觉的,但最好的方法之一管理您的数据中心计算机雷竞技电脑网站是人工智能本身。它可以优化电力和冷却,改善工作负载分布,并执行预测性维护,对即将发生的硬件故障发出警告。这是一种不同类型的人工智能,是一种监控而不是机器学习,对系统来说也不那么费力。Swartz说,这些服务器还可以使用传感器来监测供电单元和cpu的峰值,并在系统运行高于正常水平时通知客户。
“通过正确使用人工智能,它可以帮助减少能量。如果人们开始使用人工智能,有很多很多的应用程序可以更高效地运行,”高盛首席技术官乔•德贝克(Jo De Boeck)表示imec这是一家专注于数字技术的研发机构。
3)尽可能使用低功耗芯片
机器学习有两个步骤:训练和推理。训练部分包括训练系统识别一些东西,如图像或使用模式。那是最需要处理器的部分。推论是一个简单的是/否问题:这是否与模型匹配?与训练系统识别匹配对象相比,寻找匹配对象所需的处理能力要小得多。
GPU是训练的最佳选择,但是GPU消耗高达300瓦的功率。你可以使用GPU进行推理,但为什么要使用更低功耗的部件呢?英特尔有一个特殊的推理芯片,Nervana,它已经停止支持哈瓦那芯片。在早期的测试中,Nervana使用10到50瓦的功率来进行推理。
De Boeck说,解决方案是开发更多特定于应用程序的硬件。“所以,你会看到硬件越来越专业化,而不是仅仅使用cpu或gpu,这仍然是通用用途。特殊的功能单元构建模块被添加到硬件中,以使机器学习算法更有效地学习。”
4)减少培训时间
另一种避免训练消耗能量的方法是减少运动量。当您对训练有了经验后,可以重新审视您的训练算法,看看在不损失准确性的情况下可以剔除哪些内容。
“最先进的推理需要大量训练来完成简单的任务。人们正在努力改进推理,所以随着机器变得更智能,执行推理所需的训练就更少了。在推理中增加更多的智能意味着更少的训练,”康威说。
训练通常用单精度(32位)或双精度(64位)数学来完成。精度越高,加工越慢,但功耗不变。许多人工智能开发人员,包括Nvidia和谷歌,都是如此说了一会儿在大多数情况下,你不需要这样的精度,除了图像和视频处理,在这些情况下,良好的图形精度是很重要的。
“还有很多工作要做,比如减少所需的操作次数,让这些网络尽可能紧凑,或者利用算法的特定属性。”公司正试图利用神经网络的特殊特性,减少或计算出许多参数实际上是零,然后不执行计算。这就是所谓的修剪过程,”De Boeck说。
在过去的几年中,降低精度的计算逐渐引起了人们的兴趣。bfloat16格式是由IEEE开发的16位浮点格式,用于英特尔的AI处理器、Xeon处理器和fpga,以及谷歌的tpu和TensorFlow框架。它之所以流行,是因为在大多数情况下它足够准确。
5)不断优化你的训练
此外,定期重新进行推理训练以改进和优化算法也很重要,De Boeck说。他说:“理论上,你只能在实践中进行几次训练,但你不能说‘我认为这种训练会一直持续下去’。”“这些公司一直在努力提高这些人工智能算法的性能,所以他们也会不断地对这些算法进行培训或再培训。”
斯沃茨在他的ML/AI经验中表示,他的团队有一个过程,在这个过程中,他们都会就训练集的阈值和构建/重建新模型的“烘烤时间”达成一致。通过添加新的培训信息,花费在重新培训模型上的时间更少。
“所有的模型都必须包含迁移学习,这是一种定位两个模型之间的增量,只添加新数据到下一个待处理的训练集的形式。这是我们的团队多年来手工完成的,而现在我们有算法可以定位它本身,”斯沃茨说。
6)看云
所有主要的云提供商都有一个人工智能产品,谷歌的TensorFlow人工智能处理器处于前沿。斯内尔说,这可能更经济,特别是如果你必须从头开始。
“人们经常通过云计算来抵消预付费用。这是否有利可图取决于利用率和提供者。能量在某处消耗。您需要支付云提供商的电费作为成本的一部分。它并不是自动便宜的。如果你缺乏数据科学之类的技能,你可能想要外包。”