栏目分类
你的位置:买球·(中国)APP官方网站 > 资讯 >
足球投注app
一家公司在云筹算限制对GPU的投资过甚濒临的挑战,揭示了阛阓需求与技巧现实之间的差距。
几年前,咱们服气互联网应用开发者需要GPU来进行AI/ML推理任务,并为此推出了Fly GPU Machines。Fly Machine 本色上是在咱们的裸金属处事器上运行的Docker/OCI容器,而GPU Machine 则是在此基础上映射了硬件Nvidia GPU,不错兑现快速CUDA筹算。
咱们和业内其他公司相同,齐正确预判了AI/ML的要紧性,致使可能还低估了它。关联词,咱们推出的产物似乎与阛阓的需求并不匹配,这笔赌注看起来并莫得取得预期的报告。
如若你正在使用Fly GPU Machines,请不要操心,咱们不会取消这项处事。但如若你期待咱们推出更坚定的GPU产物,可能要等上一段时候了。
GPU之路的侘傺
GPU Machines 对咱们来说并非一个小技俩。Fly Machines 运行在一个绝顶小的hypervisor上(不息是Firecracker,但GPU Machines 使用的是Intel的Cloud Hypervisor,一个绝顶相似的、支撑PCI纵贯的Rust代码库)。而Nvidia的生态系统并不支撑微型虚构机hypervisor。
GPU 让咱们的安全团队感到绝顶担忧。GPU 简直是最厄运的硬件外设:它进行着密集的多宗旨径直内存传输(致使不是双向的:在常见的建立中,GPU 之间会互重复信),进行纵脱的、由末端用户礼貌的筹算,况且通盘这些齐运行在咱们普通安全界限以外。
为了镌汰风险,咱们作念了一些腾贵的措施。咱们使用专用处事器硬件来部署GPU,这么GPU职责负载和非GPU职责负载就不会搀杂在一说念。正因为如斯,Fly Machine 只可被调停到GPU机器上的独一原因是它需要一个Nvidia GPU的PCI BDF,而任何开导上的可用数目齐是有限的。这些GPU处事器的垄断率大大低于咱们庸俗的处事器,因此资本效益也较低。
咱们还出资请Atredis和Tetrel两家公司对咱们的GPU部署进行了两次大型安全评估。这些评估价钱不菲,而且耗时很长。
安全问题并非咱们必须支吾的最大资本,但它却波折导致了一个好意思妙的原因。
如若咱们按照Nvidia的提倡,竖立一个方法的K8s集群来调停GPU功课,让咱们的GPU用户分享一个单一的Linux内核,咱们就能很快地推出GPU,况且走在Nvidia驱动方法的“幸福之路”上。
或者,咱们不错使用传统的hypervisor。Nvidia 提倡使用VMware,但如若咱们使用QEMU,他们也能让事情普通运作。咱们很可爱QEMU,也不错为它构建一个安全故事,但Fly Machines 的重心是启动速率只需几毫秒。咱们无法在Nvidia 的“幸福之路”上提供咱们想要的开发者体验。
因此,咱们破耗了几个月的时候,试图(最终失败了)让Nvidia 的主机驱动方法在Intel Cloud Hypervisor 中职责,以映射虚构化的GPU。有一次,咱们致使修改了闭源驱动方法的十六进制代码,试图骗取它们,让它们以为咱们的hypervisor是QEMU。
我不笃定这一切最终是否真实要紧。由于Nvidia 的驱动方法支撑甘休,咱们永恒无法探索某个细分阛阓,即“thin-slicing GPUs”。如若咱们莫得际遇这个问题,咱们本不错为开发者提供一个绝顶低廉的产物,而开发者可爱“低廉”,但我无法评释注解这些客户是着实存在的。
另一方面,咱们发愤于于为GPU 职责负载提供Fly Machine DX。除了PCI/IOMMU 的问题以外,只是让通盘硬件GPU 在Fly Machine 中职责即是一个庞杂的挑战。咱们需要大略使用正确的Nvidia 驱动方法的Fly Machines;咱们的堆栈构建的前提是客户的OCI 容器简直澈底界说了Machine 的根文献系统。咱们不得不在flyd 编排器中科罚这个问题。而且,简直通盘东说念主想要用GPU 作念的事情齐触及到灵验地获取包含模子权重的大文献。这也绝顶令东说念主头疼!
诚然,咱们还购买了GPU。好多GPU。腾贵的GPU。
事与愿违
最大的问题是:开发者并不想要GPU。他们致使不想要AI/ML 模子。他们想要的是LLM。系统工程师可能对若何使用CUDA 加载他们的模子,以及最佳的GPU 是什么,有聪惠而抉剔的认识。但软件开发者并不暖热这些。当一个发布应用的软件开发者来寻找一种让他们的应用向LLM 提供指示的方法时,你不成径直给他们一个GPU。
关于这些开发者来说,他们可能占据了大部分阛阓,一个新兴的环球云似乎不太可能与OpenAI 和Anthropic 竞争。他们的API 速率裕如快,而且以“每秒token数”来筹议性能的开发者并不会珍视毫秒级的延伸。
这让咱们感到痛心,因为咱们真实很可爱咱们在科罚决议空间中找到的点。在亚马逊上发布应用的开发者会将职责外包给其他环球云,以取得具有资本效益的GPU 造访权限。但随后,他们将会在处理数据和模子权重时际遇费力,需要(以奋发的资本)从S3 来去传输千兆字节的数据。咱们领有应用处事器、GPU 和对象存储,它们齐位于吞并个机架顶部交换机下。但推理延伸似乎并不要紧,是以阛阓并不暖热。
除此以外,只是筹议到那些暖热GPU 而不是LLM 的系统工程师:这里的硬件产物/阛阓匹配绝顶厄运。
从事严肃AI 职责的东说念主需要遍及的GPU 筹算。关于他们来说,一通盘企业级的A100 齐是一个折衷决议;他们想要的是H100 的SXM 集群。
据咱们所知,MIG 为你提供了一个UUID 来与主机驱动方法对话,而不是一个PCI 开导。
咱们觉得,可能存在一个面向使用袖珍GPU 进行轻量级ML 职责的用户的阛阓。这即是Nvidia MIG 所作念的,将一个大型GPU 切分红纵脱小的虚构GPU。可是关于澈底虚构化的职责负载来说,它还莫得熟习;咱们无法使用它。而且我不笃定有若干这么的客户,或者咱们是否能取得每个处事器所需的客户密度。
剩下的是L40S 客户。有好多这么的客户!咱们昨年镌汰了L40S 的价钱,并不是因为咱们对GPU 感到失望,而是因为它们是咱们库存中独一东说念主们似乎遍及使用的部件。咱们对它们很欢娱。但它们只是某些应用需要的一种筹算样式;它们并不是咱们中枢业务的驱能源。它们并不是咱们GPU 赌注的报告。
践诺上,通盘这些齐只是在说,关于大多数软件开发者来说,“启用AI”他们的应用方法最佳通过调用像Claude 和GPT、Replicate 和RunPod 这么的API 来完成。
咱们学到了什么?
看待一家初创公司的一个绝顶有用的方法是,它是一场学习的竞赛。那么,咱们的获利单若何呢?
率先,当咱们2022 年启动走这条路时,咱们(像许多其他公司相同)运行在一个有点像AI/ML 燃素期间的布景下。其时,行业对AI 的关注尚未围绕少数几个基础LLM 模子伸开。咱们守望会有多样种种的主流模子,就像Elixir Bumblebee 所期待的天下相同,东说念主们像使用Ruby gem 相同,从货架上获取不同的AI 职责负载。
可是Cursor 出现了,正如他们所说,一朝他们看到了Karl Hungus,你若何让他们回到农场呢?当今看来,事情的发展宗旨愈加了了了。
GPU 是对Fly.io 公司信条的一次磨练:当咱们筹议中枢功能时,咱们为10000 名开发者遐想,而不是为5-6 名开发者遐想。这花了少量时候,但信条在这里胜出:为第10001 名开发者提供的GPU 职责负载是一个小众的东西。
看待一家初创公司的另一种样式是将其视为一系列的赌注。咱们在这里参加了遍及的筹码。可是,参加这场比赛的买入给了咱们好多不错玩的筹码。永远不进行任何面容的大赌注并不是一个告捷的计谋。我愿意咱们径直输掉坚果牌,但我觉得参与这手牌是正确的选拔。
这里需要记起一件绝顶要紧的事情,我觉得好多初创公司的想考者齐忽略了这少量,那即是这笔赌注在多猛进度上触及到收购金钱。彰着,咱们在这里的一些资本是无法收回的。可是,那些莫得产生收入的硬件部分最终会被计帐;就像咱们领有的IPv4 地址组合相同,我更有信心进行有可来往金钱支撑的、具有握久价值的赌注。
最终,我觉得岂论咱们作念什么,GPU Fly Machines 齐不会对咱们产生庞杂的影响。正因为如斯,我绝顶欢笑咱们莫得为了它们而影响其他的产物。安全问题减缓了咱们的速率,导致咱们可能比正本不错的要晚几个月才了解到咱们需要了解的东西,可是咱们正在缩减咱们的GPU 贪心,而莫得葬送任何梗阻性,而且具有讥讽意味的是,其他东说念主运行的GPU 使得这个故事变得愈加要紧。咱们的Fly Machine 开发者体验亦然如斯。
咱们创办这家公司时,是为了构建一个用于边际筹算的Javascript 运行时。咱们了解到,咱们的客户并不需要一个新的Javascript 运行时;他们只是但愿他们的原生代码大略普通职责。咱们推出了容器,无需任何劝服。咱们对Javascript 边际函数的认识是罪状的,我觉得咱们对GPU 的认识亦然罪状的。不息,咱们齐是通过对好多事情的罪状意志来找到正确谜底的。
本文译自 The Fly Blog足球投注app,由 BALI 裁理发布。