咱们平素以为很可乐,任何人都能掌控一个开源项目。但这种情景确实会产生,由于归根结底,人们必要挣钱养家生存,而总得有公司来付出这些工资。
有时,开源项目会出于利他主义和明智的利己主义而取得援救,Linux 内核便是一个知名的例子。为了使其成为摩登企图界限实情上的类 Unix 操作体系,Linux 内核必要实行加强和扩展。但企业和其他类型的企图机构大凡不肯为这类开源项目供应自庇护援救,因而,项目背后大凡会有一家贸易实体,将其整合为产物并供应本领援救。Red Hat Enterprise Linux,以及正在较小水平上,SUSE Linux、CoreOS(现已并入 Red Hat,是其 OpenShift Kubernetes 容器把持体系的根底)、CentOS(已被 Red Hat 收购,并促成了 Rocky Linux 的降生)和 Canonical Ubuntu,都是获取贸易援救的 Linux 发行版的常睹途径。云办事大凡具有己方的 Linux 发行版,以至 Nvidia 也为其 AI 体系定制了 Ubuntu 版本,假使其他发行版也通过集成 Nvidia 驱动措施取得了援救。
近年来,英伟达更合怀其体系集群的把持方法,而非特定节点上的底层操作体系。正因云云,英伟达正在2022年1月斥资收购了Bright Computing,后者是Bright Cluster Manager的开垦商,收购金额未公然。当时,Bright Computing已实现两轮融资,共筹集1650万美元,其集群处分东西BCM正在环球具有超出700家用户。BCM最初是为处分守旧高机能企图(HPC)体系而策画的,但众年来,为了将其打形成为一款通用集群把持器,BCM也实行了适配,以援救Hadoop、Spark、OpenStack、Kubernetes和VMware ESX等对把持哀求极高的散布式体系。
收购实现后,英伟达将该东西从头定名为 Base Command Manager,并将其集成到 AI Enterprise 软件旅馆中。这意味着,英伟达通过 AI Enterprise 许可证获取了本领援救,该许可证包蕴英伟达系结并援救正在其 GPU 加快体系上的库、框架和其他东西,每个 GPU 每年的用度为 4,500 美元。
英伟达体现,其产物目前正在环球拥罕睹千套装配案例,但这明确不包罗该公司免费供应的 BCM 许可证。这些许可证用于处分任何范畴横向扩展集群中每个节点最众包蕴八个 GPU 的 GPU 集群。英伟达警觉称,这种免费许可证不供应任何本领援救,而且随时大概被打消。因而,企业大凡不会允许将愿望依靠于该公司。
英伟达为 BCM 供应了一个名为 Mission Control 的叠加层,它可能主动安置组成其所谓的“AI 工场”的框架、东西和模子。该工场刻意解决或制作代币。Mission Control 包蕴Run.ai 告竣的 Kubernetes,用于编排容器;还包蕴 Docker,用于正在容器内运转企图;其它,它还可能虚拟化 GPU,以供应更细密的企图粒度。Mission Control 会对体系实行壮健检验,并依据体系上运转的任务负载优化功耗。
但就高机能企图 (HPC) 和人工智能 (AI) 任务负载的裸机任务负载处分而言,英伟达已经必要一款东西。实情证实,BCM 恰是履行这些壮健检验的东西,而办理题目的操作则通过 Slurm 任务负载处分器实现。正在英伟达收购 Bright Computing 之前,BCM 援救差异的任务负载处分器,但跟着 Slurm 渐渐成为高机能企图核心以致人工智能界限任务负载处分的实践准则,它被选为 Bright Cluster Manager 的默认任务负载处分器,并正在过去四年中平素是英伟达 Base Command Manager 的默认任务负载处分器。
这宛若意味着很众高机能企图和人工智能机构不思练习新东西——譬喻 Run.ai——而是思持续运用 Slurm。对待那些最初以高机能企图核心发迹的混淆型人工智能/高机能企图核心来说,这种情景大概尤为出色。
行动环球最首要的IT供应商,英伟达自己也相当重视把持,这一点无须置疑。2024年10月,英伟达停滞独自发售Bright Cluster Manager,而仅将其行动AI Enterprise Stack的一部门供应。目前尚不大白AI Enterprise的代价是高于仍然低于之前独自购置Bright Cluster Manager的许可,也不大白有众少客户曾正在纯CPU体系或其他类型的加快器上运用过这款早期东西。
这就引出了英伟达收购 SchedMD 的话题,SchedMD 已向环球数百家 HPC 核心、云修建商、超大范畴数据核心和企业发售了 Slurm 任务负载处分器的援救办事。
据称,Slurm 的策画灵感来历于超等企图机互连筑造制作商 Quadrics 开垦的 RMS 集群资源处分器。Slurm 最首要的上风正在于,过去十年中,正在 Top500 超等企图机排行榜上显露的企图机中,约有 60%(代外数千台呆板)运用 Slurm 行动其任务负载处分器,而不是 IBM/Platform Computing 的负载共享东西 (LSF)、Altair 的便携式批解决体系 (PBS)、Adaptive Computing 的 Maui 和 Moab 以及 Sun/Univa Grid Engine。一起这些任务负载处分器/功课调理器都市将一组具有特定企图才干需求的任务负载实行“俄罗斯方块”式的调理,最终使它们根据既定的优先级依次高效运转。
过去十年,Nvidia 和 SchedMD 平素正在协作开垦 Slurm,但两边正在联结声明中并没有揭示太众音讯,然而 Nvidia 体现,它将“持续开垦和分发 Slurm,使其成为开源、厂商中立的软件,使其正在各样硬件和软件境况下都能被更通俗的 HPC 和 AI 社区通俗运用和援救”。
但即使 Slurm 开源,也不料味着英伟达会为开源版本的代码供应援救,或者将 Slurm 的一起异日性能都开源。(英伟达具有大批专有驱动措施、框架和算法。)英伟达已答允为 SchedMD 的现有客户供应援救,据臆想,他们将通过聘任 SchedMD 的员工来告竣这一点。
目前尚不大白的是,Run.ai 和 Slurm 的性能将何如与 Base Control Manager 整合,从而为高机能企图 (HPC) 和人工智能 (AI) 集群供应一个自上而下的集群和任务负载处分东西——况且不光限于 AI 集群,还要研讨到很众集群中大概存正在少许仅运用 CPU 的呆板以及非英伟达加快器。愿望 Slurm 的代码不光或许依旧开源,况且其援救界限也能特地通俗。
要是 Nvidia 试图以任何方法控制它,其他人可能获取 Slurm 代码(该代码以 GNU GPL v2.0 许可证供应),实行 fork 并持续开垦。
那么,下一个题目是:英伟达现正在是否也必要将其贸易化的 Kubernetes 集成到 AI 企业级旅馆中?Mirantis 公司仍旧将 OpenStack 云把持器拆分并封装到容器中,并创筑了己方的 Kubernetes 告竣,该公司仍旧与英伟达展开了大批协作,包罗将 Kubernetes 集成到 BlueField DPU 上。