首页 > 科技 >

如何通过扩展实现AI工作流程可扩展性

发布时间:2024-10-30 15:12:33来源:

当今技术向AI模型训练和海量数据集AI推理的技术转变为高级HPC设计带来了独特的挑战。随着传感器和网络技术的发展,数据变得越来越复杂,以相同速率或更快速地处理数据的需求也在增长。在数据科学界,在新数据集上训练模型所花费的时间可能对最终应用程序的有用性,获利能力或实施时间表产生滚雪球式的影响。对于AI推理平台,必须实时处理数据,以做出瞬间决策,以最大化效率。在不影响数据集大小的前提下,扩展模型训练速度的最佳方法是添加模块化数据处理节点。

在AI的世界中,获得更多计算能力的途径是在计算结构中拥有更多GPU。可以添加到AI培训平台的每个GPU都可以提高整个系统的并行计算能力。但是,许多AI计算平台在关键方面都受到限制,例如可用功率,冷却,扩展插槽和机架空间。在这些情况下,数据科学家希望使用旨在满足其数据集可伸缩性需求的PCIe扩展系统。PCIe扩展系统提供了一种模块化且可扩展的方式,可以以密集,受控和可靠的尺寸将GPU添加到计算结构中。

OSS 4U Pro GPU加速器系统连接到一个或多个主机节点,从而为最新的NVIDIA A100 Tensor Core GPU添加了8个PCIe Gen4 x16扩展插槽。A100 GPU可以单独使用,也可以使用NVIDIA®NVLink™桥物理链接,以利用NVLink 600 GB / s的互连吞吐量。4U Pro系统最多使用四个PCIe Gen4 x16主机总线适配器,以高达128 GB / s的速度将数据传入和传出计算加速器。4U Pro的高级功能包括冗余交流或直流入口电源,IPMI系统监控,动态风扇速度控制。可配置的主机/ NIC插槽为具有任何吞吐量或配置要求的一系列AI计算应用程序提供了灵活性。此外,

免责声明:本答案或内容为用户上传,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 如遇侵权请及时联系本站删除。