5月5日,特斯拉发布人形机器人"擎天柱(Optimus)" 最新进展视频,展现了其分拣电池、行走、执行工厂任务的能力,并配文"最近正在努力变得有用"。机器人发展"新奇点"的出现,背后离不开大模型技术支撑。
大模型的出现彻底颠覆了机器人的软件开发范式,预训练赋予了大模型知识压缩的能力,因此模型可以通过大规模的预训练实现高泛化能力,不仅可以覆盖绝大多数小概率场景(corner case),同时也降低了算法开发的复杂度。
随着大模型多模态能力的持续迭代,大模型在具身智能领域的技术供给可以分为三个阶段:
1)短期阶段:以大语言模型(LLM)为主,LLM可以赋能人形机器人和人之间的交互,大幅度提高服务场景的智能化水平;但LLM无法参与机器人的规划控制,所以无法在动作控制方面施加影响力;
2)中期阶段:图像-语言模型(VLM)有望赋能具身智能系统,直接参与机器人的决策规划系统,但由于缺少动作模态,所以决策系统与控制系统契合度较低;
3)远期阶段:图像 -语言-动作多模态模型(VLA)。把动作作为模态融合进入大模型,得到了高度泛化能力和思维链能力的VLA,VLA模型成熟之后可基本实现具身智能功能。
大模型是"大算力+强算法"相结合的产物,是人工智能的发展趋势和未来。与传统机器学习相比,深度学习是从数据中学习,而大模型则是通过使用大量的模型来训练数据。深度学习可以处理任何类型的数据,例如图片、文本等等;大模型可以训练更多类别、多个级别的模型,因此可以处理更广泛的类型。
大模型的构建及优化离不开训练和推理两大基石。训练以其对数据集和算力资源的庞大需求为我们所熟知,是大模型构建的基础,通常需要数据中心级别算力支撑;训练可以提高模型的表示能力和泛化能力,使其能够更好地使用各种实际情况。
推理,则是大模型优化和应用的关键。通过推理,开发人员可以定位模型中的潜在问题,如过拟合、欠拟合等,从而针对性地进行调优和优化,提升模型的性能。并且,推理不需要和训练一样循环往复的调整参数,因此对算力需求也会低很多。
大模型训练调优"赛程过半",推理随着效率的不断提高,逐渐展现于"聚光灯下"。超集信息针对大模型推理场景,推出了强大的企业级高性能GPU工作站——ServMAX® TS60-X4。
相较市场主流高性能工作站,TS60-X4在超集信息强大的产品设计能力下,实现高密集成,完成了单机4卡的算力限制突破,在双路4th/5th Gen Intel® Xeon®平台下最高可支持6张 450W 3.5宽GPU搭载。
提升算力同时,TS60-X4通过风道优化,保障了高效散热。在30℃环温的满载压力测试中,机内关键算力芯片及内存温度均全程低于散热阈值,有效规避过热带来的降频等问题。
并且,大模型推理时不仅需要将数据量极大的大模型加载到内存中,而且为避免使用外存进行存储和读取,造成推理降速,还需将输入数据和输出结果也都完全加载到内存中,因此需要占用大量内存空间。TS60-X4拥有高达16个DDR5 DIMM内存插槽,内存容量最高可达1TB,可有效满足推理场景下的需求。
随着人工智能技术研究的深入及应用场景的扩展,推理技术备受推崇,迎来了更为广阔的发展空间。未来,推理也将与其他技术相结合,在更多领域实现更广泛应用,进一步推动人工智能领域的创新和进步。