普通用户仅需输入一句文字,便能够直接生成一段媲美好莱坞画面的精彩视频,随着Sora、Gen-2、Pika等视频生成类AI工具的横空出世,AI视频已进入大规模应用前夜。但节节攀升的算力需求也接踵而至,我们不仅面临研发时模型训练和应用时"文本-视频"数据逻辑配对的AI算力挑战,还需搭建视频渲染生成时的图像处理算力。
视频生成时的算力需求远超过文本及单一图像。生成一个最基本的普通流畅视频,动态完整呈现下需保证每秒至少达到30帧,也就是一秒钟的视频就需要30个图像画面加以支撑。从图片到视频,算力增量达到了几十倍。
目前Sora可以生成最多60秒的视频,这就对应到了1800个画面,同时还面临大量复杂的3D场景建模,实时光影变化等挑战,算力要求的苛刻程度可见一斑。
为更好应对视频生成类AI日趋"逼真"的技术倒逼,在此为您推荐一款专业面向视觉运算工作的高性能宝藏GPU——NVIDIA L40。
在画面生成的图形计算中,图形渲染、计算着色器和其他图形相关任务主要由CUDA core负责,RT core对光线和声音进行高速渲染,Tensor core则专注于提高动态图形分辨率和光线追踪性能。NVIDIA L40拥有18,176个CUDA core,568个Tensor core,142个RT core,能够轻松应对复杂图像及场景的渲染任务。
当视频场景中包含大量复杂的3D模型时,我们便需保证有足够的显存空间用于存储模型数据和纹理信息,同时渲染图像分辨率及抗锯齿级别、阴影质量、光线数量、折射材质等参数的提升,也将大幅增加显存空间占用。当显存不足时,视频的整体渲染速度将面临大幅降低。NVIDIA L40单卡显存达48 GB,无惧视频越来越逼真下的显存挑战。
在渲染复杂图像和视频时,具备高显存带宽的GPU能够实现计算芯片与显存之间更快的数据传输,直接影响视频渲染的整体效率。NVIDIA L40采用GDDR6内存,显存带宽达到了864 GB/s,数据的高速传输有效保证了视频的整体渲染效率。
并且,NVIDIA L40支持材质的加速光线追踪和路径追踪渲染,能够助力视频生成AI实现物理属性的准确仿真,带来更加逼真的画面呈现。
目前,虽然Sora在模拟基本物理交互时仍存在许多局限性,但其带领着"文生视频"类AI向前迈进了至关重要的一步,向我们证实了继续扩展视频模型是开发物理和数字世界模拟的有径之途。我们相信,在强大AI硬件的支撑下,能够深度理解和模拟真实世界的"世界模型"必将与我们相见。