2000 亿参数大模型直接在办公桌上跑
就在刚刚,老黄穿着全新的皮衣,在CES上一波接一波放大招。
先是发布了自家最新的 GPU ——RTX 5090。
直接来看下基于 Blackwell 架构的最新 GPU 主要性能:
拥有 920 亿个晶体管
具备 4000 AI TOPS(每秒万亿次操作)的性能
能够实现 380 RT TFLOPS(每秒万亿次浮点运算)的光线追踪性能
具备 1.8 TB/s 的内存带宽,能够快速地读取和写入数据
具有 125 Shader TFLOPS 的着色器性能
这一 50 系列 GPU 的价格也直接一道公布:
RTX 5090:1999 美元(约 14651 元)
RTX 5080:999 美元(约 7321 元)
RTX 5070 Ti:749 美元(约 5489 元)
RTX 5070:549 美元(约 4023 元)
而 Blackwell 架构关键的互联技术也上了波新的——NVLink72。
依旧是快速来看下主要性能亮点:
72 个 Blackwell GPU 具备 1.4 ExaFLOPS TE FP4 计算能力
晶体管数量达到 130 万亿
拥有 2592 个 Grace CPU 核心
72 个 ConnectX - 8 网络接口卡
576 个存储芯片,总容量 14TB,带宽 1.2PB/s
18 个 NVLink 交换机,全连接带宽 130 TB/s
非常有意思的是,老黄现场还手持巨大的样品,宛如一个盾牌,开始了整活儿:
除此之外,AI 超算,现在迎来了 PC 时刻。
因为就在刚刚,老黄一道还发布全球最小的个人 AI 超级计算机——Project Digits。
有多强悍?
2000 亿参数的大模型,直接在你办公桌上(自己的桌面系统)就能跑!
如果把两台 Project Digits 一块 " 食用 ",那么还可以跑4050 亿参数的大模型。
据了解,每个 Project DIGITS 配备了 128GB 统一、相干内存和高达 4TB 的 NVMe 存储,仅需标准电源插座即可运行。
并且在桌面系统上对大模型搞完开发或推理之后,还可以无缝部署到加速云或数据中心基础设施里。
正如老黄在现场所说的那样:
AI 将成为每个行业、每个应用的主流。
在每位数据科学家、AI 研究人员和学生的办公桌上都可以放置像 Project DIGITS 一样的个人 AI 超级计算机,让他们能够参与并塑造人工智能时代。
而且 Project DIGITS 不用等太久哦,今年 5 月份就会开始提供,起售价3000 美元(约 21978 元)。
那么 Project DIGITS 又是如何做到又小又彪悍的呢?
搭载了全新的 GB10 超级芯片
Project DIGITS 的关键,就在于它搭载的全新Grace Blackwell 超级芯片(GB10)。
这个系列芯片想必大家并不陌生了,基于 Grace Blackwell 架构,是一款片上系统(SoC)。
在 FP4 精度下可以提供高达1 千万亿次浮点运算的 AI 性能。
GB10 包含了英伟达 Blackwell GPU(具有最新一代 CUDA 核心和第五代 Tensor Cores),通过 NVLink-C2C 芯片到芯片互连连接到高性能 NVIDIA Grace CPU(采用 Arm 架构的 20 个节能核心)。
据了解,联发科参与了 GB10 的设计,对提升能效、性能和连接性等方面起到了一定作用。
基于这样的架构,企业和研究人员可以在本地运行 Linux 系统的 Project DIGITS 上进行模型原型设计、微调与测试,再部署到 NVIDIA DGX Cloud 等上面。
用户还可以访问因为大的 AI 软件库,包括 NGC 目录和开发者门户中的软件开发工具包、编排工具、框架和模型等,可用 NVIDIA NeMo 框架微调模型、NVIDIA RAPIDS 库加速数据科学,运行 PyTorch 等常见框架。
还可利用 NVIDIA Blueprints 和 NVIDIA NIM 微服务构建智能 AI 应用;据了解,从实验到生产环境时,NVIDIA AI Enterprise 许可证提供企业级安全等支持。
允许商用的世界基础模型 Cosmos
与此同时,老黄还宣布英伟达将开源允许商用的世界基础模型——Cosmos。
Cosmos 平台既包括用于生成物理世界合成数据的扩散及自回归 Transfomer 模型,还有视频 Tokenizer 以及用来加速视频处理的管道。
其中,Cosmos 基础模型在 2000 万小时的驾驶和机器人视频数据上训练而成,主要用来加速自动驾驶和下一代机器人训练研发。
开发者既可以用 Cosmos 生成物理合成数据,也可以用英伟达 NeMo 框架 + 私有视频数据进行微调。
而如此发布也是基于目前 AI 技术的发展大势。
具体而言,本次 CES 大会上,老黄一共介绍了三类模型:
Nano:超低延迟的实时模型,优化用于边缘部署;
Super:高性能基线模型,适用于开箱即用的微调和部署;
Ultra:最高准确度和质量,适合模型定制;
据介绍,这些模型的参数大约为 40 亿 ~140 亿,任何企业无论规模大小,都可以自由使用 Cosmos 模型。
目前已公布的第一批试用者包括机器人公司 1X、Agility Robotics,以及自动驾驶领域的 Uber、小鹏、比亚迪等。
对了,老黄这次特意官宣丰田将基于英伟达芯片和操作系统开发下一代新能源汽车。
从用法展示来看,Cosmos 已经能够帮助工业界和自动驾驶生成大量数据,从而加速相关 AI 技术研发了。
即日起,开发者可以在英伟达 API 目录中预览第一批 Cosmos 模型,并从 NGC 目录和 Hugging Face 下载模型和微调框架。
另外,Cosmos 也为进一步扩展 Omniverse(英伟达工业数字化和物理 AI 仿真平台)提供了新的可能。
开发者可在 Omniverse 中构建 3D 场景,渲染输出后用于 Cosmos 模型生成合成虚拟环境,最终用于物理人工智能训练。
还有比较壮观的场面,就是老黄站在一排机器人的中间,颇有具身智能 boom 时代的意味。
还有两个新模型服务
除了非常 fashion 的世界模型之外,老黄这次还发布了两个大方向的模型服务。
一个是AI 基础模型,主要适用于 RTX AI PC,主打的就是轻松、灵活开发。
具体而言,通过连接到图形用户界面(GUI)的NIM 微服务,用户可轻松访问和部署最新生成式 AI 模型。
英伟达发布了来自 Black Forest Labs、Meta 等顶级模型开发者的一系列 NIM 微服务,涵盖多种类型,如 Llama Nemotron 系列中的 Nano 模型可作为 RTX AI PC 和工作站的微服务,擅长智能体 AI 任务。
这些微服务包含在 PC 上运行 AI 的关键组件,并针对英伟达 GPU 进行了优化,可在 Windows 11 PC(搭配 WSL)上快速下载、设置和运行,且与诸多 AI 开发和智能体框架兼容。
NIM 微服务之外,AI 蓝图(AI Blueprints)也即将在 PC 上可用。
AI 蓝图是基于 NIM 微服务构建而来,主要为数字人类、内容创作等提供预配置参考工作流程。
例如 PDF 转播客蓝图可提取 PDF 内容生成脚本及音频,3D 引导生成式 AI 蓝图能让艺术家利用 3D 场景更好地控制图像生成。
具体到产品,英伟达预览了Project R2X,这是一个具有视觉功能的 PC 虚拟形象,可通过 NVIDIA RTX Neural Faces 算法渲染面部,并由新的 Audio2Face - 3D 模型驱动动画,能连接多种 AI 服务和微服务。
据了解,从今年 2 月开始,NIM 微服务和 AI 蓝图就可以使用了,多家 PC 制造商和系统构建商将推出支持 NIM 的 RTX AI PC。
同样是基于 NIM 微服务,英伟达这次还推出了Nemotron 模型家族,包括:
Llama Nemotron 大型语言模型
Cosmos Nemotron 视觉语言模型
这两个大模型则是更倾向于AI 智能体方向。
Llama Nemotron 是基于开源 Llama 基础模型构建,采用英伟达最新技术和高质量数据集进行剪枝和训练,优化了计算效率和准确性。
擅长指令遵循、聊天、函数调用、编码和数学等,尺寸经过优化可在多种英伟达加速计算资源上运行。
尺寸方面同样包含 Nano、Super 和 Ultra 三种大小:
Nano 成本效益高,适用于低延迟实时应用和 PC 及边缘设备;
Super 在单个 GPU 上提供高吞吐量和高精度;
Ultra 为数据中心规模应用设计,精度最高。
Cosmos Nemotron 视觉语言模型则是结合了英伟达的 NIM 微服务,可以让开发者构建能分析和响应图像及视频的智能体,应用于多个领域。
One More Thing
就在老黄登上 CES 之前,英伟达股价又又又创下了历史新高!
涨幅超 3%,收盘价为 149.43 美元(高于去年 11 月 7 日创下的每股 148.88 美元收盘纪录),最新估值达到3.66 万亿美元,成为仅次于苹果的全球第二大上市企业。
△图源 @YahooFinance
不知道这次发布的东西是否符合大家的期待捏?
还没有评论,来说两句吧...