英伟达在NVIDIA GTC 2025上宣布,其NVIDIA Blackwell DGX系统创下DeepSeek-R1大模型推理性能的世界纪录。在搭载了八块Blackwell GPU的单个DGX系统上运行6710亿参数的满血DeepSeek-R1模型可实现每用户每秒超250 token的响应速度,系统最高吞吐量突破每秒3万token。
随着NVIDIA平台继续在最新的Blackwell Ultra GPU和Blackwell GPU上突破推理极限,其性能将会不断提高。例如,在运行TensorRT-LLM软件的NVL8配置的NVIDIA B200 GPU上,单节点配置为DGX B200(8块GPU)与DGX H200(8块GPU),测试参数为输入1024 token / 输出2048 token;此前测试为输入/输出各1024 token,计算精度方面,B200采用FP4,H100/H200采用FP8精度。
自2025年1月以来,通过硬件和软件的结合,英伟达成功将DeepSeek-R1 671B模型的吞吐量提高了约36倍。节点配置包括DGX B200(8块GPU)、DGX H200(8块GPU)以及两个DGX H100(8块GPU)系统,测试参数依然采用TensorRT-LLM内部版本,输入1024 token / 输出2048 token,并发性MAX,计算精度方面,B200采用FP4,H100/H200采用FP8精度。
与Hopper架构相比,Blackwell架构与TensorRT软件相结合实现了显著的推理性能提升。DGX B200平台在运行TensorRT软件并使用FP4精度时,与DGX H200平台相比提供了3倍以上的推理吞吐量提升,适用于包括DeepSeek-R1、Llama 3.1 405B和Llama 3.3 70B在内的多个模型。在对模型进行量化以利用低精度计算优势时,确保精度损失最小化是生产部署的关键。在DeepSeek-R1模型上,相较于FP8基准精度,TensorRT Model Optimizer的FP4训练后量化技术在不同数据集上仅产生微乎其微的精度损失。
1月28日,全球多家科技巨头因DeepSeek的技术进步而受到影响,英伟达的股价在美股市场收跌16.86%,每股报18.58美元
2025-01-28 18:22:15英伟达称DeepSeek离不开其芯片当地时间1月27日,美国股市开盘即大幅下跌,科技板块尤为惨重。市场分析认为,核心原因是中国人工智能初创公司DeepSeek的最新突破,动摇了美国科技行业的“无敌”地位。
2025-01-28 07:17:05美股英伟达发表声明表示,中国人工智能公司深度求索(DeepSeek)取得的进展显示出其芯片在中国市场的实用价值。为满足DeepSeek的服务需求,未来将需要更多英伟达芯片
2025-01-28 11:24:53英伟达英伟达在DeepSeek冲击之下,凭借多个超预期表现再次给投资者带来了信心。财报显示,英伟达第四财季实现营收393.31亿美元,同比增长78%,高于市场预期的380.5亿美元
2025-02-28 18:41:01DeepSeek继续给巨头上压力