
资料来源:有一系列技术:美国的筹码出口控制对NVIDIA有持续的影响。数据显示,在今年的前两个季度中,NVIDIA在中国市场的损失预计将达到125亿美元,其市场份额也从95%的高潮下降到当前水平的50%。 NVIDIA首席执行官Huang Renxun反复强调了中国市场的战略价值,这是由于市场共享的收入和考虑因素所致,而深层原因是挑战了全面的市场优势 - 当地芯片制造商的快速增长破坏了原始模式。随着H20出口许可的推迟,NVIDIA在7月启动响应计划的计划避免了Pait中的出口控制将减少分配和“ cast割”,并用B20,B40/B30替换H20,试图恢复市场共享以扭转其在中国运营的业务。特朗普此前曾告诉社交平台,他将发行NVIDIA许可证很快。在6月中旬,Acecamp发布了一项专业的调查分钟,称NVIDIA希望在7月份为中国市场推出H20 B20和B40/B30的替代品,其卡价格为6,500美元至8,000美元,并且服务器预计将在80,000美元至100,000美元之间。在几分钟内,Home International指出,新的B20和B40/B30基于GB202 GPU,用于RTX-Compumer RTX 5090和专业级RTX Pro 6000。内存使用GDDR7,分为24GB,36GB,36GB,48GB,48GB和其他版本。在连贯性方面,NVLLINK总线将B20连接为SA CX-8芯片,以生成一个与PCIE卡相当的离散模块,以实现PCIE互连,带宽为800GBPS,即100GB/s,适合于理解8-16张的小型型号的小型模型培训; B40/B30直接支持NVLINK互连,带宽为900GB/s,并采用了OAM形式。它可用于高密度诸如NVL72之类的群集,但由于计算性能和带宽的限制,群集性能不如H20(〜85%)。 Huang Renxun手里握着头皮,小心翼翼地剪了GPU。图片由AI形成。扩展全文
向大型制造商购买B40,在负担得起的-FUN IDC上选择B20
受到对美国出口控制的动态调整的影响,NVIDIA COSTUSETS SKU产品近年来已培养以应对该禁令。
如果B20按计划启动,则将是中国第三代“特殊产品”。前两代是基于Hopper体系结构的H20,H800和基于Ampere架构的A800。
与以前的H20一代相比,这一代产品已删除了HBM高带宽内存,带宽内存从4.8TB/s(HBM3E版本,HBM3版本,HBM3版本)下降,最高为1.5TB/S-1.7TB/s。直接影响是同时支持支持数量的减少。GDDR7已取代HBM以符合规定,这与美国美国部更新出口控制法规有关。2024年,美国商务部将HBM内存称为高级计算和人工智能应用程序的内存,以进行特殊控制。它需要HBM产品的记忆力为每平方毫米及以上的带宽密度为2GB/s。他们的出口和重新出口受到控制,涵盖HBM2,HBM2E和更高级的产品。
尽管删除内存是一种被动调整,但GDDR7应该是在此阶段防止控制线的最佳选择。 Qianxin董事长Chen Wei指出:“ GDDR7的带宽预计将超过1.5TB/s。尽管它不如HBM3E好,但通常的性能比A100的HBM2E更好,并且可以被视为4090的IDC版本。”
关于已修改以在GGDR7中使用的B20芯片,一位国内GPU从业人员提供了相反的评论,“计算的力量相对较低,内存和带宽的大小不能增加,而且性能比领先的公司更痛苦。”
相比之下,NVIDIA B40/B30可能会更加关注国内市场。关键是它保持NVLLINK与H20相同的互连功能,最大带宽为900GB/s。前面提到的国内GPU从业人员解释说:“ NVLLINK可以实现与Huawei Cloudmatrix 384结构相似的NVL72,NVL144等的扩展。”
作为一种特殊的中文版本,每次在列表的早期阶段启动时,都会引起疑问。 The H20 and H800 experience this stage, but eventually, due to the limited successors available to customers, as the product supply is gradually stabilizing, the doubts are gradually declining, and the "real law of taste" begins to play a role -some companies have yet to enter whenThe first five Nvidia customers worldwide through biG -scale获取。
2024年12月,《金融时报》报价来自市场机构Omdia的数据说,微软在2024年购买了总计485,000个Nvidia Hopper芯片,而BONTEDANCE以230,000的价格排名第二。路透社今年4月报告说,包括字节和阿里巴巴在内的中国技术公司在今年的第一季度购买了总计超过160亿美元的H20芯片,相当于超过1,160亿卢比。
来自大型制造商的算法工程师:“ B40(性能)应小于H20,并且价格相同。作为一张卡,您可以购买而没有很多选择,仍然有需求。”
Chen Wei认为,根据当前的新闻酌处权,选择B20和B40/B30的不同客户将具有不同的趋势。 “ B20网络的有效带宽低于B40/B30。考虑到模型大小变大的模型,B40/B30是富裕制造商的选择,而Parity IDC制造商可能倾向于B20.”
NVIDIA的焦虑和家庭问题
Huang Renxun和整个硅谷都焦虑,强调过度监管将影响美国筹码的竞争力,并为中国的竞争对手创造机会。共享市场共享从95%到50%是一个非常直观的卷指标。
前面提到的国内GPU从业人员特别提供了芯片硬件,以拒绝收缩的影响,透露,一些主要的制造商在比较占据了比较后加速了该国的发展。 “考虑到将来供应的安全性和稳定性,您应该尽快进口国内产品,但是目前,公司仍然在NVIDIA供应中运气。”
他认为,在该国生态系统之外漫游的公司与实施转移该国生态系统所需的业务的额外成本和速度有关。 “最初,使用NVIDIA解决方案,进口新(国内)解决方案可以带来额外的投资,但可能没有太多收益,因此可能会引起人们的关注。”
NVIDIA产品性能简报为国内产品带来了机会,但国内产品也有自己的困难。
上述大型制造商制造商的算法工程师说:“国内卡计算的lakas仍然是可能的,但是仍然有一些生态和群集需要改进。”
NVIDIA生态系统是CUDA的主要关键字,它提供了一个编程和丰富代码基础的单一模型,并且与NVIDIA硬件系统和AI的主要框架具有很大的兼容性,因此开发人员易于使用。目前,国内GPU通常会促进与CUDA生态系统的兼容性,并帮助开发商移动。
Chen Wei说:“ NV的生态垄断仍然存在,但他认为国内中高端GPU的挑战还包括高级过程。
据公众称信息,GPU国内过程的当前上限为7nm。受禁令的影响,自从去年TSMC自我检查事件以来,它没有为Thosemainland客户的7nm AI芯片提供铸造服务。
Chen Wei说:“中高端国内卡在短期内受到劳动力和劳动力的限制,甚至EDA工具最近也发生了变化。”
EDA工具的敌人与谣言有关三个摘要巨头,电子和西门子最近被暂停在中国大陆。作为“芯片之母”,EDA软件不仅用于半导体设计中,而且还广泛用于许多晶圆的链接以及包装和测试,包括收益率预测,信号测试等。
计算能力的A和B方面
数字油,吞咽黄金的动物
8卡B40/B30Server的单位价格是Exp估计约为100,000美元(约合700,000元人民币)。由于NVL72扩展的支持,开发B40 NVL72机柜的硬件成本将超过600万元。
“ B40的TCO(所有者总成本)与H20相似,这并不吸引人。”上述国内GPU从业人员说。
作为上一代筹码专门提供给中国的筹码,H20是在今年年初由Deviceek Boom驱动的,一旦互联网公司和金融机构匆匆忙忙。 “ 8卡H20服务器的价格从880,000元人民币上涨到105万元。由于成本低和合规,大型制造商购买了数千辆。”先前揭示的GPU分销商。
如果按服务器操作状态除以,如果B40的B40或880,000元的H20为700,000元,则全部是静态Gastos。说到它,它将带来巨大而苛刻的轰动。还具有高动态成本。
B40 NVL72驾驶室的动态成本INET分为质量,操作和维护,软件许可,能源消耗等的保证,预计超过700万元。仅根据50千瓦的单个机柜的能源消耗估算电费(基准的400瓦H20 H20单卡 + CPU +开关等的硬件消耗量),年度能源消耗接近440,000 kWh,并且基于平均价格为1 KW 440,000 Yuan。
静态成本 +动态成本,年总成本接近1300万元人民币,平均阳光成本超过36,000元。识别B40的计算强度可以达到H20的85%,单个FP16卡的后者计算值0.148p的强度,而B40 NVL72的总计算强度约为9便士。
每年1300万元的成本只是一个解决方案,具有有限的计算强度,例如B40 NVL72。如果由H100取代,则静态 +动态成本将很大。
根据Informati在ServeHeHome揭示的情况下,Musk的Colosus AI超级计算机群集使用基于HGX H100服务器的自定义超大型橱柜。单个服务器接收8 H100 GPU。每个机柜可以容纳8台服务器,共有64 H100 GPU。它可以提供64p FP16计算能力,静态硬件成本超过2000万元。
这样,旺加H100群集的静态成本通常被提及超过30亿元人民币,在基于硅的时期,它可以称为金动物。
ANG的高成本使计算能力在巨型技术的游戏中变得更加有趣,并且对于某些大学,研究机构和初创企业来说,很难生成大型的自动系统。
在今年的Zhiyuan会议上,Zhiyuan研究所董事长Huang Tiejun教授透露:“该学校现在没有权力,即使没有一百张牌,而且学生也没有很多练习的机会。甚至Zhiyuan也有A一定的计算能力,只有1,000便士和一公斤的水平,只有一公斤。
黄·特琼(Huang Tiejun)说:“在开发了智能计算平台之后,给学校和这些才能更多的基本资源和条件很重要。就像关于物理,化学和生活的研究一样。如果没有切割工具,就无法完成许多工作。”
谁会在他的背后硬盘驱动器出海?
整个中国市场上智能计算中心的建设一直存在,但是计算的先进能力仍面临出口控制,公司已开始尝试在国外培训大型模型以提高效率。
最近,《华尔街日报》报道说,一家中国公司使用外国分支机构租用300台当地服务提供商的服务器,并安排工程师将4,800TB的商业数据带到海外进行模型培训。
使用潜艇租用本地计算机培训模型的示意图IDIARIES/海外分支机构/会员公司资料来源:WSJ
可以使用企业数据来训练自己的模型,但是ITO的习惯处理了美国控制法规的法规?
在2024年初,拜登政府讨论了对中国公司获得美国云计算服务的限制的审查,但最终并未实施。换句话说,只要训练模型不用于敏感目的,就可以按照敏感的目的进行。
“目前,这种风险正在限制与军事有关的训练,并且普遍的平民使用不受限制,”服从Gamen的从业者说。
通过租赁海外云工厂提供的计算的高级计算能力需要合规性支持,以及CHI的数据流NESE公司还需要合规。
北京风口律师事务所的合伙人Liu Xing认为,从《华尔街日报》报道的案件中判断,公司禁止将自己的数据带到国外。 “应向安全评估提交具体数据。如果不涉及“重要数据”和个人信息,则评估要求通常不符合上述合规从业人员也不一致。他认为,根据法规的要求,对否定的公司做出了很好的态度,不会产生隐私和敏感数据。
Liu Xing补充说:“ GE Datane,调查和MAMAPED数据,导出技术数据,安全数据等都是重要的数据。”
尽管在技术和法规方面,海外计算能力的使用路径可能是可以训练大型模型的,但可以匹配的实际业务情况是有限的。
“目前,大P的演变该模型中的Ractice大约是许多主要参与者(不需要在国外使用计算能力)。尽管现在正在进行智能驾驶算法培训,但使用AWS和Azure等海外CSP的风险太高了。即使您出国也无法工作。”上述国内GPU从业者说。
刘明认为,许多巨头互联网巨头是“不良结构的主要不良运营商”,并且遵守“数据安全评估”中设定的应用程序。“国家管理更加困难,大公司可能会更加谨慎地进行(去参加海外培训模型)。
正如Chen Wei的外观一样,将数据带到国外进行模型培训是访问更先进的计算能力的优势。数据没有访问互联网。通常,无需担心数据泄漏的风险。它更适合中小型工厂,这些工厂是业内大型模型。
“E原始文本以300台单位编写,最初的预测为H100,约2,400张卡片。” Chen Wei说。“ DeepSeek接受了2048张卡片的培训,主要制造商可以使用Wanka簇进行培训。