
chhidongxi汇编| Cheng Qian编辑| Xinyuan Zhidongxi在6月18日报道说,今天早上,Google宣布了整个Gemini 2.5模型系列已更新:Gemini 2.5 Pro和Gemini 2.5 Flash发布并进入了Stabil Operation Stage,并且启动了Gemini 2.5 Flash-Lite-Launched Preview版本。这意味着Gemini 2.5 Pro和Gemini 2.5 Flash从官方版本的官方版本的实验预览中发生了变化,并且可以放置在业务应用程序中。 Gemini 2.5 Flash Lite在编程,数学,科学,推理和多模式基准测试方面的全面超过2.0闪光灯,其工作的延迟低于2.0 Flash-Lite和2.0 Flash。 Google称此型号为最触及,最快的2.5系列模型。 ▲Gemini 2.5 Flash Lite基准测试结果展开全文
同时,在LMARENA的最新排名中,Gemini-7.5-Flash-lite文本12排名,分为类别,即Creativ的等级e编写第三个编程14排名,并排名第17个小费。
在LMARENA发布的成本有效性图表中,Gemini 2.5 Pro得分比Gemini 1.5 Pro高120点以上,该分数高于OpenAI,XAI和Anthropics的其他主要模型。
▲比较LMARENA发布的基本模型的成本图表效应
在价格方面,Gemini-7.5-Flash-lite比Gemini-7.5-Flash便宜30%-60%,其输入价格为0.1美元,美国的产出价格为0.4美元(相当于2.9元)/百万个代币。
Google还宣布了最新的Gemini 2.5 Flash定价,该模型的想法和难以想象的价格为0.3美元的输入价格(相当于最多的RMB 2.2)/百万个代币和2.5美元的输出价格(相当于几乎相当于17.9 rmb 17.9)/百万个代币。
Google博客指出,销售和Gemini 2.5 Pro的请求继续变得更强大,这是他们所看到的所有模型中最高的。在这个基础上IS,研究人员已经建立了该模型的06-05版本,并保持了与以前相同的降低帕累托价格的点。
如果开发人员使用Gemini 2.5 Pro Preview 05-06,则该模型将继续可用,直到2025年6月19日,然后将关闭。如果使用Gemini 2.5 Pro Preview 06-05,则仅将字符串模型更新为“ Gemini-7.5-Pro”。
Mini 2.5 Flash-Lite预览现在已在Google AI Studio和Vertex AI上使用,它还提供了2.5 Flash and Pro稳定版本。双子座应用程序都可以访问2.5 Flash和Pro版本。 Google还引入了2.5 Flash-Liteand Flash的自定义版本,用于Google搜索。
技术报告:
1。全面超过2.0闪光灯,支持Google工具
双子座2.5模型是一种识别模型,在响应之前会注意理解,从而提高了性能和准确性。每个模型都可以控制思维预算,使开发人员可以选择多长时间和多长时间该模型可以在制定响应之前“思考”。
Google的博客指出,Flash-Lite预览的最新2.5版是2.5系列模型中最低的延迟和成本模型。这是Gemini 1.5和2.0 Flash型号的成本的版本。
Gemini 2.5 Flash Lite在编程,数学,科学,推理和多模式基准测试方面超过2.0闪光灯。它在高容量,LAT敏感的活动方面的性能良好,例如翻译和排序,在2.0 Flash -lite和2.0闪存的延迟下,在广泛的任务样本中。
在性能方面,新模型缩短了获得第一个令牌并达到更高的代币解码速度的时间。该模型适用于高通量活动,例如大规模分类或摘要。
GEMINI 2.5闪存闪光灯是一种识别模型,可以通过API参数对预算进行动态控制。由于闪光灯容器已针对成本和速度进行了优化,因此其他Gemini 2.5模型是不同的,默认情况下,思维功能不在。
新模型具有Gemini 2.5的许多功能,包括在不同预算下发布思维模式,连接Google搜索和代码执行,多模式输入等工具,以及100万个代币的Konte Lengthksto。
2。Gemini2.x系列超过前几代,对编程和图像的理解小于OpenAI。
Google还更新了GEMINI 2.5系列模型技术报告,《 GEMINI 2.X模型系列2.x:包括Gemini 2.5 Pro和Gemini 2.5 Flash》以及Gemini 2.0 2.0 Flash和Flash-Lite模型。
Google技术报告指出,Gemini 2.5 Pro是Google思维的最聪明的模型,显示出强大的理解和编程功能,在开发交互式Web应用程序,了解代码基础级别以及显示新兴的多模式编程功能方面很好。
Gemini2.5 Flash是HybriD的模型,理解有控制的思维预算可以适用于大多数复杂的任务,同时还控制着质量,成本和延迟的Pagitan平衡。
Gemini 2.0 Flash是Google为日常工作创建的快速有效的非思想模型。 Gemini 2.0 Flash-Lite是最快且最便宜的Google模型,用于大规模使用。
在技术报告中,Google将Gemini 2.5系列的性能与Gemini 1.5和2.0型号以及Gemini 2.5系列的性能与其他型号进行了比较。可以看出,Gemini 2.5系列的模型在编程活动中表现出色,例如LiveCodebench,Aider Polyglot和Swe Bench,这些模型已验证并在以前的模型中得到了显着改善。
除了编程性能外,Gemini 2.5模型在数学活动和识别中通常的性能还优于Gemini 1.5系列:在AIME 2025测试中,Gemini的准确性R RATE 2.5 Pro为88.0%,而Gemini率1.5 Pro为17.5%;在GPQA测试(钻石级)测试中,Gemini 2.5 Pro精度率为86.4%。同样,理解图像的能力也得到了显着提高。
与其他基本语言模型相比,Gemini 2.5 Pro将SOTA带到了多语言编程活动。此外,Gemini 2.5 Pro在人类,GPQA(年级)和SimpleQA以及具有现实基准的事实的最终考验中得分最高。 Gemini 2.5 Pro在阁楼和MRCR长上下文任务中以128K上下文的长度获得了SOTA,这是唯一支持上表中所有模型中1M+令牌上下文长度的模型。
但是,就数学而言,Gemini 2.5 Pro的性能略低于OpenAi O4-Mini,并且在对图像的理解中,标记略低于OpenAI-O3高。
值得注意的是,在性能方面,双子座2.5闪存模型成为第二强双子座家族中的EST模型不仅超过了先前的闪光模型,而且超过了一年前发布的Gemini 1.5 Pro模型。
3。在TPU V5P体系结构中训练的第一款模型
Gemini 2.5系列模型具有广泛的混合专家(MOE)模型,该模型本地支持文本,视觉和音频输入。通过研究(专家),稀疏的MOE模型在参数子集中动态路由令牌,激活每个输入令牌的模型参数子集;他们可以将模型的总体容量与每个令牌的计算和服务成本分开。
面对训练不稳定的问题,Gemini 2.5模型系列致力于优化,可以增强良好的训练稳定性,信号传播和动态优化。
Gemini 2.5模型基于Gemini 1.5在处理长上下文查询和建模Gemini 2.5 Pro中的新进展方面的成功,在处理长期conde方面的性能优于Gemini 1.5 Promnation-关注1M令牌上下文化。
Gemini 2.5 Pro和Gemini 2.5 Flash都可以处理长期文本,完整代码库以及长期音频和视频数据。
Gemini 2.5模型系列是第一个在TPU V5P体系结构中训练的Google模型系列。 Google在并行培训中使用一致的数据与许多数据中心分发的Google TPU V5P加速器的8960芯片吊舱相同。
它的预训练数据集是一个大尺寸的,不同的数据收集,可覆盖各种字段和模式,包括可用的Web文档,代码(不同的编程语言),图像,音频(包括语音类型和其他类型的音频)和视频。双子座2.0的截止日期是2024年6月,双子座2.5的截止日期是2025年1月。
Google还使用新方法来提高过滤器和扣除数据的质量。它的培训后数据集由经过精心收集和审查的教学数据组成,是一个多模式数据集,该数据集,该数据集,该数据集除了人类的偏好和工具使用数据,配对的说明和响应。
在训练后阶段,Google研究报告表明,它们使用模型来帮助管理微调(SFT),奖励建模(RM)和增强研究阶段(RL),从而实现了更好,更复杂的数据质量控制。
此外,Google还增加了分配给RL的培训计算,该计算结合了对经过验证的奖励和基于模型的奖励的关注,以提供更复杂和测量的反馈信号。 RL过程中算法的变化可改善长期训练期间的稳定性。
双子座的推理模型是通过研究加强培训的,在推理时,可以使用其他计算来获得更准确的答案。在回答问题或查询之前,可以在“思考”阶段进行数千次生成的模型。
结论:加快制造模型,Google加速了大型模型的扩展双子座2.x基于双子座1.5系列。 Google探索了与通用AI助手更近的路线的创建。可以看出,2.x系列模型的性能超过了整个几代人。
此外,Google已决定将这些模型从预览更改为GO的官方版本,而新模型则强调了更强的容量推理和负担得起的功能,可能会反映出与其他大型公司的速度相一致的越来越大的压力,这些公司消除了消除消费者和企业的相关工具的速度。回到Sohu看看更多