
蓝鲸新闻4月30日(记者吴吉恩)5月之前,阿里巴巴开设了新一代的汤蒂·Qianwen Model Qwen3。据报道,它的参数仅是DeepSeek-R1的1/3,成本大幅下降,但其性能良好。报告显示,QWEN3-235B-A22B超出了世界领先的模型,例如DeepSeek-R1,O1,O3-Mini,Grok-3和Gemini-2.5-Pro,例如代码,数学和一般能力等基准测试。成为世界资源中最强大的开放模型。通过改进模型体系结构,增加训练数据和更有效的训练方法,QWEN3意识到,当模型较小时,其性能要好于具有较大参数量表的QWEN2.5主模型。尤其是在STEM,编码和推理字段中,QWEN3密集的主模型的性能比较大的QWEN2.5模型更好。阿里巴巴在博客上说,QWEN3密集基本模型的整体性能与QWEN2.5具有更多参数的基本模型。例如,Qwen3-1.7b/4b/8b/14b/32b基本的作用分别与Qwen2.5-3b/7b/14b/32b/72b基本相当。有趣的是,除了大约235b参数的MOE模型外,QWEN 3还配备了小型MOE模型,尤其是QWEN3-30B-A3B。该模型的激活参数为3B,小于QWQ-32B模型的10%,但性能更好。我们可以理解Moe作为大型客户服务中心的架构,许多专家是处理各种问题的专家 - 一些专门研究技术问题的专家,一些专家持有问题的专家,以及一些负责回答产品使用问题的专家。在训练大型模型的过程中,当数据进入模型时,大型模型将根据问题的性质分配给最合适的专家,这可以提高查询计算的效率。目前,阿里巴巴开设了资源模型具有密集的模型和MOE模型。其中,两个MOE模型的权重开源:QWEN3-235B-A22B,这是一个超过2350亿个参数和220亿次激活参数的大型模型,QWEN3-30B-A3B,一种小型MOE模型,具有近300亿个总参数和30亿个活动。六个密集的型号也是开放资源,包括QWEN3-32B,QWEN3-14B,QWEN3-8B,QWEN3-4B,QWEN3-1.7B和QWEN3-0.6B,在Apache 2.0许可证下都均在Apache 2.0许可下进行。可以直接使用。 Qwen 3系的创新之一是混合模型的设计,它使您可以深入思考这种思维的慢模型。公式(用于复杂的逻辑推理,数学和编码)与快速思维方式(为良好的通用聊天)之间的无缝过渡。这意味着用户最终不需要制造和转动“深入思考”功能,并记住模型跌落的问题。过去,许多大模型用户报告说,大型模型通常会深入思考和长期讨论,并且许多小问题是完全不必要的。关键是快速和缓慢思考之间灵活过渡的模型可以有效地降低成本。阿里巴巴在其博客上说:这两种模型的组合大大提高了该模型实现稳定,有效控制“预算思维”的能力。这样的设计使用户可以更轻松地为各种任务配置特定预算,从而在成本效益和质量识别之间取得更好的平衡。在部署方面,阿里巴巴表示,部署Qianwen 3全血版本只需要4 H20,而视频记忆仅涵盖具有相似性能的模型的三分之一。这意味着与全血DeepSeek R1相比,扩张成本大大降低了75%至65%。阿里巴巴介绍了QWEN3通过了四个培训的Pagttsor,这相当于教授BAS首先,ICS→深入思考→快速和慢模式混合→最后全面优化。阿里巴巴说,Qwen3在工具调用,指令和数据格式处理方面的表现都很好。建议在QWEN代理中使用它,以简化工具呼叫代码的实现。目前,阿里巴巴也很特别,可以优化QWEN3模型的功能,并加强对MCP的支持。如您在示例中所看到的,Qwen3可以调用丝滑工具。开放资源成为了阿里巴巴主要AI的一种方法。自2023年以来,阿里巴巴·塔里(Alibaba Talyi)团队一直在开发200多个“全尺寸”大型模型,涵盖了诸如0.5b,1.5b,1.5b,3b,7b,7b,14b,32b,32b,72b,72b,110b,etc。易于访谈,是一个相关的人,负责Thyi蓝色的新闻,“开放的目标”,但只有一定的目标是全球范围,但它是一定的效果。另一个应该是可比的,甚至应该SED封闭的资源模型。”