专家们怎么看阿里的Qwen?

metropolis

本站元老
注册
2010-12-10
消息
9,363
荣誉分数
1,892
声望点数
323

阿里巴巴发布AI模型 声称超越DeepSeek​

2025年1月29日 18:51
  • 美国之音

阿里巴巴透过旗下的阿里云,发表了自家的AI语言模型通义千问Qwen 2.5-Max超大规模MoE模型,甚至号称测试表现上优于DeepSeek V3。(美联社:2024年5月14日)

阿里巴巴透过旗下的阿里云,发表了自家的AI语言模型通义千问Qwen 2.5-Max超大规模MoE模型,甚至号称测试表现上优于DeepSeek V3。(美联社:2024年5月14日)

中国科技公司阿里巴巴星期三(1月29日)发布了其通义千问“Qwen 2.5”人工智能(AI)模型的新版本,并声称该模型已超越备受赞誉的DeepSeek-V3。

阿里云发布其全新的通义千问 Qwen 2.5-Max超大规模混合专家(MoE)模型的时间较不寻常,正值农历新年第一天,大多数中国人正在放假与家人团聚。这意味着中国AI初创公司深度求索(DeepSeek)过去三周的迅猛崛起,不仅给海外竞争对手、也给国内竞争者带来了压力。

“Qwen 2.5-Max…几乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B,”阿里云在微信公众号上发布的一篇公告中说,其指的分别是OpenAI、深度求索和Meta最先进的开源AI模型。

据介绍,Qwen 2.5-Max使用超过20万亿token(AI模型处理的数据单位)的预训练数据及精心设计的后训练方案进行训练。

阿里云说,通义团队分别对Qwen2.5-Max的指令(Instruct)模型版本和基座(base)模型版本性能进行了评估测试。在指令模型测试方面,Qwen2.5-Max在多个基准测试中比肩美国的Claude-3.5-Sonnet模型,并几乎全面超越了另外三个美国模型GPT-4o、DeepSeek-V3及Llama-3.1-405B。

阿里云表示,在基座模型测试方面,通义团队将Qwen2.5-Max与目前DeepSeek V3、Llama-3.1-405B、Qwen2.5-72B进行了对比,而Qwen2.5-Max在所有11项基准测试中全部超越了对比模型。

不过,微信公众号“简约财经”的帖子指出,Qwen 2.5-Max 在发展过程中仍面临着诸多挑战和风险,其中包括在技术挑战方面,训练优化过程中的计算资源消耗和时间成本问题,以及模型在复杂任务和多模态融合方面的性能提升需求,都需要进一步的研究和创新来解决。

这篇帖子说,在伦理与安全风险方面,Qwen 2.5-Max也面临数据隐私保护、模型偏见避免以及内容真实性和 AI 滥用防范等需要高度重视的问题。

DeepSeek与国内竞争对手

深度求索1月10日发布了其DeepSeek-V3模型驱动的AI助手,随后在1月20日推出R1模型。这一系列AI模型的新发布震撼了硅谷,并导致科技股重挫。深度求索据称低廉的开发和使用成本,促使投资者开始质疑美国领先AI公司的巨额支出计划。

深度求索的成功也引发了国内竞争对手竞相升级其本身的AI模型。

在DeepSeek-R1发布两天后,TikTok母公司字节跳动推出了其旗舰AI模型的更新,并声称该模型在AIME(旨在衡量AI模型对复杂指令的理解和回应能力的一项基准测试)中的表现优于微软支持的OpenAI的o1模型。

这与深度求索的说法相似。深度求索声称其R1模型在多个性能基准测试中可比得上OpenAI的o1。

DeepSeek-V3模型的前身DeepSeek-V2于去年5月发布后,引发了中国AI模型的价格战。

DeepSeek-V2采用开源和空前低廉的价格(每百万个tokens仅需1元人民币),导致阿里云宣布对一系列模型的降价幅度最高达97%。

其他中国科技公司纷纷跟进,包括百度(2023年3月发布中国首个类同于ChatGPT的产品)以及中国市值最高的互联网公司腾讯。

深度求索的神秘创始人梁文锋在去年7月接受中国媒体《暗涌》(Waves)的罕见采访中表示,该公司“不在乎”价格战,其主要目标是实现AGI(通用人工智能)。

OpenAI将AGI定义为能够在大多数具有经济价值的任务上超越人类的自主系统。

相较于阿里巴巴等中国大型科技公司拥有数十万名员工,深度求索的运作方式像是一个研究实验室,其团队主要由来自中国顶尖高校的年轻毕业生和博士生组成。

梁文锋在去年7月的采访中表示,他认为中国大型科技公司可能不太适合未来的AI产业,并将这些企业的高成本和自上而下的架构,与深度求索采用的精简运营和宽松管理的风格,进行了对比。

“大型基础模型需要持续创新,科技巨头的能力是有限的,”他说。

(本文主要依据了路透社的报道。)

 
阿里你找个美国大公司去超越啊!
作为大公司,没有大公司的样子。
 
和资本主义的初期阶段一样,现在处于战国时代,激烈混战,最后达到垄断,鹿死谁手?

有一些人现在用阴谋论解释DS的王炸行为,一天把人家10000亿美元的价值给戳破了。

这是个意外,一个被一群中国理想主义者意外引爆的核弹。

如果从大国竞争的角度,如果真的是老共控制DS, 这次行动绝对就是过早暴露实力,应该让川普的5000亿美元计划继续执行,过3,4年然后川普的这计划执行后,再引爆,那时的损伤更大了。

现在老共也不能说啥,更不能责备DS,只能将计就计,按现在的现状解释了。

准确说老共的执政高层群体完全没有想到这威力,也没有充分利用。一个完全对中国和美国都是天大的意外。
 
最后编辑:
有一些人现在用阴谋论解释DS的王炸行为,一天把人家10000亿美元的价值给戳破了。

这是个意外,一个被一群中国理想主义者意外引爆的核弹。

如果从大国竞争的角度,如果真的是老共控制DS, 这次行动绝对就是过早暴露实力,应该让川普的5000亿美元计划继续执行,过3,4年然后川普的这计划执行后,再引爆,那时的损伤更大了。

现在老共也不能说啥,更不能责备DS,只能将计就计,按现在的现状解释了。
你是说在1月20日,李强召开几位大佬之前就提前引爆了?

量化巨头幻方创始人梁文锋参加总理座谈会并发言,他还创办了“AI界拼多多”​

2025年01月22日 07:54 澎湃新闻
新浪财经APP举报缩小字体放大字体收藏微博微信分享

专题:DeepSeek为何能震动全球AI圈

国产大模型公司深度求索(DeepSeek)创始人梁文锋参加了总理座谈会。

据新华社报道,中共中央政治局常委、国务院总理李强1月20日下午主持召开专家、企业家和教科文卫体等领域代表座谈会,听取对《政府工作报告(征求意见稿)》的意见建议。座谈会上,张辉、任少波、刘珺、梁文锋、魏洪兴、陈学东、陈红彦、杜斌、邹敬园等先后发言。

其中,梁文锋正是头部量化私募幻方量化创始人、DeepSeek的创始人。

8bbb-8562350b901b4b2b15a8b24e0483452c.webp


低调的“量化天王”

梁文锋“发迹”于量化投资。

作为一名“80后”,梁文锋本科、研究生都就读于浙江大学,拥有信息与电子工程学系本科和硕士学位。

2008年起,梁文锋就开始带领团队使用机器学习等技术探索全自动量化交易。2015年,幻方量化正式成立,2019年,其资金管理规模就突破百亿元。

2019年,梁文锋在当年的金牛奖颁奖仪式上,发表主题演讲《一名程序员眼里中国量化投资的未来》,这是他罕有的公开发言。

在演讲中,梁文锋指出,量化与非量化的判定标准就是在投资决策的过程中,是用数量化方法进行决策的,还是用人进行决策的。量化公司是没有基金经理的,基金经理就一堆服务器。

“作为私募,投资人对我们的期望是很高的,如果一年跑赢指数低于25%,投资人是不满意的。”梁文锋指出,量化投资已经赚了技术面流派原来赚的钱,未来也要抢夺基本面流派原来赚的钱。

演讲最后,梁文锋说,幻方量化的使命就是提高中国二级市场的有效性。

2021年,幻方量化成为国内首家突破千亿规模的的量化私募大厂,被称为国内量化私募“四大天王”之一。不过,就在这一年,由于业绩波动,幻方量化关闭了全部募集通道,并在12月底发布致投资者公开信,致歉称“幻方业绩的回撤达到历史最大值,我们对此深感愧疚”,究其原因,主要是AI的投资决策在买卖时点上没有做好,市场风格剧烈切换的时候,AI会倾向于冒更大的风险来博取更多收益,进一步加大了回撤。

此后,幻方量化逐渐降低其资金管理规模。2024年10月,幻方量化还向投资者发布公告称,计划逐步对冲产品投资仓位降低至零。

“短期内没有融资计划”

梁文锋对于AI的兴趣早就有迹可循。

2016年10月21日,幻方量化推出第一个AI模型,第一份由深度学习生成的交易仓位上线执行,使用GPU进行计算。2017年,幻方量化宣称实现投资策略全面AI化。

幻方量化官网显示,其在2018年就确立以AI为公司的主要发展方向。

2020年开始,幻方累计投资超亿元、占地面积相当于一个篮球场的AI超级计算机“萤火一号”正式投入运作,号称可以匹敌4万台个人电脑的超级算力。2021年,幻方投入十亿建设“萤火二号”,以“任务级分时共享”为核心理念,调度系统秒级响应,平台配备强大的软件层支持:高性能算子库(hfai.nn)、分布式训练通讯框架(hfreduce)、专为AI开发而生的大容量高带宽文件系统(3FS),让AI模型能自如拓展到多节点之上,进行大规模并行训练,算力扩容翻倍,集群连续满载运行,平均占用率达到96%以上。

2021年,在梁文锋参与的论文中提到,他们正在部署的萤火二号系统,“配备了1万张A100GPU芯片”,在性能上接近DGX-A100(英伟达推出的人工智能专用超级计算机),但成本降低了一半,同时能耗减少了40%。

当时国内超过1万枚GPU的企业不超过5家,而且除了幻方量化之外,其他4家公司都是互联网大厂。

这背后需要极其雄厚的财力支持。

2023年初,幻方量化表示,过去的几年,幻方量化及员工每年拿出收入的一部分投入公益,回馈社会,累计捐赠超过5.8亿元。其中,2022年,员工“一只平凡的小猪”个人就向慈善机构捐赠1.38亿元,当时的消息指出,这个人就是梁文锋。这从一个侧面反映出了幻方量化和梁文锋本人的“不差钱”。

幻方量化曾表示,多年以来,该公司坚持把营收的大部分投入人工智能领域,建设领先的AI硬件基础设施,进行大规模的研究,探索人类未知的奥秘,“我们相信几乎所有的创新都是从大胆尝试和点滴积累中孕育而来。”

梁文锋在为数不多的对外发声中同样也提到“短期内没有融资计划”,并认为当下面临的问题“从来不是钱,而是高端芯片(短缺)”。

“AI界拼多多”

2023年7月,幻方量化宣布成立大模型公司DeepSeek,正式进军通用人工智能领域。据报道,DeepSeek包括创始人梁文锋在内,仅有139名工程师和研究人员。与之对比,OpenAI有1200名研究人员,Anthropic则有500多名研究人员。

仅仅不到一年的2024年5月,DeepSeek就发布了DeepSeekV2,因为创新的模型架构和史无前例的性价比,火爆出圈。DeepSeek-V2的API定价为每百万tokens输入1元、输出2元,价格仅为GPT-4 Turbo的百分之一。

对于为何能做到如此高的性价比,DeepSeek官方解释称,DeepSeek-V2采用了创新的架构,例如注意力机制方面的MLA(多头潜在注意力)和前馈网络方面的DeepSeekMoE架构等,以实现具有更高经济性的训练效果和更高效的推理。

因此, DeepSeek被称为“AI界的拼多多”,引发了字节、阿里、百度等大厂的大模型价格战,纷纷宣布大模型产品降价。彼时,梁文锋在接受媒体采访时称,DeepSeek无意成为行业鲇鱼,低价背后是希望算力普惠。

2024年12月27日,DeepSeek-V3更是横空出世,火爆全球。据DeepSeek官网显示,其评测成绩不仅超越了Qwen2.5-72B(阿里自研大模型)和Llama 3.1-405B(Meta自研大模型)等顶级开源模型,甚至能和GPT-4o、Claude 3.5-Sonnet(Anthropic自研大模型)等顶级闭源模型一较高下。

DeepSeek宣布上线并同步开源DeepSeek-V3模型之外,还公布了长达53页的训练和技术细节。得到大幅升级的V3模型是在一个“难以想象”的预算下训练完成的:整个训练仅花费了557.6万美元,在2048块英伟达H800 GPU(针对中国市场的低配版 GPU)集群上运行55天完成,仅是OpenAI GPT-4o模型训练成本的不到十分之一。

“中国也要逐步成为贡献者,而不是一直搭便车。”梁文峰在接受媒体采访时说,“我们已经习惯摩尔定律从天而降,躺在家里18个月就会出来更好的硬件和软件,Scaling Law(规模定律)也在被如此对待。但其实,这是西方主导的技术社区一代代孜孜不倦创造出来的,只因为之前我们没有参与这个过程,以至于忽视了它的存在。很多国产芯片发展不起来,也是因为缺乏配套的技术社区,只有第二手消息,中国必然需要有人站到技术的前沿。”

梁文锋和他的DeepSeek还在继续求索。

就在1月20日, DeepSeek正式发布DeepSeek-R1模型。该模型在数学、代码、自然语言推理等任务上,性能比肩OpenAI o1正式版。DeepSeek称,R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。DeepSeek不仅将R1训练技术全部公开,还蒸馏了6个小模型开源给社区,允许用户借此训练其他模型。

“投身于探索AGI的本质,不做中庸的事,带着好奇心,用最长期的眼光去回答最大的问题。”DeepSeek的公众号这样写道。

 
你是说在1月20日,李强召开几位大佬之前就提前引爆了?

量化巨头幻方创始人梁文锋参加总理座谈会并发言,他还创办了“AI界拼多多”​

2025年01月22日 07:54 澎湃新闻
新浪财经APP举报缩小字体放大字体收藏微博微信分享

专题:DeepSeek为何能震动全球AI圈

国产大模型公司深度求索(DeepSeek)创始人梁文锋参加了总理座谈会。

据新华社报道,中共中央政治局常委、国务院总理李强1月20日下午主持召开专家、企业家和教科文卫体等领域代表座谈会,听取对《政府工作报告(征求意见稿)》的意见建议。座谈会上,张辉、任少波、刘珺、梁文锋、魏洪兴、陈学东、陈红彦、杜斌、邹敬园等先后发言。

其中,梁文锋正是头部量化私募幻方量化创始人、DeepSeek的创始人。

8bbb-8562350b901b4b2b15a8b24e0483452c.webp


低调的“量化天王”

梁文锋“发迹”于量化投资。

作为一名“80后”,梁文锋本科、研究生都就读于浙江大学,拥有信息与电子工程学系本科和硕士学位。

2008年起,梁文锋就开始带领团队使用机器学习等技术探索全自动量化交易。2015年,幻方量化正式成立,2019年,其资金管理规模就突破百亿元。

2019年,梁文锋在当年的金牛奖颁奖仪式上,发表主题演讲《一名程序员眼里中国量化投资的未来》,这是他罕有的公开发言。

在演讲中,梁文锋指出,量化与非量化的判定标准就是在投资决策的过程中,是用数量化方法进行决策的,还是用人进行决策的。量化公司是没有基金经理的,基金经理就一堆服务器。

“作为私募,投资人对我们的期望是很高的,如果一年跑赢指数低于25%,投资人是不满意的。”梁文锋指出,量化投资已经赚了技术面流派原来赚的钱,未来也要抢夺基本面流派原来赚的钱。

演讲最后,梁文锋说,幻方量化的使命就是提高中国二级市场的有效性。

2021年,幻方量化成为国内首家突破千亿规模的的量化私募大厂,被称为国内量化私募“四大天王”之一。不过,就在这一年,由于业绩波动,幻方量化关闭了全部募集通道,并在12月底发布致投资者公开信,致歉称“幻方业绩的回撤达到历史最大值,我们对此深感愧疚”,究其原因,主要是AI的投资决策在买卖时点上没有做好,市场风格剧烈切换的时候,AI会倾向于冒更大的风险来博取更多收益,进一步加大了回撤。

此后,幻方量化逐渐降低其资金管理规模。2024年10月,幻方量化还向投资者发布公告称,计划逐步对冲产品投资仓位降低至零。

“短期内没有融资计划”

梁文锋对于AI的兴趣早就有迹可循。

2016年10月21日,幻方量化推出第一个AI模型,第一份由深度学习生成的交易仓位上线执行,使用GPU进行计算。2017年,幻方量化宣称实现投资策略全面AI化。

幻方量化官网显示,其在2018年就确立以AI为公司的主要发展方向。

2020年开始,幻方累计投资超亿元、占地面积相当于一个篮球场的AI超级计算机“萤火一号”正式投入运作,号称可以匹敌4万台个人电脑的超级算力。2021年,幻方投入十亿建设“萤火二号”,以“任务级分时共享”为核心理念,调度系统秒级响应,平台配备强大的软件层支持:高性能算子库(hfai.nn)、分布式训练通讯框架(hfreduce)、专为AI开发而生的大容量高带宽文件系统(3FS),让AI模型能自如拓展到多节点之上,进行大规模并行训练,算力扩容翻倍,集群连续满载运行,平均占用率达到96%以上。

2021年,在梁文锋参与的论文中提到,他们正在部署的萤火二号系统,“配备了1万张A100GPU芯片”,在性能上接近DGX-A100(英伟达推出的人工智能专用超级计算机),但成本降低了一半,同时能耗减少了40%。

当时国内超过1万枚GPU的企业不超过5家,而且除了幻方量化之外,其他4家公司都是互联网大厂。

这背后需要极其雄厚的财力支持。

2023年初,幻方量化表示,过去的几年,幻方量化及员工每年拿出收入的一部分投入公益,回馈社会,累计捐赠超过5.8亿元。其中,2022年,员工“一只平凡的小猪”个人就向慈善机构捐赠1.38亿元,当时的消息指出,这个人就是梁文锋。这从一个侧面反映出了幻方量化和梁文锋本人的“不差钱”。

幻方量化曾表示,多年以来,该公司坚持把营收的大部分投入人工智能领域,建设领先的AI硬件基础设施,进行大规模的研究,探索人类未知的奥秘,“我们相信几乎所有的创新都是从大胆尝试和点滴积累中孕育而来。”

梁文锋在为数不多的对外发声中同样也提到“短期内没有融资计划”,并认为当下面临的问题“从来不是钱,而是高端芯片(短缺)”。

“AI界拼多多”

2023年7月,幻方量化宣布成立大模型公司DeepSeek,正式进军通用人工智能领域。据报道,DeepSeek包括创始人梁文锋在内,仅有139名工程师和研究人员。与之对比,OpenAI有1200名研究人员,Anthropic则有500多名研究人员。

仅仅不到一年的2024年5月,DeepSeek就发布了DeepSeekV2,因为创新的模型架构和史无前例的性价比,火爆出圈。DeepSeek-V2的API定价为每百万tokens输入1元、输出2元,价格仅为GPT-4 Turbo的百分之一。

对于为何能做到如此高的性价比,DeepSeek官方解释称,DeepSeek-V2采用了创新的架构,例如注意力机制方面的MLA(多头潜在注意力)和前馈网络方面的DeepSeekMoE架构等,以实现具有更高经济性的训练效果和更高效的推理。

因此, DeepSeek被称为“AI界的拼多多”,引发了字节、阿里、百度等大厂的大模型价格战,纷纷宣布大模型产品降价。彼时,梁文锋在接受媒体采访时称,DeepSeek无意成为行业鲇鱼,低价背后是希望算力普惠。

2024年12月27日,DeepSeek-V3更是横空出世,火爆全球。据DeepSeek官网显示,其评测成绩不仅超越了Qwen2.5-72B(阿里自研大模型)和Llama 3.1-405B(Meta自研大模型)等顶级开源模型,甚至能和GPT-4o、Claude 3.5-Sonnet(Anthropic自研大模型)等顶级闭源模型一较高下。

DeepSeek宣布上线并同步开源DeepSeek-V3模型之外,还公布了长达53页的训练和技术细节。得到大幅升级的V3模型是在一个“难以想象”的预算下训练完成的:整个训练仅花费了557.6万美元,在2048块英伟达H800 GPU(针对中国市场的低配版 GPU)集群上运行55天完成,仅是OpenAI GPT-4o模型训练成本的不到十分之一。

“中国也要逐步成为贡献者,而不是一直搭便车。”梁文峰在接受媒体采访时说,“我们已经习惯摩尔定律从天而降,躺在家里18个月就会出来更好的硬件和软件,Scaling Law(规模定律)也在被如此对待。但其实,这是西方主导的技术社区一代代孜孜不倦创造出来的,只因为之前我们没有参与这个过程,以至于忽视了它的存在。很多国产芯片发展不起来,也是因为缺乏配套的技术社区,只有第二手消息,中国必然需要有人站到技术的前沿。”

梁文锋和他的DeepSeek还在继续求索。

就在1月20日, DeepSeek正式发布DeepSeek-R1模型。该模型在数学、代码、自然语言推理等任务上,性能比肩OpenAI o1正式版。DeepSeek称,R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。DeepSeek不仅将R1训练技术全部公开,还蒸馏了6个小模型开源给社区,允许用户借此训练其他模型。

“投身于探索AGI的本质,不做中庸的事,带着好奇心,用最长期的眼光去回答最大的问题。”DeepSeek的公众号这样写道。


是, 如果老共高层或高参有那么几个对技术的发展和威力有点认识的, 就完全可以提前发现自己手上有个威力超过几个航母集群的大国竞争的筹码和利器。

川普绝对是真心感谢DS

只要看两个实验,不需要是AI技术大拿,就知道这就是王炸的东西
一个就是RoT 带自我推理和自我学习能力解题过程
一个就是低成本在很差环境使用的实验

现在老共的最高群体,我看是没人有能力从这俩个简单的实验看出门道,如果换朱镕基,江泽民,就完全能看出门道。

市场这两天稳定住了,DS其实帮了美国大忙,一个价值10000亿美元的大忙,没有乱花钱,想想假设让川普继续自嗨把5000亿投进去,3,4年各种配套投资,总价值绝对会超过20000亿美元,再引爆? 美国还有啥资源做别的事情呢?川普应该给梁文峰颁发一个钻石奖章。
 
最后编辑:
用DS一月有余,一直丝滑直到最近卡得厉害,今天尝试QWEN2.5-MAX,不输V3,但没有DS R1有意思,如果DS不卡,选择DS
 
用DS一月有余,一直丝滑直到最近卡得厉害,今天尝试QWEN2.5-MAX,不输V3,但没有DS R1有意思,如果DS不卡,选择DS

对,R1 更有意思,含金量比完全的传统的大模型高
 
我是热炒以后下载的,一直注册不上,这个地区只能用email 注册,可是收不到code.
 
后退
顶部