有没有人用过deepseek_v3? Zuckerberg 都怕了

billwanhua

本站元老
注册
2005-07-07
消息
16,214
荣誉分数
5,265
声望点数
373
1. 开源
2. 各个关键测试不差于美国各大AI
3. 最关键的是所用的参数(671 billion parameters, with 37 billion parameters actively engaged during inference)比美国各大AI 模型(chatgput4 is estimated to have 100 trillion parameters. )低一个数量级
4. 运行效率比比美国各大AI 模型高一个数量级

View: https://www.reddit.com/r/LocalLLaMA/comments/1i2y810/is_deepseek_v3_overhyped/


View: https://youtu.be/8EYKlXso718?si=VpwumvuHB6J275om



免费的,大家上网试试吧:
目前这个AI 模型应该是性价比最高的,真不能小瞧中国的科技进步, 那些笑话中国抄袭的应该笑自己
 
最后编辑:

有lite model 可以用在笔记本电脑了,只需要CPU和48G内存,以前有人问Facebook Llama 能不能在家里电脑运行,好像不行
 
我早试过了。的确了不起。
拜登禁止AI芯片进入中国,完全禁了个寂寞。


:jiayou:
 
苹果店有deepseek 手机app
 

Alexandr Wang, whose company Scale AI provides training data to key artificial intelligence players including OpenAI, Google and Meta, said Thursday that the AI race between the U.S. and China is an “AI war.”

Wang said DeepSeek, the leading Chinese AI lab, released an “earth-shattering model” on Christmas Day

The U.S. may have led China in the artificial intelligence race for the past decade, according to Alexandr Wang, CEO of Scale AI, but on Christmas Day, everything changed.

Wang, whose company provides training data to key AI players including OpenAI, Google
and Meta
, said Thursday at the World Economic Forum in Davos, Switzerland, that DeepSeek, the leading Chinese AI lab, released an “earth-shattering model” on Christmas Day, then followed it up with a powerful reasoning-focused AI model, DeepSeek-R1, which competes with OpenAI’s recently released o1 model.
“What we’ve found is that DeepSeek ... is the top performing, or roughly on par with the best American models,” Wang said.

性能差不多,速度比openai 快一个数量级,其实土鳖大规模领先了
 
最后编辑:

Alexandr Wang, whose company Scale AI provides training data to key artificial intelligence players including OpenAI, Google and Meta, said Thursday that the AI race between the U.S. and China is an “AI war.”

Wang said DeepSeek, the leading Chinese AI lab, released an “earth-shattering model” on Christmas Day

The U.S. may have led China in the artificial intelligence race for the past decade, according to Alexandr Wang, CEO of Scale AI, but on Christmas Day, everything changed.

Wang, whose company provides training data to key AI players including OpenAI, Google
and Meta
, said Thursday at the World Economic Forum in Davos, Switzerland, that DeepSeek, the leading Chinese AI lab, released an “earth-shattering model” on Christmas Day, then followed it up with a powerful reasoning-focused AI model, DeepSeek-R1, which competes with OpenAI’s recently released o1 model.
“What we’ve found is that DeepSeek ... is the top performing, or roughly on par with the best American models,” Wang said.

性能差不多,速度比openai 快一个数量级,其实土鳖大规模领先了


听说deep seek 是open source.
那是不是美帝可以随时放弃自己落后的东西,而把中国的拿过来用?
 
View: https://x.com/deepseek_ai/status/1872242657348710721

GfuKUsuagAEfvM2.webp



They introduced MLA (multi-head latent attention), which reduces memory usage to just 5-13% of the commonly used MHA (multi-head attention) architecture. MHA is a technique widely used in AI to process multiple streams of information simultaneously, but it requires a lot of memory.

To make their model even more efficient, DeepSeek created the DeepSeekMoESparse structure. "MoE" stands for Mixture-of-Experts, which means the model uses only a small subset of its components (or "experts") for each task, instead of running the entire system. The “sparse” part refers to how only the necessary experts are activated, saving computing power and reducing costs.
 
最后编辑:

View: https://www.reddit.com/r/selfhosted/comments/1i6ggyh/comment/m8eyp6f/


Mac Mini M4 with 16 gigs of ram runs 14B model in LMStudio just fine. LMStudio is much more simpler way to run things on macOS, as opposed to op’s setup. For 32B model my ram was not enough.

I just tried the following 7B, 14B and 32B with the following specs:

5800x3d, 3080 and 32Gb ram.

The 8B is fast, perfect for daily use. I simply throws out the sentences after each other.

The 14B is also is quite fast, but you have to wait like 10 seconds for everything to load. Good for enough for daily use.

The 32B is slow, every word approximately takes a second to load.
 
最后编辑:
文学城里的专业人士介绍,deep seek使用功能相当强大,但是短板也十分明显,因为是它是在chatgpt基础上的复合技术。通俗地讲,它最终要依靠openAI chatgpt 的升级和语言模型的训练。现在川铺的AI战略可能对deep seek 不利。
 
文学城里的专业人士介绍,deep seek使用功能相当强大,但是短板也十分明显,因为是它是在chatgpt基础上的复合技术。通俗地讲,它最终要依靠openAI chatgpt 的升级和语言模型的训练。现在川铺的AI战略可能对deep seek 不利。
deep seek是chatgpt套壳?
 
文学城里的专业人士介绍,deep seek使用功能相当强大,但是短板也十分明显,因为是它是在chatgpt基础上的复合技术。通俗地讲,它最终要依靠openAI chatgpt 的升级和语言模型的训练。现在川铺的AI战略可能对deep seek 不利。
那是外行瞎扯。 完全不需要依靠靠openAI chatgpt。

Distillation: Smaller Models Can Be Powerful Too

  • We demonstrate that the reasoning patterns of larger models can be distilled into smaller models, resulting in better performance compared to the reasoning patterns discovered through RL on small models. The open source DeepSeek-R1, as well as its API, will benefit the research community to distill better smaller models in the future.
  • Using the reasoning data generated by DeepSeek-R1, we fine-tuned several dense models that are widely used in the research community. The evaluation results demonstrate that the distilled smaller dense models perform exceptionally well on benchmarks. We open-source distilled 1.5B, 7B, 8B, 14B, 32B, and 70B checkpoints based on Qwen2.5 and Llama3 series to the community.

deep seek 为了证明算法,确实使用了Qwen2.5 and Llama3来训练几个浓缩模型,结果都超过了原版Qwen2.5 and Llama3。
训练方法是deep seek提出问题,然后根据Qwen2.5 and Llama3的回答结果来训练新模型。之所以用Qwen2.5 and Llama3, 是因为这两种都是open source, 可以直接拿来测试
这个在AI训练上是非常出名的teacher-students model, 主要是为了证明算法好,不是为了说明依靠其他方法

deep seek是完全open source, 所有人都可以看原程序,如果抄openAI chatgpt的,早都闹上天了
如果是通过openAI chatgpt训练的,deep seek把模型拿出来做open source是违法的,会在网上被封的。用open source模型训练的结果才可以拿出来做open source


这种说法的来源这里有解释:

View: https://www.reddit.com/r/singularity/comments/1hnh4qw/deepseekv3_often_calls_itself_chatgpt_if_you/

谷歌gemini也称自己是chatgpt
This happened to me with gemini flash thinking When i asked it to create a script, in the authors part it wrote 'you and chatgpt'

It's just a sign that a large portion of the newly crawled internet content is generated by GPT.

It's inevitable. Lines like that are all over the internet, you have to put in effort to explicitly remove data like that from the training set. The models do have some intelligence, but it goes back to the basic feature of the LLM which is to predict the next word based on next words it's seen before for the input.



I'm probably preaching to the choir but it really would have been nice if ChatGPT hadn't polluted the public water supply with low-quality synthetic data. It created problems that will be with us for a long time.

Every LLM I use has that same bland "ChatGPTese" writing style in—aside from a few made by people who are aware of the problem and spend lots of time/effort to fix it. Even supposedly uncensored models can't help but put "Elara" and "Elias" into every story.
 
最后编辑:

"We made a mistake in not being more transparent": OpenAI secretly accessed benchmark data, raising questions about the AI model's supposedly "high scores" — after Sam Altman touted it as "very good"

In the next couple of weeks, OpenAI is slated to unveil o3 mini, the smaller version of its o3 series with advanced reasoning capabilities across math, science, and coding. CEO Sam Altman claims the model is "very good," potentially beating the performance of the ChatGPT maker's o1 series. The company also announced that it would launch the application programming interface (API) and ChatGPT for the model simultaneously.

While details about the AI model remain slim, reports suggest OpenAI secretly funded and accessed the FrontierMath benchmarking data, raising concerns about whether the company used the data to train o3 (via Search Engine Journal). The AI model received high scores across a wide range of benchmarks, but if the rising concerns are anything to go by, the shared results might be a fabrication of the model's reality.
 

中国AI初创公司DeepSeek是如何与硅谷巨头竞争的​

CADE METZ, MEAGHAN TOBIN2025年1月24日

DeepSeek的工程师说,他们的系统只需要约2000块美国芯片制造商英伟达生产的专用计算机芯片,而美国大公司的AI系统需要多达1.6万块芯片。
DeepSeek的工程师说,他们的系统只需要约2000块美国芯片制造商英伟达生产的专用计算机芯片,而美国大公司的AI系统需要多达1.6万块芯片。 MARLENA SLOSS/BLOOMBERG

圣诞节的第二天,一家名为深度求索(DeepSeek)的中国小型初创公司发布了一个新的人工智能系统,其功能可与OpenAI和谷歌等公司的尖端聊天机器人相媲美。

能做到这点本已是一个里程碑。但这个名为DeepSeek-V3的大模型背后的团队描述了一个更大的进步。深度求索的工程师在介绍他们如何构建这个大模型的研究论文中写道,他们在训练该系统时只用了领先人工智能公司用的高度专业化计算机芯片的一小部分。

这些芯片是美中激烈技术竞争的核心。随着美国政府努力保持本国在全球人工智能竞争中的领先地位,它正在试图对能出售给中国以及其他竞争对手的高性能芯片(如硅谷公司英伟达生产的那些)进行限制。

但DeepSeek大模型的表现让人们对美国政府贸易限制的意外后果产生了质疑。美国的出口管制措施已迫使中国研究人员使用互联网上免费提供的各种工具来发挥创造力。

据美国人工智能公司一直使用的行业基准测试,DeepSeek聊天机器人能回答问题、解决逻辑问题,并编写自己的计算机程序,其能力不亚于市场上已有的任何产品。

而且它的造价很低,挑战了只有最大的科技企业(它们全都在美国)才能制造出最先进的人工智能系统的普遍观念。中国工程师称,他们只花了约600万美元的原始计算能力就训练了新模型,不到科技巨头Meta训练其最新人工智能模型所耗资金的十分之一。

“有600万美元资金的公司在数量上远远多于有1亿美元或10亿美元资金的公司,”风险投资公司Page One Ventures的投资人克里斯·尼科尔森说道,他主要投资人工智能技术。

自从OpenAI 2022年发布了ChatGPT,引发人工智能热潮以来,许多专家和投资者曾得出结论认为,如果不投入数亿美元购买人工智能专用芯片的话,没有公司能与行业领军者竞争。

世界领先的人工智能公司用超级计算机来训练它们的聊天机器人,这些超级计算机需要多达1.6万个芯片,甚至更多。但DeepSeek的工程师却说,他们只用了约2000个英伟达生产的专用芯片。

中国进口芯片受到限制,迫使DeepSeek工程师“更有效地训练大模型,以让其仍有竞争力”,乔治华盛顿大学专门研究新兴技术和国际关系的助理教授杰弗里·丁(音)说。

本月早些时候,拜登政府颁布了旨在阻止中国通过其他国家获得先进人工智能芯片的新规则。新规则出台前,美国已采取了多轮限制措施,阻止中国公司购买或制造尖端计算机芯片。特朗普总统尚未表明他是否会继续实施或取消这些措施。

美国政府一直试图阻止中国公司获得先进芯片,因为担心这些芯片可能用于军事目的。作为回应,中国的一些公司囤积了大量这类芯片,另一些公司则在蓬勃发展的黑市采购走私芯片。

DeepSeek由一家名叫幻方的量化股票交易公司运营。到2001年,它已将利润投入购买数千枚英伟达芯片,用于训练其早期模型。公司没有回复记者的置评请求,它在中国有一种名声,那就是以高薪和让人们能够探索最感兴趣的研究课题为承诺,吸引了刚从顶尖大学毕业的人才。

曾参与早期DeepSeek大模型开发的计算机工程师汪子涵(音)说,公司也雇佣没有任何计算机科学背景的人帮助该技术理解并生成诗歌,并在做难度极大的中国高考试卷时获得高分。

DeepSeek不制造任何消费者产品,而是让工程师全神贯注地做研究。这意味着其技术不受中国有关人工智能法规中最严格部分的限制,中国要求面向消费者的技术必须遵循政府对信息的控制。

领先的美国公司继续推动人工智能的发展。去年12月,OpenAI公布了一款性能超过现有技术的名为o3的新“推理”系统,尽管该系统尚未在该公司以外得到广泛使用。但DeepSeek继续表明自己并不落后,它在本月发布了自己的一个推理模型,性能同样令人印象深刻。

(《纽约时报》已起诉OpenAI及其合作伙伴微软,称其侵犯了与人工智能系统相关新闻内容的版权。OpenAI和微软否认了这些指控。)

这个快速变化的全球市场的关键部分是一个存在已久的想法:开源软件。与许多其他公司一样,DeepSeek也将其最新的人工智能模型放入开源软件系统,这意味着它已经与其他企业和研究人员共享了基础代码,让其他人能用相同的技术构建和发布自己的产品。

虽然中国大型科技企业的员工只与自己的同事合作,但“如果你从事开源软件开发,你其实是在与世界各地的人才合作”,旧金山Baseten的首席软件工程师张一能(音)说,他为开源的SGLang项目工作。他还帮助其他人和公司使用DeepSeek模型构建产品。

2023年,Meta免费分享了一个名为LLama的人工智能模型后,人工智能的开源生态系统开始蓬勃发展。许多人曾假设,只有像Meta这样的科技巨头——拥有使用大量专用芯片的大型数据中心——继续开源其技术,人工智能社区才会蓬勃发展。但DeepSeek和其他公司已表明,它们也可以拓展开源技术的能力。

许多高管和专家认为,美国大公司不应该开源其技术,因为它们能被用来传播虚假信息或造成其他严重危害。一些美国立法者已在探索阻止或限制开源的可能性。

但也有人认为,如果监管机构扼杀了开源技术在美国的进步,中国将获得显著优势。他们认为,如果最好的开源技术来自中国,美国开发人员将在这些技术的基础上构建他们的系统。从长远来看,这可能会让中国成为研发人工智能的中心。

“开源社区的重心已在向中国转移,”加州大学伯克利分校计算机科学教授伊恩·斯托伊卡说。“这对美国来说可能是一个巨大的危险”,因为它让中国得以加速新技术的研发。

就职典礼数小时后,特朗普总统撤销了拜登政府威胁限制开源技术的行政命令。

斯托伊卡和他的学生最近构建了一个名为Sky-T1的人工智能模型,在某些基准测试中,该模型的性能可与最新的OpenAI系统——OpenAI o1相媲美。他们的模型只需要450美元的计算能力。

自从去年12月底DeepSeek-V3发布后不久,多伦多的技术顾问鲁文·科恩就一直在使用该模型。

自从去年12月底DeepSeek-V3发布后不久,多伦多的技术顾问鲁文·科恩就一直在使用该模型。 CHLOE ELLINGSON

他们能做到这点是因为他们的系统是建在中国科技巨头阿里巴巴发布的两项开源技术的基础之上的。

他们450美元的系统不如OpenAI技术或DeepSeek新模型强大。他们使用的技术不太可能产生超越领先技术性能的系统。但他们的研究表明,即使是资源微不足道的组织或者企业,也能构建具有竞争力的系统。

多伦多的技术顾问鲁文·科恩从去年12月下旬起一直在使用 DeepSeek-V3。他说,该模型与OpenAI、谷歌,以及旧金山初创公司Anthropic的最新系统能力相当,而且使用起来便宜得多。

“DeepSeek是让我省钱的办法,”他说。“这是像我这样的人想用的技术。”

Cade Metz撰写有关人工智能、无人驾驶汽车、机器人、虚拟现实和其他技术新兴领域的新闻。点击查看更多关于他的信息。

Meaghan Tobin是时报科技记者,常驻台北,报道亚洲地区的商业和科技新闻,重点关注中国。点击查看更多关于她的信息。

翻译:纽约时报中文网

点击查看本文英文版。

 
I watched Deirdre's report and Alex Wang's interview. This is CNBC's latest report on China's AI. Deirdre's report makes me wonder if we live and think in a democracy box.

This is the CNBC tech report Deirdre said at the beginning of the report:

"China's latest AI breakthrough has leapfrogged the world. A game-changing move that does not come from OpenAI, Google, or Meta, but from a Chinese Lab called DeepSeek. What took Google and Open AI years and hundreds of millions of dollars to build, Deepseek said it just takes them two months and just less than six million dollars. ..."

Translate to: 中国最新的人工智能突破已经超越了世界。这一关键的突破并非来自 OpenAI、谷歌或 Meta,而是来自一个名为 DeepSeek 的中国实验室。谷歌和 Open AI 花了数年时间和数亿美元才建成的AI。Deepseek 表示,他们只花了两个月的时间和不到 600 万美元

Holly smoke! But Deirdre, be careful, you could be let go in the next CNBC restructuring.


View: https://youtu.be/WEBiebbeNCA
 
最后编辑:
后退
顶部