难道deepseek真牛B得超过了美国?1年内哪里找那么多天才,还没有出国留学回归的

billwanhua

本站元老
注册
2005-07-07
消息
15,757
荣誉分数
5,001
声望点数
373
berkeley已经在一个小模型上完全复制了DS的训练方法,其实也不小,1.5B的参数,只用了$30

更不可思议的是,DS 重新写了程序不完全用NVIDIA 出名的CUDA, 这个CUDA可是NVIDIA看家法宝,花了NVIDIA几十年,如果DS可以绕过CUDA, DS 可以用任何GPU/CPU。。。我不觉得几个人的公司1年内能干出这么多。 如果这个报道真实,那么NVIDIA也有麻烦了

These modifications go far beyond standard CUDA-level development, but they are notoriously difficult to maintain. Therefore, this level of optimization reflects the exceptional skill of DeepSeek's engineers. The global GPU shortage, amplified by U.S. restrictions, has compelled companies like DeepSeek to adopt innovative solutions, and DeepSeek has made a breakthrough. However, it is unclear how much money DeepSeek had to invest in development to achieve its results.
 
你们是不是有外国崇拜症啊? 崇洋媚外也要有个限度吧。

你是看不起清北, 还是看不起复交?没有外国,中国人难道吃不了饭了?

我看你需要多吃钙片!
 
别的公司被openai带偏了。没有往强化学习的方向走。DS母公司做量化交易,原本就有最国内高水平的强化学习软件开发能力。绕过CUDA的接口可能早就开发了,目的是将来不用英伟达芯片,因为可能被完全禁用
 
最后编辑:
其实不需要多么高深的水平,不是共享的技术资源吗?

在别人已经做好的产品基础上,开发出更好的产品,这很常见。

梁文峰能够做出斐然的成绩,我猜他对那些事情有浓厚的兴趣,愿意花钱花时间在上面。
中国的数理计算机编程的水平是世界顶级的,有这些条件,就做出来了。

中国人每天12-16个小时,一周七天,有一个新的技术,大家就马上学,迅速超越,
竞争非常激烈。这也是超过老美的一个重要原因。

但是,美国人岂能善罢甘休。

中美两国在高科技领域激烈竞争,给我们的生活带来更多惊喜和方便。
 
berkeley已经在一个小模型上完全复制了DS的训练方法,其实也不小,1.5B的参数,只用了$30

更不可思议的是,DS 重新写了程序不完全用NVIDIA 出名的CUDA, 这个CUDA可是NVIDIA看家法宝,花了NVIDIA几十年,如果DS可以绕过CUDA, DS 可以用任何GPU/CPU。。。我不觉得几个人的公司1年内能干出这么多。 如果这个报道真实,那么NVIDIA也有麻烦了

These modifications go far beyond standard CUDA-level development, but they are notoriously difficult to maintain. Therefore, this level of optimization reflects the exceptional skill of DeepSeek's engineers. The global GPU shortage, amplified by U.S. restrictions, has compelled companies like DeepSeek to adopt innovative solutions, and DeepSeek has made a breakthrough. However, it is unclear how much money DeepSeek had to invest in development to achieve its results.

当然不是一年时间,很多年的沉淀,可能只是现在这个版本花了一年。
 
If OpenAI assumes unlimited funds and major hardware advances for a brute force approach, and the Chinese assume limited resources and hardware advances and are forced to use better logic in their designs, I suspect better logic will win.

This seems very similar to the 70's/80's muscle-car vs japanese-compact cars' fuel usage situation.
 
Screenshot_20250129-070852.webp
 
“模型蒸馏”。上周没有定义这种行为是否侵权,这周开始定义。 :)
今天刚开始😀. Management 的能力就是总能为任何失败找到理由.
 
模型蒸馏是一个业界路人皆知的技术,大家都在用。

如果别人的模型是开源的,你编出一大堆问题问它,算是偷窃吗? :)
如果一个模型不是开源的,比如靠API挣钱的,把API 开着收钱,人家有本事问你问题,给你交钱,拿到他们想要的东西,完全合法,犯了啥罪了? :cool:


今天说美国科技大佬震怒,要鼓动美国政府刑事调查DEEPSEEK, 到这份上,估计最后要像对付孟晚舟那样要绑架了。:eek:
 
  • 喜欢
反馈: jy
大戏还刚开始

华为的AI 芯片

1738163166660.webp
 
后退
顶部