难道deepseek真牛B得超过了美国?1年内哪里找那么多天才,还没有出国留学回归的


Scientists are flocking to DeepSeek-R1, a cheap and powerful artificial intelligence (AI) ‘reasoning’ model that sent the US stock market spiralling after it was released by a Chinese firm last week

“Based on its great performance and low cost, we believe Deepseek-R1 will encourage more scientists to try LLMs in their daily research, without worrying about the cost,” says Huan Sun, an AI researcher at Ohio State University in Columbus. “Almost every colleague and collaborator working in AI is talking about it.”

Since R1’s launch on 20 January, “tons of researchers” have been investigating training their own reasoning models, based on and inspired by R1, says Cong Lu, an AI researcher at the University of British Columbia in Vancouver.

R1 is also showing promise in mathematics. Frieder Simon , a mathematician and computer scientist at the University of Oxford, UK, challenged both models to create a proof in the abstract field of functional analysis and found R1’s argument more promising than o1’s
你觉得DeepSeek train了自己的base model还是在open AI model上蒸馏的?
想听听行家的见解
 
欧洲人挺高兴的。原来以为自己兜浅靠边站了,现在发现自己还在赛场上。
 
你觉得DeepSeek train了自己的base model还是在open AI model上蒸馏的?
想听听行家的见解
这个不清楚, 即使是也很难从模型中发现,但是如果蒸馏也肯定不会大量使用,那么大参数要训练几个月,训练数据也是每秒上G的数据,那么大的数据量从chatgpt 不断流出,搞几分钟就会被发现。

微软也说有中国和其他公司使用chatgpt蒸馏, 并且在调查是不是deepseek ,没有明确指责deepseek

关键chatgpt o1 去年12月5号才出来,deepseek V3 圣诞节就出来了,蒸馏也不会那么快吧, v3比chatgpt以前的版本要高很多,不可能从chatgpt以前版本蒸馏的
 
最后编辑:
欧洲人挺高兴的。原来以为自己兜浅靠边站了,现在发现自己还在赛场上。

India’s IT minister on Thursday praised DeepSeek‘s progress and said the country will host the Chinese AI lab’s large language models on domestic servers, in a rare opening for Chinese technology in India.

印度IT部长马上说要用,这个印度曾经禁了中国300多个app
全世界人,除了美国应该都高兴,出来一个便宜几乎免费的竞争对手。

如果没有搅局的,全世界都会被老大搜刮,搜刮了以后,其他政府如果想收数字税,川普还会报复。
 
欧洲人挺高兴的。原来以为自己兜浅靠边站了,现在发现自己还在赛场上。

德国之声,算是德国最大的媒体了,昨天一个现场实时投票,85%的人认为DS的出现值得欢迎愿意使用, 只有不到10%的人认为是负面的。
 
但是用中国的app存在巨大的共产党隐患和风险。
 

India’s IT minister on Thursday praised DeepSeek‘s progress and said the country will host the Chinese AI lab’s large language models on domestic servers, in a rare opening for Chinese technology in India.

印度IT部长马上说要用,这个印度曾经禁了中国300多个app
全世界人,除了美国应该都高兴,出来一个便宜几乎免费的竞争对手。

如果没有搅局的,全世界都会被老大搜刮,搜刮了以后,其他政府如果想收数字税,川普还会报复。
印度遭遇传说中的天上掉馅饼。。。
 
最新的几个美国AI 专家访谈逆向工程分析,已经有好几个说
DS的INFERENCE 速度 来源于便宜的华为的910c 芯片

训练用的绝大部分是H800,少部分是走私的H100, 确实DS在使用H800上做了很多创新性的优化,比如绕过CUDA,在更底层操作。用自己开发的节点间通讯取代NVDA的一个LINK 接口,。。。。。 有8个技术创新
我觉得你还是好好卖热狗吧
 
最新的几个美国AI 专家访谈逆向工程分析,已经有好几个说
DS的INFERENCE 速度 来源于便宜的华为的910c 芯片

训练用的绝大部分是H800,少部分是走私的H100, 确实DS在使用H800上做了很多创新性的优化,比如绕过CUDA,在更底层操作。用自己开发的节点间通讯取代NVDA的一个LINK 接口,。。。。。 有8个技术创新


View: https://youtu.be/gcWNCTL19-c?si=rfRHnW2eQMab4Hj3
 
我觉得你还是好好卖热狗吧

您是大师大碗,动不动就就是几百B 的MODEL, 挥洒自如,请问,你说的这些是你用自己的银子或自己公司的银子搞的,还是雇用你的公司给你BUDGET ,让你在CLOUD上玩? 看你和那几位斗嘴挺有意思的。 钱袋深度,还有钱是谁的,决定着方案的走向,你说对吗?

老掐自知玩不了几百B 的MODEL, 就喜欢玩小的MODEL, 把小的MODEL 的作用发挥到最大 。 找出性价比最高的组合。 :)
 
您是大师大碗,动不动就就是几百B 的MODEL, 挥洒自如,请问,你说的这些是你用自己的银子或自己公司的银子搞的,还是雇用你的公司给你BUDGET ,让你在CLOUD上玩? 看你和那几位斗嘴挺有意思的。 钱袋深度,还有钱是谁的,决定着方案的走向,你说对吗?

老掐自知玩不了几百B 的MODEL, 就喜欢玩小的MODEL, 把小的MODEL 的作用发挥到最大 。 找出性价比最高的组合。 :)

小model就像embedded system,大model象PC,但是最终好像embedded比PC火
 
如果此报道是真的,那么DS运行效率高就make sense.
这个是训练效率高,跟运行没有关系,就是训练的时候用部分GPU算力预处理数据,这只是用在训练中,实际应用用不上。
运行效率来自两个发明,参数比chatgpt最新模型 少一个数量级,二是专家系统。
其他所有大模型没有用专家系统是因为训练有困难,D S肯定找到秘诀解决了训练问题。
我准备周末有空专门写一个技术分析讨论DS的技术创新.

mixture of experts专家系统,每次运行的时候不是所有参数都使用,就是跟问题相关的参数才运行。就像去医院一样,目前其他大模型都是去看家庭医生,而专家系统直接把你分配给专家看
 
最后编辑:
这个是训练效率高,跟运行没有关系,就是训练的时候用部分GPU算力预处理数据,这只是用在训练中,实际应用用不上。
运行效率来自两个发明,参数比chatgpt最新模型 少一个数量级,二是专家系统。
其他所有大模型没有用专家系统是因为训练有困难,D S肯定找到秘诀解决了训练问题。
我准备周末有空专门写一个技术分析讨论DS的技术创新.

mixture of experts专家系统,每次运行的时候不是所有参数都使用,这是跟问题相关的参数才运行。
推理模型如果很大运行时需要GPU,DS R1免费说明其对GPU依赖小,否则很烧钱
 
后退
顶部