难道deepseek真牛B得超过了美国?1年内哪里找那么多天才,还没有出国留学回归的

您是大师大碗,动不动就就是几百B 的MODEL, 挥洒自如,请问,你说的这些是你用自己的银子或自己公司的银子搞的,还是雇用你的公司给你BUDGET ,让你在CLOUD上玩? 看你和那几位斗嘴挺有意思的。 钱袋深度,还有钱是谁的,决定着方案的走向,你说对吗?

老掐自知玩不了几百B 的MODEL, 就喜欢玩小的MODEL, 把小的MODEL 的作用发挥到最大 。 找出性价比最高的组合。 :)

有没有可能是我决定走向呢?
小model的accuracy不太行,纯做chat的话聊个骚啥都能玩,但是某些特殊应用如果要他答案无限接近1或者0,那就越大的模型越好玩了,不光得大,还得快
 
这个是训练效率高,跟运行没有关系,就是训练的时候用部分GPU算力预处理数据,这只是用在训练中,实际应用用不上。
运行效率来自两个发明,参数比chatgpt最新模型 少一个数量级,二是专家系统。
其他所有大模型没有用专家系统是因为训练有困难,D S肯定找到秘诀解决了训练问题。
我准备周末有空专门写一个技术分析讨论DS的技术创新.

mixture of experts专家系统,每次运行的时候不是所有参数都使用,就是跟问题相关的参数才运行。就像去医院一样,目前其他大模型都是去看家庭医生,而专家系统直接把你分配给专家看
有待取证

目前感觉DS 的tuning很适合割韭菜的背后推手目的
适合聊天,不适合干活儿
 
有待取证

目前感觉DS 的tuning很适合割韭菜的背后推手目的
适合聊天,不适合干活儿
不清楚你的活,我们的活干得非常好,跟加拿大几个跟我们有合作的教授聊了聊,他们说用deepseek r1做研究非常有启发,给出一个问题,回答会把所有的可能都分析一遍,以前有什么算法,都是怎么解决的,能够给出数学模型,甚至程序。

虽然很罗嗦,但是信息量非常大。

这个特别符合做研究的,一个人做研究,如果这边读研究生,导师第一步就让你读相关方向的所有进展,有了D S后,这件事几天就能干玩。

那些研究者,如果转换研究方向或者解决新问题,DS 是最好的入手点,当然chatgpt 也不错,只不过没有DS 罗嗦,信息量没有D S大
 
不清楚你的活,我们的活干得非常好,跟加拿大几个跟我们有合作的教授聊了聊,他们说用deepseek r1做研究非常有启发,给出一个问题,回答会把所有的可能都分析一遍,以前有什么算法,都是怎么解决的,能够给出数学模型,甚至程序。

虽然很罗嗦,但是信息量非常大。

这个特别符合做研究的,一个人做研究,如果这边读研究生,导师第一步就让你读相关方向的所有进展,有了D S后,这件事几天就能干玩。

那些研究者,如果转换研究方向或者解决新问题,DS 是最好的入手点,当然chatgpt 也不错,只不过没有DS 罗嗦,信息量没有D S大

所以我说“适合聊天”
作为一个纯粹的human interface,还可以
所谓的信息量非常大,和罗嗦 - 别的model也可以,只是大部分人不太会用,包括researcher

但是把这个model当作工具的一环做数据处理/分析,基本用不了
 
这个是训练效率高,跟运行没有关系,就是训练的时候用部分GPU算力预处理数据,这只是用在训练中,实际应用用不上。
运行效率来自两个发明,参数比chatgpt最新模型 少一个数量级,二是专家系统。
其他所有大模型没有用专家系统是因为训练有困难,D S肯定找到秘诀解决了训练问题。
我准备周末有空专门写一个技术分析讨论DS的技术创新.

mixture of experts专家系统,每次运行的时候不是所有参数都使用,就是跟问题相关的参数才运行。就像去医院一样,目前其他大模型都是去看家庭医生,而专家系统直接把你分配给专家看
AI时代已经跟不上了,也搞不明白具体过程是什么样的了。但这篇报道勾起了在国内开发控制装置时的一段回忆。当时用16位单片机完成了国外用32位浮点DSP完成的控制功能。采用的方法不过就是用汇编编程,仔细研究算法,只有在真正需要高精度计算的地方才用32位计算等方法。
后来看到这里公司由C产生的汇编文件,虽然优化选项以打开,但产生的汇编代码仍然感到可笑。
 
不清楚你的活,我们的活干得非常好,跟加拿大几个跟我们有合作的教授聊了聊,他们说用deepseek r1做研究非常有启发,给出一个问题,回答会把所有的可能都分析一遍,以前有什么算法,都是怎么解决的,能够给出数学模型,甚至程序。

虽然很罗嗦,但是信息量非常大。

这个特别符合做研究的,一个人做研究,如果这边读研究生,导师第一步就让你读相关方向的所有进展,有了D S后,这件事几天就能干玩。

那些研究者,如果转换研究方向或者解决新问题,DS 是最好的入手点,当然chatgpt 也不错,只不过没有DS 罗嗦,信息量没有D S大

能推荐一个教程,引导你在本地自建一个小模型,训练它,最后可以使用。就像当初编译和运行第一个hello world程序一样?我看了看,可以用lm studio去下载hugging face上的模型,但是那些都是训练好的吧,拿来就用直接聊天?
 
能推荐一个教程,引导你在本地自建一个小模型,训练它,最后可以使用。就像当初编译和运行第一个hello world程序一样?我看了看,可以用lm studio去下载hugging face上的模型,但是那些都是训练好的吧,拿来就用直接聊天?
训练模型容易,关键你没有海量数据。我觉得现在情况已经不可能私人或者几个人去训练模型

训练好的模型,只要公开的,可以随便用。
 
训练模型容易,关键你没有海量数据。我觉得现在情况已经不可能私人或者几个人去训练模型

训练好的模型,只要公开的,可以随便用。

也没想训练的多好,只是想建立一个实用的例子,来了解一下过程。听说可以下载AI训练用的数据包?
 
也没想训练的多好,只是想建立一个实用的例子,来了解一下过程。听说可以下载AI训练用的数据包?
应该有公开数据,网上有很多程序包挂训练
你试试伯克利这个是不是能

这上面数据训练程序都有。
号称实现了deep seek的算法,当然是一个很小的模型,这个证明了DS 算法确实可以,但是具体训练大模型不清楚是不是号称的那么节省
 
你训练它?
你有海量数据?
你完全不懂。

你才不懂呢,整天就知道那几个大公司的大模型,开源社区里那些大大小小的model海了去了
 
也没想训练的多好,只是想建立一个实用的例子,来了解一下过程。听说可以下载AI训练用的数据包?

应该有公开数据,网上有很多程序包挂训练
你试试伯克利这个是不是能

这上面数据训练程序都有。
号称实现了deep seek的算法,当然是一个很小的模型,这个证明了DS 算法确实可以,但是具体训练大模型不清楚是不是号称的那么节省
我觉得像这个模型,小孩子如果十几岁,花1、2000投资买GPU,让他们学习训练可能是非常好的,我小孩已经大了,要不然让他玩这个。

GPU要用NVIDIA的,内存尽量大,4060 ti 16gb 就是非常好的切入点
 
我觉得像这个模型,小孩子如果十几岁,花1、2000投资买GPU,让他们学习训练可能是非常好的,我小孩已经大了,要不然让他玩这个。

GPU要用NVIDIA的,内存尽量大,4060 ti 16gb 就是非常好的切入点

上来就要linux,小孩先得ramp up操作系统
 
后退
顶部