找回密码
 点击注册
搜索
楼主: YinJi

成本仅国外30分之1,中国大模型已追上美国了吗

[复制链接]
 楼主| 发表于 2025-2-1 10:38:22 | 显示全部楼层

英伟达平台上线DeepSeek 留给人工智能4个新问题

凤凰网

Securely experiment and build your own specialized agents, as the 671-billion-parameter DeepSeek-R1 model is now available as an NVIDIA NIM microservice in preview on https://t.co/fC1rz1GH1C.

Learn more ️ https://t.co/uQ02dADJiP pic.twitter.com/xTzkuqIRnh

— NVIDIA AI Developer (@NVIDIAAIDev) January 30, 2025

英伟达网站显示,DeepSeek-R1模型已作为NVIDIA NIM微服务预览版在英伟达面向开发者的网站上发布。英伟达网站介绍称,DeepSeek-R1模型是最先进、高效的大型语言模型,在推理、数学和编码方面表现出色。

DeepSeek留给人工智能4个新问题

DeepSeek留给人工智能4个新问题


DeepSeek留给人工智能4个新问题

从1月20日DeepSeek公司(全称杭州深度求索人工智能基础技术研究有限公司)发布DeepSeek-R1算起,十余天内,在全球范围内快速掀起关注热潮,成为AI发展历史上的现象级事件之一。

至1月27日,在苹果App Store中国、美国区免费榜上,DeepSeek均成为第一, 超过了来自OpenAI的ChatGPT。

除了铺天盖地的溢美之词之外,最值得关注的两则评论,分别来自美国总统特朗普和OpenAI首席执行官萨姆·奥尔特曼。

特朗普认为,中国的DeepSeek公司“提出了一种更快、更便宜的人工智能方法,我认为这是积极的”,“(这)给我们(美国)的行业敲响警钟,我们需要专注于竞争以赢得胜利。”

萨姆·奥尔特曼于1月27日晚在社交媒体上发文,称“DeepSeek-R1是一款令人印象深刻的模型,尤其是考虑到它能够以这个价格提供”,“有这样的新竞争对手确实令人振奋。”

网红效应总会过去,一番喧闹之后,DeepSeek至少给AI领域留下四个需要深度思考和直面的真问题:

DeepSeek能够从“网红”到“长红”吗?

当DeepSeek已经用低价策略走出一条独特的路后,AI大模型还会继续走昂贵之路吗?

AI大模型到底要走开源还是闭源之路?

以及,如何看待DeepSeek之后的中美AI技术水平差距?换言之,中国真的借DeepSeek之机实现“弯道超车”了吗?

一鲸落,万物生,新的局面,也孕育着新的挑战。

1

DeepSeek能否从“网红”到“长红”?

近几天的表现反映出,DeepSeek并不是一个网红AI产品这么简单,全球各界已经归纳出其爆火的几个原因。

在开发背景方面,DeepSeek出自中国,而不是AI技术能力更为领先的美国;而且,其开发者也不是中国的互联网大厂,或者是AI“六小虎”等知名企业,而是一家中国初创公司,有西方网友甚至称其为“来自东方的神秘力量”。

性价比方面,DeepSeek能力强、体验感佳,水平堪比OpenAI相关产品,但价格仅仅是后者的百分之几。

在发展路径方面,DeepSeek与OpenAI“反着来”,成本低,所需算力少,一定程度上打破了AI大模型研发的“高价”神话。同时,与全球AI大模型龙头企业主要走闭源路线完全不同,DeepSeek技术路线完全开源,再次挑动了“开闭源之争”话题。

1 月 27 日,现象级国产游戏《黑神话:悟空》的制作人冯骥评价称,DeepSeek“可能是个国运级别的科技成果”。

他点评DeepSeek说,“如果有一个 AI 大模型做到了以下(六条)的任何一条,都是超级了不起的突破。但DeepSeek 全部、同时做到了。”他提到的DeepSeek六大亮点,分别为强大、便宜、开源、免费、联网和本土。

任何一款“网红”产品的产生都有其独特的内外部原因,同时,“网红”的宿命有两种,即成为“长红”或止于网红。

在中国AI业内人士看来,自2023年7月成立起,DeepSeek已有过两次“高光时刻”。这次在全球火出圈,可以称得上是DeepSeek的第三次高光时刻。

第一次在DeepSeek筹备成立期间。在2023年5月,正在组建DeepSeek公司的量化基金公司幻方就被媒体曝出可能拥有超过1万枚英伟达GPU,是几家头部大厂之外持有算力资源最多的公司。在当时,中国的AI“六小虎”也还在初创或筹建阶段。

业内一般认为,1万枚英伟达A100芯片是做自训大模型的算力门槛。从之后美国限制中国进口英伟达芯片的举措来看,DeepSeek的创始者极有远见和魄力。

第二次是2024年5月,中美市场上“百模大战”最激烈的时刻,DeepSeek突然宣布对大模型大幅降价,掀起“价格战”,其降幅甚至达行业水平9成以上。之后中国AI全行业在两周内迅速跟进,外界直呼“让大模型降成白菜价”。

此次DeepSeek走红之时,其在正式发布的资料中自豪地介绍,DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。

DeepSeek公布的性能测试比对成果

DeepSeek公布的性能测试比对成果


DeepSeek公布的性能测试比对成果。 图|DeepSeek官方微信

可以预见,不用很久,DeepSeek将成为中国AI领域正式的“新贵”,估值有望超过“六小虎”水平。但与此同时,DeepSeek面临的国内外竞争也将更加激烈。

从技术上看,细观全球业内人士评价可发现,DeepSeek-R1的水平与OpenAI o1“水平相当”,而不是领先。考虑到OpenAI o1发布已有4个月左右,之后OpenAI仍然在继续研究和精进,所以DeepSeek的水平能否与即将发布的新模型“水平相当”,或长期保持在较高技术水平上,还未可知。

从国外竞争形势看,DeepSeek对美国AI行业的刺激很大,未来技术起点高于中国企业的美国AI行业必然会更加进取。

1月21日,特朗普在上任美国总统后第二天,就在白宫宣布了一项名为“星际之门”(Stargate)的人工智能项目,将由美国甲骨文公司、OpenAI和日本软银集团联合出资5000亿美元打造。

除了特朗普的“星际之门”计划会更快速推进之外,近期包括OpenAI在内的AI巨头已经进行了战略微调。扎克伯格的Meta已宣布,2025年投资高达650亿美元用于与人工智能密切相关的项目,包括新建设一个规模巨大的AI数据中心以及大幅扩充AI领域人才,增加Meta人工智能团队实际规模。

在国内,各互联网大厂与AI“六小虎”、“四小龙”,甚至其他较小型的大模型公司,也必然会如美国企业般调整战略和技术路线,进行新竞争。未来有下一个DeepSeek的出现,也不是没有可能。

同时,国内外对AI感兴趣的资本,以及各家互联网大厂,普遍有兴趣对DeepSeek或投资或合作。如此关键和微妙时刻,考验着DeepSeek掌舵人的智慧。

全球AI发展形势“一月千里”,未来对于DeepSeek来说,不再是“不进则退”的局面,而是“不快则退”。想要从“网红”到“长红”,并不容易。

2

AI大模型还会继续走“烧钱”之路吗?

贵、烧钱,是AI大模型效用足够激动人心的另一面。

AI大模型最烧钱的部分是算力,需要海量性能最先进的GPU芯片,其运行还需要巨量的电力能源支持;其技术核心是算法,需要大量顶级的人工智能专家和技术人员参与研发。

因此可以看到,美国的AI大模型项目动辄投资数十亿美元,大模型计划动辄投资数百亿美元、上千亿美元。

但DeepSeek此次对上述模式进行了一次让人震撼的改变——一家小型初创公司,仅100多名研发人员,在算力受限情形下,使用相对“极低”的训练费用,训练出技术水平堪比全球顶极的AI大模型,且实现了“极低”的用户收费。

据央视网报道,DeepSeek公司R1模型训练成本仅为560万美元,远远低于OpenAI 、谷歌等美国科技巨头在人工智能技术上投入的“数亿美元乃至数十亿美元”。

伴随着技术的精进,AI大模型研发的成本已经走上快速下行通道,DeepSeek显然大大加速了降本进程,而且从行业反映看,确实存在进一步加速降本的可能性。

DeepSeek页面

DeepSeek页面


DeepSeek页面截图

但是,如果据此认为DeepSeek终结了AI大模型研发的昂贵路线,恐怕为时尚早。

首先,现阶段的DeepSeek R1其实只是AI大模型的一个具有“深度思考”功能的分支,一个分支的低成本还不能代表全部大模型能走上低成本之路。事实上,低成本之路能否走通,还需要全行业进行较长时间的验证。

其次,包括DeepSeek在内的中外AI大模型行业,真正要实现的目标并不是AI大模型本身,而是AGI——通用人工智能。目前业内尚不能确认AI大模型是否是实现AGI的正确解,更不能确认未来的AGI研发之路是否昂贵。

再次,从市场近期反应看,“终止昂贵之路”一说还没得到更进一步支持。

芯片巨头英伟达股价虽然多日下跌,但跌幅尚有限,美国科技股同样跌幅有限。此外,市场上暂时还没有传出AI大模型项目或计划大幅向下调整预算的消息,而Meta在2025年高达数百亿的AI预算甚至是在DeepSeek爆火之后才传出。

3

开源,还是闭源?

无论美国还是中国,AI大模型领域的开源、闭源之争,均持续已久。

DeepSeek是坚定的开源路线支持者。任何人均可自行下载与部署,且提供论文详细说明了训练步骤与窍门,甚至DeepSeek APP上提供了用户可见的AI思考、推理过程。

DeepSeek爆火后,UC伯克利、港科大、HuggingFace等机构根据开源信息,纷纷实现低成本复现,对外称仅花30美元就能见证“啊哈时刻”(指可以令用户眼前一亮的时刻)。

原本,闭源路线在中美均有隐隐占优之势,但DeepSeek横空出世并爆火,增加了太多变数,势必会在业内再次引发开源、闭源之争。

DeepSeek在官方公众号上称:“以开源精神和长期主义追求普惠AGI,是 DeepSeek 一直以来的坚定信念。我们非常兴奋能与社区分享在模型预训练方面的阶段性进展,也十分欣喜地看到开源模型和闭源模型的能力差距正在进一步缩小。”

同样坚持开源路线的Meta 的首席人工智能科学家Yann LeCun近期发文表示,DeepSeek 的成功“并不是中国的人工智能超越了美国,而是开源模型正在超越专有模型”。

其在文中还表示,“DeepSeek受益于开放研究和开源,Meta的Llama也是如此。OpenAI 最初是一家开源人工智能公司,其使命是创造造福全人类的技术,但最近已转向闭源。”该评论对于闭源路线,隐有火药味儿。

闭源自有其道理。AI基础性研发投入巨大,闭源可以让企业更有动力投入,并利用技术领先获得市场地位,然后进行市场变现。而开源意味着技术共享,市场收益一般较闭源要小。

其中的典型代表便是苹果。苹果智能手机的操作系统和系列软件是闭源生态,当苹果市占率实现全球第一时,其“赢家通吃”效应显著。苹果之所以能长期拿走全球智能手机大部分利润,与其闭源生态密切相关。而安卓系统为开源生态,谷歌利用技术共享的方式开放给大量手机厂商,其赚钱方式为技术授权和知识产权收费模式。其利润远小于苹果。

2024年7月5日,百度CEO李彦宏在一场圆桌访谈中对开源与闭源模型进行了讨论,并谈了坚持闭源路线的理由。他解释说,同样参数规模下,开源模型的能力不如闭源,闭源模型可以根据用户需求提供多种变体,以平衡效果、推理速度和成本;无论是ChatGPT还是百度的文心一言,这些闭源模型的平均水平都比开源模型更强大,推理成本也更低。

对于开源模型,李彦宏也承认其价值。他表示,开源模型在一些学术研究、教学等领域有存在价值,可以用于研究大模型的工作机制,形成理论。

其实开源、闭源模式之争的背后,是关于如何平衡技术创新、商业利益和市场竞争力的讨论,是难以给出标准答案的选择题,并没有优劣与对错。

4

DeepSeek拉近了中美AI的技术差距吗?

DeepSeek爆火之后,大量的乐观评论也随之而来,认为意味着中美在AI领域的差距到了“微乎其微”的地步,甚至,还有人说中国已实现“弯道超车”。

DeepSeek还引发了资本市场的剧烈反应,有西方媒体称其为中国大模型“爆击华尔街”。

1月27日,美国股市开盘后,科技板块整体下跌,其中美国芯片巨头英伟达(NVIDIA)暴跌约17%。随后,美国、欧洲电力供应商的股价也遭受重创(AI大模型预训练、运行等对能源需求巨大)。

英伟达近期股价走势

英伟达近期股价走势


英伟达近期股价走势

甚至,有经济分析认为,DeepSeek可能影响全球经济。例如德银策略师George Saravelos在最新报告中认为,DeepSeek的出现可能对全球经济产生“积极的供应冲击”,甚至可能使美元“面临边际下行压力”。

客观、冷静地看,DeepSeek当然是重要的局部突破,但整体上中国AI领域尤其AI大模型领域与美国还是有着一定差距的。

首先,DeepSeek-R1代表大模型的“深度思考”能力,是通用大模型的一部分能力,因此其水平接近美国市场的头部同类模型,且是更早(4个月前)发布的模型,是一种局部突破,而非整体突破。

其次,尽管DeepSeek通用大模型V3也广受好评,但其受好评的前提是其具有极致的性价比,“性能接近”美国头部产品,且价格更低(是对方的百分之几)。显然,这不代表V3真的与ChatGPT在技术上没有差距。

再次,中国AI行业与美国行业在算法、算力和数据上的差距依然没有实质性改变。

算法方面,美国是AI大模型的原创研发国,技术路线和发展方向目前均主要由美国引领。算力方面,美国目前具有绝对优势,且随着美国对英伟达GPU芯片的出口限制日益严格,中国受限会愈加严重,而国内自主研发虽有重大进展,但尚需追赶和突破时间。数据方面,中文数据存在数量少且“互联网孤岛”加剧之势。

最后,从市场表现看中美差距依然较大。与美国相比,我国AI企业数量较多,但核心产业规模明显偏小。并且,我国AI企业估值与美国AI企业估值有拉大之势,OpenAI市场估值超过1万亿元人民币,马斯克主导的xAI估值已达400亿美元,而我国“六小虎”估值普遍为100亿至数百亿人民币,互联网大厂则普遍没有因为发展AI大模型得到较多的AI赋分。

尽管DeepSeek爆火不能完全代表中美AI技术水平接近,但确实进一步缩短了中美AI的技术差距。至于缩短了多少,或许还需要市场后续发展来给出答案。

回复

使用道具 举报

 楼主| 发表于 2025-2-2 09:29:01 | 显示全部楼层

科技战2.0来临?DeepSeek效应接下来的22个可能

盘古智库

如果非要用一句话概括当前所处阶段,可能是:星辰大海第一步。DS的探索和贡献都值得肯定,但隐藏的问题以及带来的问题,和取得的进展一样多。

大年初一原本说啥也不干,除夕写到一半的这篇分析暂时搁置了一下,没想到事态发展比预期还快。原本推测的其中三个可能(数据剽窃指责、启动安全调查、指出芯片算力作假)没有隔夜老美就扔出来了。年都不让人好好过了真是,那就直接进入其它部分的沙盘推演。接下来事态发展的22个可能,立贴为证(都只是可能不是事实,不过可能会有一半以上的命中率)。

1.这事与23年的流浪气球事件、某次产品发布相仿,大洋此岸认为是风口上的自然现象,彼岸紧张兮兮如临大敌,貌似过度反应实则有些情绪酝酿已久。有关方面原本尽力舒缓的空气会因此紧张,会放大、提前、加速一些问题的进程。且气球只是隔空影响,短期事件。而AI对老美的冲击却是实实在在,短中长期必将持续。新版中国威胁论近几个月其实明显抬头且正在酝酿和推动新一轮动作,DS这一波正好在特朗普周期的起点与之碰撞发酵,互为燃料。

2. 新冷战经济主战场,从贸易争端回合进入AI争端回合。贸易争端以终极关税收尾,AI争端从芯片算力、数据权利、模型原理开始。AI争端实质上既是科技战2.0、脱钩2.0的发端,也是科技战2.0、脱钩2.0的核心,主权AI与AI主导权的混合体?多极世界,AI浪潮,大洋此岸有自己要走的路,不必唯老美马首是瞻,更不必被彼岸带节奏,但在准确评估的基础上控制进程,预判彼岸的预判,把握好自己的节奏,有更智慧的成本费效比更好的博弈和发展策略,以及务实精进,是必要的。

3.中国背景大模型等AI产品技术服务全面禁绝进入美国市场,对人工智能会采取比TikTok类互联网服务更严厉管制政策,无论开源闭源大小体量均在禁绝之列。

4.用其它模型蒸馏也好,从其它模型获取数据也好,这方面监管政令与立法也会出台。安全、数据、知识产权等是藉口。OpenAI等从数据保护角度可能采取诉讼等方面动作,但大概率因为无法跨境执行会无果而终。从根本上美国AI头部企业这方面的重点会是推动政令、立法。变相蒸馏无法彻底去除痕迹,也会体现在模型output上,构成不利。但OpenAI扒了整个互联网的数据也是问题,全球互联网数据是全人类几千年文明成果,几十亿现存地球人类共同形成的知识信息财富,OpenAI为这些知识付费了吗,为这些数据取得授权了吗。“窃取”全人类、全网、亿万用户数据,恐怕是几乎所有AI基座模型共同的原点、“原罪”。

5. 联合盟友力量禁入全球其它市场是第二步。四五天前讨论过,当时原话是:如果DS这件事能起到这样的作用,让老美意识到AI-芯片-算力脱钩政策失效并且管制还不如不管制,算是DS有重要贡献,这事高调的收益为正,应该更高调才对。但如果DS这事包括AI、智能新能源汽车、机器人等整体上成为新的中国威胁论的重要支点,起到适得其反的作用,让老美意识到更应该进一步收紧上下游更应该生态级遏制,让中国科技难以形成全球循环失去规模效应,因而高成本低收益进而影响到技术迭代能力,那么这事的收益为负。所以,核心问题是评估这事的收益,而不仅是技术水准到底如何。评估清楚这个问题的走向和得失正负,就知道到底是应该高调自信造势,还是低调务实精进。

6.芯片算力必然进一步收紧,这方面拜登禁令大概率不会被撤销,而且会加码到更低阶的AI算力卡比如H20,观察这方面问题的一个标志,是看字节跳动能不能拐弯拿到清单上的英伟达芯片。无论芯片水进来,还是海外自建算力中心,又或者租用第三方算力中心,三条路大概率都会被堵死。中国背景的企业、大模型,最终会被外力内力一起推到国产芯片算力这条道上来,生态分岔点就在2025,利好国产算力但国产算力必须加快迭代速度。

7.消费级算力卡的下限未来可能会从RTX5090下沉,Project DIGITS可能不会在中国上市,AMD、Apple的一些消费级工作站级高算力产品也可能受限。

8.自研通用GPU、ASIC芯片的离岸代工制造,以及委托博通、Marvell等开发ASIC芯片以及这些芯片的海外代工,这些路径接下来可能也会被完全切断。

9.限制代工制造的取向,有从AI大模型训练推理芯片,向汽车、机器人等领域的AI算力-SoC芯片扩大的趋向。

10.AI技术与知识产权保护方案也会有追责或诉讼等动作,相关保护政令甚至法案大概率;更进一步,AI方面会成为中美知识产权问题交涉、博弈的焦点;这方面的实质影响,可能比蒸馏意义上的数据争端要大一点。

11.以上事态加速AI世界更进一步向两个生态体系分裂,对国产芯片算力、国产大模型等相对有利,对国产AI应用开发者利用老美等国AI大模型尤其基座模型不利。因为即使科学上网,因为彼岸禁绝力度加强,注册使用账号、API都变得更为困难。

12.前面第6点说了利好国产算力,不过对国产芯片算力、国产大模型等也有不利,就是前面第5点说的,这事会升级,老美策略重点也在转变。会从科技脱钩转为“科技脱钩+生态遏制”,让中国科技难以形成全球循环,失去规模效应因而高成本低收益,市场造血机能受限,进而影响到技术迭代能力。他的生态要搞得大大的,成为全球基础设施,你的生态边界要给你压缩到小小的,彼岸要以大生态围合压制小生态。一个世界,两套生态。

13.开源世界走向分裂,一个生态的开源进入不到另一个生态,高阶开源模型将纷纷主动被动收紧开放程度,主权AI理念的国家纷纷收紧对开源模型的管制,且AGI千后会进一步加大促使高阶开源模型走向闭源的力度。不过头部大平台,尤其是原来只做闭源的平台,也会纷纷推出开源模型。个中原因,不仅仅在于开源与闭源之争,更在于智能未来的分布形态必然是端云结合公私兼有开源闭源互补,大平台必须从模型体系角度适配未来的生态,尤其是中心化与分布式结合。

14.中美AI 合作越来越没有基础,也不会真的走向深度合作。拜登周期对AI监管对齐相对重视,合作还有些基础。特朗普周期放松监管。“AI军控”基本上会失去最重要的两个AI生态之间的国际协同。在人类共同挑战层面的礼貌性互动大概率。

15. DS到底是不是只用了很少的芯片算力,这方面信息会越来越显露出一些。DS的确在较大程度上节约了算力,相当于上一个阶段同体量模型算力消耗的七八分之一,这也符合这个领域模型量效比的演进规律。训练和推理的单位算力成本实际上在DS现象之前就已经在非常显著的持续下降了,推理成本普遍目前已经降至早期的千分之一不到,训练方面成本效率从A100到B300结合模型技术也有百倍提升。DS的算力节约是这个演进过程的一部分。

不过也不能完全排除夸大、减除、隐藏了一些状况,DS的技术报告和各渠道披露出来的信息,也有的部分。而原因或许是:可能性之一,基于母模型部分成果,训练公开面市的模型产品,隐藏了母模型数据与训练等方面信息。可能性之二,模型数据准备和训练存在几个不同阶段,技术报告只涉及中后段情况。可能性之三,减除训练算力和芯片数量,有以此为亮点的传播考虑,也有不得已而为之的难言之隐。有一定概率FP8之前存在FP16的过程,以及一个隐藏在V3和R1后面的不完全体。

16. 几个常识下的LLM老周期与物理模型等新周期:RL增强学习其实更消耗算力;模型从预训练后训练蒸馏到不同量化程度下的不同体量模型交付,从数据、算法、训练、蒸馏、量化的精度来说,必然是做加法在前做减法在后,FP8训练也不是不可以但大概率FP16过程在前;蒸馏是信息衰减知识衰减能力衰减而不是增益,只不过得失、体量、算力、效率之间会综合权衡;头部大模型整体到了“高可用”阶段,DS的高可用不是独有现象。如果横向使用各类模型较多,会发现在DS上体验到的那些惊艳,在其它模型上也会通过其它问答体验到,一百一千一万个问题问下来,不同模型都会对一些错一些且统计差距不大,表现优异的部分和比较平庸的部分,分布在不同问题上。DS不比其它头部模型整体更差,不过也没比其它头部模型整体更好。DS V3和R1实质上都处于LLM也就是大语言模型这个周期,多模态不具备,而产业整体已经开始进入时空智能、面向现实世界的物理世界模型的新周期。另外,DS今天达到的高度,其它国产大模型之前在不同阶段也曾经从SOTA等角度达到过,只不过是当时的高度,到今天为止各个国产大模型也是差距甚微,不分伯仲,不同问题上互有所长。发布以来,V3的官方版、R1渠道版都已反复使用,700亿参数的R1-Distill-Llama-70B在本机安装使用,手机里的1.5B的8bit蒸馏版也下载体验了,综合质素不错,实感符合以上信息。

17.近期国内在AI其它几个方面的进展,其实才是真正处于前沿且有创新有探索。比如一些视觉理解模型、实时语音智能、基于物理法则的视频生成模型、世界模拟器(尽管距离真正的世界模型其实还差十万八千里)、比如生成与理解双向的多模态模型、AI Agent的一些新探索、具身智能与机器人3.0、传感融合与端到端下的Transformer自动驾驶2.0。避免广告植入嫌疑不提具体企业和模型名称。无论千问、豆包、元宝、文心、Kimi、智谱、MiniMax等,其实哪一家的探索、进展、贡献、成就,都不比DS低。AI中国的崛起是全方位的,不是DS一个单点。

18. DS对芯片算力以及英伟达是不是构成冲击,这事的重要性已经排在末位,但总体事态是因这事而起,所以还不能无视。实际上:预训练算力资源有节约,但算力节约方面是有下限的,后训练R1实际上比PRM+search更消耗资源,推理方面DS的R系列也好OpenAI的o系列也好,未来整体会越来越耗费资源。

前天英伟达大涨时我的反向看法:有一天英伟达PE掉到30-40倍不奇怪,而从目前的五六十倍掉到三四十倍,原因会是至少三个因素的耦合,一是算力需求增长拉动营收业绩成长从而拉低PE,二是虚高的价值预期都会波动回调,这一点会反映在股价上,三是算力尤其推理算力供给走向多元化。但这三个原因里没有一个是:有一天AI不需要那么多算力了。股市以外,同样需要回调的是OpenAI飘了的心态和Pro账户高达200美元的每月金额。

上前天英伟达大跌时我的反向看法:LLM单位训推算力消耗本来就在下降,但LLM周期后面是时空智能、具身智能、物理现实世界模型等新周期,这还不包括三个亿万卡时代。算力存在向上和向下两个曲线,一个曲线拼效率拼成本拼价格,对AI普及贡献大但对AI走向AGI的贡献微乎其微甚至可以忽略,另一个曲线拼算力拼模型原理拼脑能力进化从大语言模型走向物理现实世界模型,过程中力摘一个又一个AI圣杯。算力总体需求依然大幅增长。大跌是多因素耦合,是芯片算力股本身的回调、吐纳、换手需求,不能把所有下跌的账都记到DeepSeek的功劳簿上。不过英伟达惊吓得不轻,惊吓对挤泡沫有帮助。

股市涨跌是市场对PE的重新计算,算力涨跌是各方对AI的重新评估。DS开启了产业市场对芯片算力价值基本面的重新评估,好事。但头部企业因为大多已经同时处于上一个周期的成熟期和下一个周期的前端,所以推理服务需求剧增导致算力投资大增,数据和算力消耗高出几个数量级的新原理模型训练也需要巨额算力基础设施投资,训练更好的新的大模型还是需要更高的算力。所以今年头部企业基础设施投资大都在百亿美金以上甚至五六百亿美金这个水平。

19.有文章说因为CUDA不够高效,DS训练已经绕过CUDA了,有点意思。抛开PTX不说,在另外一个层面,实际上理论上每家开发的大模型,都可以定制专门的ASIC架构芯片来训练,且一定比英伟达的通用算力更高效,但ASIC架构芯片开发成本高迭代周期长,推理可以等但训练往往等不了。只有资金和技术能力更强的大平台才有空间玩这个循环,比如Google自研自用的TPU,也提供给Apple用来训练模型了。

20.中外互联网都有记忆,DS技术报告提到的方法哪些是原创,哪些是采纳整合,哪些是别人也用过,哪些是第一次用,只要深度搜索都能了解到,不一一而足。这方面DS所开启的可能性到底是什么,以及创新到底是什么,时间是最好的答案。

21. DS有没有short做空英伟达,无从考证,这方面的可能性留给大家。

22. 不完全是自然传播,不同推手各自不同考虑,其评估、把握、预设值得商榷。只能说各种情绪都利用到了,引爆感也够强,但可控感差一些,也没有站在更高层面把握走向。

如果非要用一句话概括当前所处阶段,可能是:星辰大海第一步。DS的探索和贡献都值得肯定,但隐藏的问题以及带来的问题,和取得的进展一样多。舆论太希望一个面成功的时候,容易对某一个点寄予过多希望,因为这个点是符号是载体也是心理象征。一些流量操作过度解读也有自身考虑。但这些容易误导各方。实际上应该对人工智能领域的重要方面给予全面关注,对升维竞争的创新前沿予以重点关注。生态创新才能实现可持续创新。这是一个端边云网感算数智多要素互相催化的复杂生态,一蹴而就、一夜变天、单点突破的思维,不符合发展规律,也没好处。

纵观整个事态,山雨欲来的新版中国威胁论及时利用了适时出现的它,有做空和回调需求的金融市场也巧妙地利用了它。渴望崛起的我们有没有被利用先且不论,这件事的背后存在一个隐约可见的产业、科技、社会舆论场等角度相互发酵的动力机制,一切并非偶然。

中国AI必然全方位崛起,老美等必然全力遏制。还是那句话,中国必须走自己的路,不必看老美行事,AI发展的指挥棒和话语权属于全球人类,不属于老美。但过程中要预判他们的预判,这样有助于走好自己的路。此外唯一需要斟酌的是,高调与低调之间,何种策略的收益为正,何种路径对整个产业而不仅是其中一家企业相对更为有利?此外,实事求是、务实精进更有利于发展,还是言过其实、势大于实更有利于发展?所有高出实际价值的信用透支最终都会转化为成本,只不过成本由谁来支付。水到渠成、实至名归的实力出击,一定好过于过早短兵相接,更好过于过早沽名钓誉(这里并非指DS,而是过往存在的个别浮夸现象)。华为式的务实精进,是可以参考的现实模版。

但是从业态、竞争角度,DS给产业市场带来了活力,有希望发挥鲶鱼效应,尤其在影响大厂方面。更多的竞争,是用户的福音。尽管算力节约有下限,未来主要还是靠算力往上走模型原理往前走,但DS在App Store全球免费下载榜跃升为第一,还是一件非常提气的事。从这段时间小米、华为、OV等应用市场的下载量分析,目前DS还是比其它头部AI的App少一两个零。破圈效应在转化为市场实地方面,实效不够,还需加力。尤其慕名而来的网民批量涌入的情况下服务一再出现卡顿问题,对流量转化为用户影响较大。推理服务方面的算力部署,需要及时扩大投资了。

回复

使用道具 举报

发表于 2025-2-2 15:10:49 | 显示全部楼层

美追究英伟达芯片如何流向DeepSeek,新加坡将配合

美国AI芯片制造商英伟达在加利福尼亚州圣克拉拉的公司总部

美国AI芯片制造商英伟达在加利福尼亚州圣克拉拉的公司总部


美国AI芯片制造商英伟达在加利福尼亚州圣克拉拉的公司总部

新加坡贸易与工业部(MTI)星期六(2月1日)发表声明表示,新加坡期待美国公司遵守美国政府出口管制措施和新加坡的法律。这份声明是在外界质疑中国可能突破美国的禁令,通过第三方购买英伟达(Nvidia)尖端人工智能芯片用于建造人工智能大语言模型DeepSeek之时发表的。

“针对DeepSeek是否通过在新加坡的中间人获取受到美国出口管控商品英伟达芯片一事出现了一些疑问,”彭博社援引新加坡贸易与工业部发表的声明说。

硅谷AI行业一名高管日前对美国财经电视频道CNBC透露,DeepSeek拥有英伟达人工智能高级芯片H100五万片。这五万片被列入严控出口名单的芯片是如何落入Deep Seek公司之手成为美国追查的重点。

路透社在星期六发表的一篇报道中援引消息人士的话说,美国对中国实施严厉的尖端芯片出口管制之后,已经出现有组织的向中国走私人工智能芯片的活动。新加坡、马来西亚和阿拉伯联合酋长国等国家被牵涉其中。

一家过去默默无名的中国科技公司幻方量化旗下的子公司深度求索(DeepSeek)通过低成本硬件开发出的开源人工智能语言模型DeepSeek最近横空出世,并且号称在性能上和美国最领先的AI模型旗鼓相当,一度让西方科技界和金融界都感到震撼,有人甚至惊叹美国对中国高科技领域封锁政策的失败。

苹果应用商店上DeepSeek应用下载量一度超过ChatGPT,占据下载量排行版之首。全球投资人受此影响也大幅抛售美国科技股,给美国科技股造成过万亿美元的损失,英伟达的市值一天之内蒸发5930亿美元。这是美国股市上一家公司单日市值蒸发量最大的一例。

路透社和彭博社等媒体星期五报道说,美国政府已经针对DeepSeek是否通过新加坡的第三方公司转购英伟达的尖端芯片一事展开调查。

彭博社报道说,美国总统特朗普(Donald Trump)星期五在白宫会晤了英伟达首席执行官黄仁勋。

特朗普在会见黄仁勋之后表示,美国最终将对芯片加征关税。此举有可能给英伟达造成困扰,因为英伟达依赖像台积电这样的代工伙伴生产其设计的尖端芯片。

CNBC报道说,英伟达发言人星期一曾向该媒体表示,DeepSeek使用的是完全与美国出口管制合规的芯片。报道说,该电视台尚未获得DeepSeek对此事的评论。

“我们期待像英伟达这样的美国公司遵守美国的出口管制和我们国内的立法。我们的海关和执法机构将继续与它们的美国同僚进行密切的合作,”CNBC援引新加坡贸易与工业部的声明说。

“我们始终坚持法治,并且对违规个人和公司采取决定性和坚决的行动,”声明又说。

彭博社指出,DeepSeek并未完全公布其人工智能大语言模型所使用的芯片,但是其研究人员在上个月发表的一篇论文中提及使用英伟达专门为中国市场设计生产的H800芯片进行训练。H800是在拜登政府禁止向中国出口尖端芯片之后,英伟达专门为中国市场量身打造的一款符合美国禁令要求的先进程度较低的芯片。

英伟达在去年11月公布的第三季度财报中指出,新加坡在其营收中的占比接近22%,并表示“与新加坡营收相关的出货都是运往新加坡以外的地区,而且新加坡本地的出货却微不足道”。

新加坡贸易与工业部在星期六的声明中特别提到英伟达的说法,声称英伟达没有理由相信DeepSeek通过新加坡获取了遭出口管制的芯片。

“新加坡是一个国际贸易枢纽。美国和欧洲大公司都在这里经营大量业务。英伟达已经解释说许多这些客户使用它们在新加坡的商业实体采购用于美国和其他西方国家产品的芯片,”声明说。

VOA



回复

使用道具 举报

发表于 2025-2-4 13:13:41 | 显示全部楼层
OpenAI执行长:“没计划”控告DeepSeek

中国AI新创公司DeepSeek(深度求索)、OpenAI的聊天机器人ChatGPT

中国AI新创公司DeepSeek(深度求索)、OpenAI的聊天机器人ChatGPT


▲中国AI新创公司DeepSeek(深度求索)、OpenAI的聊天机器人ChatGPT。

OpenAI执行长阿特曼今天在东京告诉媒体,OpenAI“没计画”控告中国新创公司“深度求索”(DeepSeek)。DeepSeek强大且开发成本似低的AI聊天机器人,引发矽谷的关注。

法新社报导,人工智慧(AI)聊天机器人ChatGPT开发商OpenAI上周警告,中国企业正努力试图仿冒其先进的AI模型。

阿特曼(Sam Altman)今天在东京告诉记者:“不,我们目前没计画控告DeepSeek,我们只会继续打造优异的产品,以模型实力引领世界。”

阿特曼也再度表示:“DeepSeek的确是令人印象深刻的模型,但我们相信我们将继续向前沿推进,推出优异的产品,所以,我们乐见出现对手。”

“我们过去曾面对许多对手,但我想推动技术进步和保持领先,符合所有人的利益。”

DeepSeek的表现引发一连串指控,声称DeepSeek对AI聊天机器人ChatGPT等美国领先的科技,进行逆向工程。

OpenAI曾表示,对手使用一种名为“蒸馏”(distillation)的技术,即较小的AI模型透过模仿较大模型的行为和决策模式来学习,类似学生向老师学习的方式。

不过,OpenAI本身也面临多起侵犯智慧财产权的指控,这些指控主要和使用受版权保护内容训练其生成式AI模型有关联。

ettoday

回复

使用道具 举报

 楼主| 发表于 2025-2-7 14:26:34 | 显示全部楼层

纽时eepSeek的成功是否意味着美国技术控制的失败

纽约时报中文网

英伟达生产的芯片

英伟达生产的芯片


美国试图限制中国获取先进的人工智能技术,尤其是英伟达生产的芯片。 Christie Hemm Klok for The New York Times

在过去三年里,美国一直在稳步采取措施,限制中国获取尖端计算机芯片的能力,这些芯片为先进人工智能系统提供动力。美国的目的是放慢中国在研发先进人工智能模型上的进步速度。

现在,一家名为DeepSeek的中国公司已开发出了这种先进技术。DeepSeek在最近几周发布了各种各样的人工智能模型以及一个聊天机器人,它们的性能可与美国公司生产的最佳产品相媲美,但DeepSeek使用的价格高昂的人工智能芯片数量比美国公司通常需要的少得多。发布后的那个周末,随着世界各地的人们下载DeepSeek的聊天机器人,该应用在苹果应用商店的下载量已跃居榜首。

这一进展已在人们心中引发了重大质疑:美国近年来逐渐加强出口管制是否有效?拜登政府建立了一套全球规则体系,并稳步地将其适用范围扩大到阻止先进的人工智能技术(尤其是英伟达生产的芯片)落入中国人手中。美国政府担心,人工智能技术不仅会让中国在经济上获得优势,也会让其在军事上获得优势。

DeepSeek研发的成果已引发了一场关于美国的技术控制是否已经失败的激烈争论。以下是需要了解的内容。

DeepSeek的创新暗示,拜登政府行动可能太慢,无法跟上私营企业规避政府控制的步伐。

DeepSeek表示,训练其最新模型的计算机用的是英伟达H800芯片。这款人工智能芯片是英伟达在美国最初对中国实行出口管制后专门为中国市场开发的,英伟达的做法曾在华盛顿引起了相当大的戏剧性反应。

美国政府2022年对英伟达最尖端的芯片实施出口限制后,该公司很快采取了应对措施,把出口给中国的芯片略微降级到刚好低于政府设定的门槛之下。严格地说,让中国公司用上这些芯片是合法的,但这也使得它们能获得与采用更高端芯片几乎相同的结果。

这激怒了拜登政府的官员,他们开始采取行动限制略微降级芯片的出口。但政府的行动缓慢,他们花了大约一年时间才禁止了H800和其他降级芯片的出口。与此同时,中国公司已囤积了大量芯片。

目前尚不清楚DeepSeek的英伟达H800芯片是从什么渠道获得的,但如果公司是在2022年底或2023年购买了这些芯片的话,那就是合法的。但这种购买现在已经不合法。

“无法控制那里已经有的东西,”在兰德公司做技术分析的高级顾问吉米·古德里奇说。“如果拜登政府更快地做出了反应,限制了H800进入中国的话,毫无疑问,DeepSeek在推出其大模型上会面临更大的挑战。”

早在华盛顿的出口管制生效之前,DeepSeek就已经花了好几年时间储备自己的芯片供应。据中国媒体36氪发表的一篇对DeepSeek创始人梁文锋的采访,到2021年,DeepSeek是少数几家购买了至少一万枚英伟达A100(英伟达在2020年发布的先进芯片)的中国公司之一。

美国在打击芯片走私上也困难重重。

虽然没有证据表明DeepSeek使用了走私芯片,但许多中国AI公司都在这样做。人工智能训练巨头Scale AI公司的首席执行官亚历山卓·王(音)对《纽约时报》说,中国公司拥有的高端芯片数量远远高于美国的出口限制所允许的水平,DeepSeek可能拥有约五万块英伟达的高端H100芯片,“他们显然不能提这个。”

英伟达和美国政府都认为,走私的规模有限。但《纽约时报》去年曾报道,受限制的人工智能技术在中国有十分活跃的市场。在中国南方城市深圳,一个繁忙市场的芯片供应商称,他们经手过数百或数千枚受限制芯片的买卖。

11家公司的代表称,他们销售或转运过被禁的英伟达芯片,包括公司当时最先进的A100和H100芯片。《纽约时报》发现,还有数十家企业在网上提供这些芯片。深圳的一家供应商给记者展示了有关安排交付装有2000多枚英伟达最高端芯片的服务器的短信交流,这笔交易的总额高达1.03亿美元。

时报进行报道之后,还出现了更多记述大规模走私的报道,尤其是通过亚洲其他国家的走私。

拜登政府已在今年1月发布了旨在解决走私问题的全面法规,对英伟达向世界上每个国家销售的芯片数量设定了上限。

特朗普政府将在限制芯片出口上采取什么措施还有待观察。但在上任第一天签署的一项贸易行政命令中,特朗普总统要求官员对美国的出口管制制度进行审查,包括“如何识别和消除现有出口管制中的漏洞”。

虽然美国的出口管制似乎已激发了中国人的创造力,但也显然阻碍了中国人工智能的发展。

美国的技术限制似乎加速了中国研究人员试图用更少的资源做更多事情的努力。

DeepSeek大模型最值得注意的一点是,据该公司的说法,它只使用了西方公司用于研发同类技术的高价芯片的一小部分。DeepSeek的工程师说,他们只用了约2000枚英伟达芯片,而大多数主要的西方AI公司训练聊天机器人使用了1.6万 枚或更多的芯片。上周一,英伟达的股价大跌,因为人们担心科技公司将来在研发尖端人工智能上使用更少的芯片,让英伟达能赚到的钱大幅减少。

乔治华盛顿大学研究新兴技术的教授杰佛里·丁(音)说,全球大多数公司一直在使用越来越多的计算能力和数据来提高人工智能的性能。但DeepSeek和其他中国公司已“被迫走上了另一条道路,它们在探索我们是否能以更低的训练成本和更少的计算量来获得足够好的性能”,他说。

像DeepSeek这样的便宜大模型带来的影响可能是深远的。因为DeepSeek已公开分享了其大模型的细节,中国和世界各地的公司都将能够复制这种低成本方法。

这意味着“从美国的超大企业到中西部的小企业,从朝鲜的黑客到俄罗斯军队,任何人都将能更便宜地构建和运行人工智能系统,其能源消耗也将大幅减少”,彼得森国际经济研究所高级研究员马丁·乔泽姆帕说。

尽管如此,如果没有出口管制的话,中国在人工智能领域可能会走得更远。DeepSeek的创始人在采访中承认,缺乏计算能力对公司来说是一种局限。

与美国的人工智能公司不同,DeepSeek将无法合法地购买英伟达正在推出的最新一代人工智能芯片,这种芯片的速度和性能是以前芯片的几倍。

“任何担心DeepSeek今天能做什么的人,如果该公司能使用其美国竞争对手拥有的更优越的计算资源的话,就会更加担心了,”乔泽姆帕说。

DeepSeek的成功已表明,尽管美国政府努力限制中国获得高端芯片,但硅谷在人工智能方面的领先地位已经缩小。但值得注意的是,DeepSeek仍在使用英伟达的芯片构建大模型,而不是用中国科技企业华为试图开发的与英伟达竞争的人工智能芯片。

一些中国计算机工程师暗示,尽管华为的人工智能芯片性能要低得多,但有可能在数量更多的不太先进的芯片(包括华为制造的芯片)上运行最新的DeepSeek大模型。

但目前还没有一家中国公司能够制造出与英伟达芯片竞争的先进人工智能芯片,或制造高端芯片所需的复杂机器。“美国此刻唯一仍比中国有优势的东西是硬件,”古德里奇说。


回复

使用道具 举报

 楼主| 发表于 2025-2-8 09:35:22 | 显示全部楼层

如果DeepSeek靠蒸馏为啥要怕?不,中国是迭代者

观察者网

中国企业DeepSeek近期推出的AI模型引发美国的高度关注。据香港《南华早报》7日报道,美国国会“美中经济与安全评估委员会”(USCC)6日就中国在AI领域的最新进展召开听证会。会上有专家表示,虽然美国技术在中国AI发展中仍然发挥关键作用,但中国强大的创新动力和“迭代”能力可以克服这一因素。

据报道,美国乔治敦大学安全与新兴技术中心研究分析员汉娜·多门(Hanna Dohmen)在其发言中称,包括DeepSeek-R1在内的中国“最先进”AI模型,“在很大程度上”依赖于其囤积的美制芯片,“随着这些库存在未来几年内耗尽,(美方)管制或导致中外在AI芯片数量和质量上的差距不断扩大”。

尽管多门预计,这有望在中期内减缓中国AI产业发展,但她也认为,美方的管制措施会导致中国企业有更多动力“绕过管制进行创新”。“我们还必须考虑中国自身的创新能力和应对策略。”多门说,“通过限制中国获得芯片和半导体制造设备,出口管制正在激励中国围绕管制进行创新。”

多门在听证会上发言

多门在听证会上发言


多门在听证会上发言

多门提到,不少中国企业正采用“芯粒封装”(chiplet packaging)等技术战略,聚焦计算效率和算法优化,以规避限制。她就此敦促美国政府制定更有效的出口管制措施,来遏制中国半导体制造能力的提升。

简单而言,芯粒封装就是指将多个小型芯片集成在同一个封装内,使其在功能上相当于一个完整的大型芯片,以较低的成本和相对传统的工艺,实现甚至超过更先进工艺所能达到的性价比。《南华早报》指出,芯粒因此在2024年被《麻省理工科技评论》评选为当年“十大突破性技术”之一。

共同出席听证会的美国无党派智库“特殊竞争研究项目”(SCSP)未来技术平台高级总监、前美国国务院外交官戴维·林(David Lin,音)6日则在其证词中警告,AI作为对中美技术竞争至关重要的“战场领域”和“关键技术”之一,中国在该领域已经对美国“构成竞争”(contested)。

“到2030年,中国的目标是成为‘世界主要AI创新中心’。你可以说,随着DeepSeek-R1模型几周前的发布,中国可能已经朝着实现其2025年目标迈出了一大步。”戴维·林在书面证词中写道。

戴维·林的书面证词截图

戴维·林的书面证词截图


戴维·林的书面证词截图

在提问环节,“美中经济与安全评估委员会”委员、前特朗普政府官员克里夫·西姆斯(Cliff Sims)质疑这张图表为何将AI分为“竞争领域”而非“美国领先”,声称DeepSeek仅仅是对ChatGPT的“蒸馏”,而这也意味着中国在AI发展上始终会落后美国一步。

西姆斯在听证会上提出问题

西姆斯在听证会上提出问题


西姆斯在听证会上提出问题

对此,戴维·林一方面顺着西姆斯的话,宣称中国在“窃取”美国知识产权方面“有着悠久历史”,一方面又“鼓励”西姆斯换个角度,称中国不应被视为“模仿者”(imitator),而应该被看作“迭代者”(iterator)。

在他看来,中国确实尚未在科学突破方面超越美国,如率先推出mRNA疫苗、ChatGPT、iPhone等,“但中国所做的是,通过其强大的制造实力,在这些创新的基础上进行迭代,使其产品更好、更快、更便宜,而这一过程正通过DeepSeek-R1展现在我们眼前”。

戴维·林本月早些时候接受新加坡《海峡时报》采访时也表示,中美在AI发展上“已经处于并驾齐驱的状态”。他坦言:“如果你在三个月前问我,我还会说我们稳稳领先,但形势变得非常迅速。”

他6日在听证会上进一步强调,DeepSeek公开表示其目标是努力实现通用人工智能(AGI),这一愿景表明了中国“在AI领域的雄心壮志”。AGI是指具备像人类一样的智能水平,能够理解、学习、适应、推理,并在不同领域自主执行任务的AI系统,通常也被视为AI发展的终极形态。

戴维·林指出,如今这场AI技术竞赛实质上是全球科技主导权之争。“这是一个关于争夺先发优势的问题,第一个实现AGI的人将在全球经济、政治及能源供应链方面带来深远的下游影响。”

戴维·林在听证会上发言

戴维·林在听证会上发言


戴维·林在听证会上发言

今年1月,DeepSeek发布其最新开源模型DeepSeek-R1,用较低的成本达到了接近于美国OpenAI开发的GPT-o1的性能。这一进展破解了全球AI产业长期以来“堆算力”的路径依赖,其影响波及资本市场。OpenAI随后公开指控DeepSeek通过“蒸馏”技术“违规复制”其产品功能。

所谓蒸馏的理论核心,就是让一个庞大且复杂的预训练AI模型充当“教师”,来训练一个较小的“学生模型”,后者从“教师模型”学习知识,以获得类似性能,但计算成本更低。不少专家表示,蒸馏在AI业内是一种常见的做法,但若涉及直接复制闭源专有模型的输出结构或参数,可能构成侵权。

前百度全球传播主管、前AI条线记者托尼·彭(Tony Peng,音)日前在其专栏梳理,“蒸馏”的具体操作方法有很多:如“监督微调”(SFT),即直接使用“教师模型”生成的输出数据来训练“学生模型”;或是“模型评分”,即让“教师模型”充当“评委”,对模型输出进行评分,并训练“学生模型”更倾向于高分回答;又或是利用“教师模型”为复杂问题生成的多步骤推理链,让“学生模型”模仿这种长链式思维(CoT)的过程。

根据DeepSeek自己发布的技术文档,其R1模型在第一阶段使用了早期模型R1-Zero的输出作为冷启动数据集,由人工标注员优化后进行训练,并在第二阶段继续通过强化学习(RL)进行优化。R1-Zero模型则完全依赖RL,未使用“微调数据集”(fine-tuning datasets)。

此外,DeepSeek去年12月发布的V3模型是使用对R1的“知识蒸馏”等提升了训练效率。技术文档称,DeepSeek-R1作为高级推理模型,其CoT能力被蒸馏到V3,从而提升V3的推理能力。

考虑到OpenAI尚未提供具体证据,其首席执行官奥尔特曼上周又称“没有计划”起诉DeepSeek,目前舆论猜测纷纷。与此同时,也有许多声音指出,OpenAI提出这一指控本身就颇为“虚伪和讽刺”。

“要知道,ChatGPT在训练过程中也使用了《福布斯》或《纽约时报》的内容,这同样违反了它们的服务条款。”康奈尔大学高级访问讲师、曾在谷歌、领英等科技公司从事AI研究的卢茨·芬格(Lutz Finger)说。

硅谷内部也有人提出反思。金沙江创业投资(GSR Ventures)合伙人、长期居住在硅谷的新加坡风险投资人戴维·尹(David Yin,音)对《海峡时报》表示,许多硅谷的AI应用公司陷入思维定势、缺乏创新,导致其盲目扩张,而不是提高效率。

“(在硅谷)当有人想给你数千亿美元时,你所想的就是雇更多人、买更多算力,建造自己的‘核电站’”。他说,“也许中国的参与者不擅长‘从零到一’的创新,但一旦他们掌握了一项技术,就会把它优化到极致,从一做到十、一百。”




回复

使用道具 举报

您需要登录后才可以回帖 登录 | 点击注册

本版积分规则

QQ|Archiver|SiXiang.com 思乡思想

GMT+8, 2025-6-22 17:09

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表