国产成人免费看一级大黄_日韩国产欧美情侣视频_91极品18禁国产在线播放_国产绿帽大神在线视频_97亚洲国产精品VA在线观看

信息網(wǎng)_資訊網(wǎng)

經(jīng)典美文聯(lián)系我們

周口信息網(wǎng) > 熱點(diǎn)信息 > 正文

關(guān)于DeepSeek,誤讀與幻覺(jué)

網(wǎng)絡(luò)整理 2025-02-15

(原標(biāo)題:關(guān)于DeepSeek,誤讀與幻覺(jué))

過(guò)去幾周,深度求索(DeepSeek)在全球范圍掀起風(fēng)暴。

最明顯的反映在美股:1月27日,美股AI、芯片股重挫,英偉達(dá)收盤(pán)大跌超過(guò)17%,單日市值蒸發(fā)5890億美元,創(chuàng)下美國(guó)股市歷史上最高紀(jì)錄。

在一些自媒體和公眾的視角里,DeepSeek是“2025年最燃爽文主角”,有四大“爽點(diǎn)”:

一是“神秘力量彎道超車”。DeepSeek是一家成立于2023年的“年輕”大模型公司,此前的討論度不及海內(nèi)外任何一家大廠或者明星初創(chuàng)公司,其母公司幻方量化的主業(yè)為量化投資。很多人不解,中國(guó)領(lǐng)先的AI公司竟然出自一家私募,可謂“亂拳打死老師傅”。

二是“小力出奇跡”。DeepSeek-V3模型的訓(xùn)練成本約為558萬(wàn)美元,不到OpenAIGPT-4o模型的十分之一,性能卻已接近。這被解讀為DeepSeek顛覆了AI行業(yè)信奉的“圣經(jīng)”——規(guī)模定律(ScalingLaw)。該定律是指通過(guò)增加訓(xùn)練參數(shù)量及算力來(lái)提升模型性能,通常意味著花更多錢標(biāo)注高質(zhì)量數(shù)據(jù)以及購(gòu)買算力芯片,又被形象地稱為“大力出奇跡”。

三是“英偉達(dá)護(hù)城河消失”。DeepSeek在論文中提到,采用定制的PTX(并行線程執(zhí)行)語(yǔ)言編程,更好釋放底層硬件的性能。這被解讀為DeepSeek“繞開(kāi)英偉達(dá)CUDA運(yùn)算平臺(tái)”。

四是“老外被打服了”。1月31日,一夜之間英偉達(dá)、微軟、亞馬遜等海外AI巨頭都接入了DeepSeek。一時(shí)間,“中國(guó)AI反超美國(guó)”“OpenAI的時(shí)代結(jié)束了”“AI算力需求就此消失”等論斷層出不窮,幾乎一邊倒地夸贊DeepSeek,嘲諷硅谷的AI巨頭們。

不過(guò),資本市場(chǎng)的恐慌情緒并未持續(xù)。2月6日,英偉達(dá)市值重回3萬(wàn)億美元,美股芯片股普遍上漲。此時(shí)再看前述四大“爽點(diǎn)”也多半是誤讀。

其一,到2017年底,幻方量化幾乎所有的量化策略都已經(jīng)采用AI模型計(jì)算。當(dāng)時(shí)AI領(lǐng)域正在經(jīng)歷最重要的深度學(xué)習(xí)浪潮,可以說(shuō),幻方量化緊跟前沿。

2019年,幻方量化的深度學(xué)習(xí)訓(xùn)練平臺(tái)“螢火二號(hào)”已經(jīng)搭載了約1萬(wàn)張英偉達(dá)A100顯卡。1萬(wàn)卡是自訓(xùn)大模型的算力門(mén)檻,盡管這不能等同于DeepSeek的資源,但幻方量化比許多互聯(lián)網(wǎng)大廠更早拿到了大模型團(tuán)戰(zhàn)的入場(chǎng)券。

其二,DeepSeek在V3模型技術(shù)報(bào)告中提到“558萬(wàn)美元不包括與架構(gòu)、算法或數(shù)據(jù)相關(guān)的前期研究和消融實(shí)驗(yàn)的成本”。這意味著,DeepSeek的實(shí)際成本更大。

多位AI行業(yè)專家、從業(yè)者告訴經(jīng)濟(jì)觀察報(bào),DeepSeek并沒(méi)有改變行業(yè)規(guī)律,而是采用了“更聰明”的算法和架構(gòu),節(jié)約資源,提高效率。

其三,PTX語(yǔ)言由英偉達(dá)開(kāi)發(fā),屬于CUDA生態(tài)的一環(huán)。DeepSeek的做法會(huì)激發(fā)硬件的性能,但更換目標(biāo)任務(wù),則需要重寫(xiě)程序,工作量非常大。

其四,英偉達(dá)、微軟、亞馬遜等企業(yè)只是將DeepSeek的模型部署在自家的云服務(wù)上。用戶按需付費(fèi)給云服務(wù)廠商,獲得更穩(wěn)定的體驗(yàn)及更高效的工具,這屬于雙贏的做法。

自2月5日起,華為云、騰訊云、百度云等國(guó)內(nèi)云廠商也陸續(xù)上線了DeepSeek模型。

在上述四大“爽點(diǎn)”之外,公眾對(duì)DeepSeek還有諸多誤讀?!八摹笔浇庾x固然會(huì)帶來(lái)觀感刺激,但是也會(huì)掩蓋DeepSeek團(tuán)隊(duì)在算法、工程能力上的創(chuàng)新以及堅(jiān)持的開(kāi)源精神,而后兩者對(duì)科技行業(yè)的影響更深遠(yuǎn)。

美國(guó)AI巨頭不是打不過(guò),而是決策失誤

當(dāng)用戶使用DeepSeek的App或者網(wǎng)頁(yè)版時(shí),點(diǎn)擊“深度思考(R1)”按鈕,就會(huì)展現(xiàn)DeepSeek-R1模型完整的思考過(guò)程,這是一種全新的體驗(yàn)。

自ChatGPT問(wèn)世以來(lái),絕大部分大模型都是直接輸出回答。

DeepSeek-R1有一個(gè)“出圈”的例子:當(dāng)用戶問(wèn)“A大學(xué)和清華大學(xué)哪個(gè)更好?”DeepSeek第一次回答“清華大學(xué)”,用戶追問(wèn)“我是A大學(xué)生,請(qǐng)重新回答”,則會(huì)得到答案“A大學(xué)好”。這組對(duì)話被發(fā)在社交媒體后,引發(fā)“AI竟然懂人情世故”的群體驚嘆。

不少用戶表示,DeepSeek展現(xiàn)的思考過(guò)程就像一個(gè)“人”——一邊頭腦風(fēng)暴,一邊在草稿紙上速記。它會(huì)自稱“我”,會(huì)提示“避免讓用戶感到自己的學(xué)校被貶低”“用積極正面的詞匯贊揚(yáng)他的母校”,并且把想到的內(nèi)容都“寫(xiě)”下來(lái)。

2月2日,DeepSeek登頂全球140個(gè)國(guó)家及地區(qū)的應(yīng)用市場(chǎng),上千萬(wàn)用戶能夠體驗(yàn)深度思考功能。因此,在用戶感知里,AI展現(xiàn)思考過(guò)程屬于DeepSeek“首創(chuàng)”。

其實(shí),OpenAIo1模型才是推理范式的開(kāi)創(chuàng)者。OpenAI在2024年9月發(fā)布了o1模型預(yù)覽版,在12月發(fā)布正式版。但與能免費(fèi)體驗(yàn)的DeepSeek-R1模型不同,OpenAIo1模型只有少數(shù)付費(fèi)用戶才能使用。

清華大學(xué)長(zhǎng)聘副教授、面壁智能首席科學(xué)家劉知遠(yuǎn)認(rèn)為,DeepSeek-R1模型能夠取得如此全球性的成功,跟OpenAI采用的錯(cuò)誤決策有非常大的關(guān)系。OpenAI在發(fā)布了o1模型后,既不開(kāi)源,也不公布技術(shù)細(xì)節(jié),收費(fèi)非常高,所以不出圈,難以讓全球用戶感受深度思考帶來(lái)的震撼。這樣的策略相當(dāng)于是把原來(lái) ChatGPT的身位讓給了DeepSeek。

從技術(shù)上來(lái)說(shuō),當(dāng)前大模型的常規(guī)范式有兩種:預(yù)訓(xùn)練模型與推理模型。更為大眾熟知的OpenAIGPT系列以及DeepSeek-V3模型都屬于預(yù)訓(xùn)練模型。

而OpenAIo1與DeepSeek-R1則屬于推理模型,這是一種新的范式,即模型會(huì)自己通過(guò)思維鏈逐步分解復(fù)雜問(wèn)題,一步步反思,再得到相對(duì)準(zhǔn)確并且富有洞察力的結(jié)果。

從事AI研究數(shù)十年的郭成凱對(duì)經(jīng)濟(jì)觀察報(bào)稱,推理范式是一條相對(duì)容易“彎道超車”的賽道。推理作為一種新范式,迭代快,更容易實(shí)現(xiàn)小計(jì)算量下的顯著提升。前提是有強(qiáng)大的預(yù)訓(xùn)練模型,通過(guò)強(qiáng)化學(xué)習(xí)可以深度挖掘出大規(guī)模預(yù)訓(xùn)練模型的潛力,逼近推理范式下大模型能力的天花板。

對(duì)谷歌、Meta、Anthropic等企業(yè)而言,復(fù)現(xiàn)類似DeepSeek-R1的推理模型并非難事。但是,巨頭爭(zhēng)霸,即便是小的決策失誤,也會(huì)錯(cuò)失先機(jī)。

顯而易見(jiàn)的是,2月6日,谷歌發(fā)布了一款推理模型 GeminiFlash2.0Thinking,價(jià)格更低、上下文長(zhǎng)度更長(zhǎng),在幾項(xiàng)測(cè)試中表現(xiàn)優(yōu)于R1,但并未掀起像DeepSeek-R1模型一樣的巨浪。

最值得討論的不是低成本,而是技術(shù)創(chuàng)新和“誠(chéng)意滿滿”的開(kāi)源

一直以來(lái),對(duì)DeepSeek最廣泛的討論都是關(guān)于“低成本”,從2024年5月DeepSeek-V2模型發(fā)布以來(lái),這家公司就被調(diào)侃為“AI屆拼多多”。

《自然》雜志發(fā)文稱,Meta訓(xùn)練其最新人工智能模型Llama3.1405B耗資超過(guò)6000萬(wàn)美元,DeepSeek-V3訓(xùn)練只花了不到十分之一。這表明,高效利用資源比單純的計(jì)算規(guī)模更重要。

一些機(jī)構(gòu)認(rèn)為DeepSeek的訓(xùn)練成本被低估。AI及半導(dǎo)體行業(yè)分析機(jī)構(gòu)SemiAnalysis在報(bào)告中稱,DeepSeek預(yù)訓(xùn)練成本遠(yuǎn)非該模型的實(shí)際投入。據(jù)該機(jī)構(gòu)估算,DeepSeek購(gòu)買GPU的總花費(fèi)是25.73億美元,其中購(gòu)買服務(wù)器的費(fèi)用為16.29億美元,運(yùn)營(yíng)費(fèi)用為9.44億美元。

但無(wú)論如何,DeepSeek-V3模型的凈算力成本約558萬(wàn)美元,已經(jīng)十分高效。

在成本之外,讓AI行業(yè)人士更加振奮的是DeepSeek的獨(dú)特技術(shù)路徑、算法創(chuàng)新及開(kāi)源的誠(chéng)意。

郭成凱介紹,當(dāng)前的許多方法依賴大模型經(jīng)典訓(xùn)練方式,如監(jiān)督微調(diào)(SFT)等,這需要大量標(biāo)注數(shù)據(jù)。DeepSeek提出了一種新方法,即通過(guò)大規(guī)模強(qiáng)化學(xué)習(xí)(RL)方法提升推理能力,相當(dāng)于開(kāi)辟了新的研究方向。此外,多頭潛在注意力(MLA)是DeepSeek大幅降低推理成本的關(guān)鍵創(chuàng)新,大幅降低了推理成本。

清華大學(xué)教授、清程極智首席科學(xué)家翟季冬認(rèn)為,DeepSeek最讓他印象深刻的是混合專家架構(gòu)(MoE)的創(chuàng)新,每一層有256個(gè)路由專家、1個(gè)共享專家。之前的研究有AuxiliaryLoss(輔助損失)的算法,會(huì)使梯度發(fā)生擾動(dòng),影響模型收斂。DeepSeek提出LossFree方式,既能讓模型有效收斂,同時(shí)還能實(shí)現(xiàn)負(fù)載均衡。

翟季冬強(qiáng)調(diào):“DeepSeek團(tuán)隊(duì)比較敢于創(chuàng)新。我覺(jué)得不完全追隨國(guó)外的策略、有自己的思考,非常重要?!?/p>

更讓AI從業(yè)者興奮的是,DeepSeek“誠(chéng)意滿滿”的開(kāi)源,為已經(jīng)略有頹勢(shì)的開(kāi)源社區(qū)注入了一劑“強(qiáng)心針”。

在此之前,開(kāi)源社區(qū)最有力的支柱是Meta的4000億參數(shù)模型Llama3。但不少開(kāi)發(fā)者告訴經(jīng)濟(jì)觀察報(bào),他們體驗(yàn)后仍覺(jué)得,Llama3與閉源的GPT-4等模型相距至少一代,“幾乎讓人失去信心”。

但是DeepSeek的開(kāi)源做了3件事,重新給了開(kāi)發(fā)者以信心:

其一,直接開(kāi)源了671B的模型,并發(fā)布了多個(gè)流行架構(gòu)下的蒸餾模型,相當(dāng)于“好老師教出更多好學(xué)生”。

其二,發(fā)布的論文及技術(shù)報(bào)告包含大量技術(shù)細(xì)節(jié)。V3模型和R1模型的論文分別長(zhǎng)達(dá)50頁(yè)和150頁(yè),被稱為開(kāi)源社區(qū)里“最詳細(xì)的技術(shù)報(bào)告”。這意味著擁有相似資源的個(gè)人或企業(yè)可以按照這一“說(shuō)明書(shū)”復(fù)現(xiàn)模型。眾多開(kāi)發(fā)者在閱覽后評(píng)價(jià)為“優(yōu)雅”“扎實(shí)”。

其三,更值得一提的是,DeepSeek-R1采用 MIT許可協(xié)議,即任何人都可以自由地使用、修改、分發(fā)和商業(yè)化該模型,只要在所有副本中保留原始的版權(quán)聲明和MIT許可。這意味著用戶可以更加自由地利用模型權(quán)重和輸出進(jìn)行二次開(kāi)發(fā),包括微調(diào)和蒸餾。

Llama雖然允許二次開(kāi)發(fā)和商用,但是在協(xié)議中添加了一些限制條件,例如Llama在授權(quán)許可中對(duì)月活7億以上的企業(yè)用戶額外限制,并且明文禁止使用Llama的輸出結(jié)果去改善其他大模型。

一位開(kāi)發(fā)者告訴經(jīng)濟(jì)觀察報(bào),他從DeepSeek-V2版本就開(kāi)始使用,進(jìn)行代碼生成方面的開(kāi)發(fā)。DeepSeek模型除了價(jià)格非常便宜外,性能也非常優(yōu)異。在他使用的所有模型里,只有OpenAI和DeepSeek的模型能夠輸出有效邏輯列到30多層。這意味著專業(yè)程序員借助工具可以輔助生成30%—70%的代碼。

多位開(kāi)發(fā)者向經(jīng)濟(jì)觀察報(bào)強(qiáng)調(diào)了DeepSeek開(kāi)源的重要意義,在此之前,行業(yè)內(nèi)最領(lǐng)先的OpenAI和Anthropic公司都像是硅谷的貴族。DeepSeek把知識(shí)開(kāi)放給所有人,變得平民化,這是一種重要的平權(quán),讓全世界開(kāi)源社區(qū)的開(kāi)發(fā)者站在DeepSeek的肩膀上,而DeepSeek也能匯集全球最頂尖的創(chuàng)客、極客的想法。

圖靈獎(jiǎng)得主、Meta首席科學(xué)家楊立昆認(rèn)為,對(duì)DeepSeek崛起的正確解讀,應(yīng)是開(kāi)源模型正在超越閉源模型。

DeepSeek很好,但并非完美

大模型都逃不過(guò)“幻覺(jué)”問(wèn)題,DeepSeek也不例外。一些用戶表示,DeepSeek由于表達(dá)能力和邏輯推理更出眾,產(chǎn)生的幻覺(jué)問(wèn)題更加讓人難以識(shí)別。

一位網(wǎng)友在社交媒體上稱,他向DeepSeek提問(wèn)某城市的路線規(guī)劃問(wèn)題。DeepSeek解釋了一些原因,列舉出一些城市規(guī)劃保護(hù)條例及數(shù)據(jù),并摘取了一個(gè)“靜默區(qū)”的概念,讓回答看起來(lái)很有道理。

同樣的問(wèn)題,其他AI的回答則沒(méi)有這么高深,人能夠一眼看出是在“胡說(shuō)八道”。

這位用戶查看了該保護(hù)條例后,發(fā)現(xiàn)全文根本沒(méi)有“靜默區(qū)”這一說(shuō)法。他認(rèn)為:“DeepSeek正在中文互聯(lián)網(wǎng)建造‘幻覺(jué)長(zhǎng)城’。”

郭成凱也發(fā)現(xiàn)了類似的問(wèn)題,DeepSeek-R1的回答會(huì)把一些專有名詞“張冠李戴”,尤其是開(kāi)放式問(wèn)題,產(chǎn)生的“幻覺(jué)”體驗(yàn)會(huì)更嚴(yán)重。他推測(cè)可能是模型的推理能力過(guò)強(qiáng),把大量知識(shí)與數(shù)據(jù)潛在聯(lián)系在一起。

他建議使用DeepSeek時(shí)打開(kāi)聯(lián)網(wǎng)搜索功能,并重點(diǎn)查看思考過(guò)程,人為干預(yù)和糾正錯(cuò)誤。此外,使用推理模型時(shí),盡可能使用簡(jiǎn)潔的提示詞。提示詞越長(zhǎng),模型聯(lián)想的內(nèi)容就多。

劉知遠(yuǎn)發(fā)現(xiàn),DeepSeek-R1經(jīng)常會(huì)使用一些高端詞匯,典型的如量子糾纏和熵增熵減(會(huì)用在各個(gè)領(lǐng)域)。他猜測(cè)是強(qiáng)化學(xué)習(xí)中某種機(jī)制設(shè)置導(dǎo)致的。此外,R1在一些通用領(lǐng)域沒(méi)有g(shù)roundtruth(指為該測(cè)試收集適當(dāng)?shù)目陀^數(shù)據(jù)的過(guò)程)的任務(wù)上的推理效果還不理想,強(qiáng)化學(xué)習(xí)的訓(xùn)練并不能保證泛化。

在“幻覺(jué)”這一常見(jiàn)的問(wèn)題之外,還有一些持續(xù)性的問(wèn)題有待DeepSeek解決。

一方面是“蒸餾技術(shù)”可能帶來(lái)的持續(xù)糾紛。模型或知識(shí)蒸餾通常涉及通過(guò)讓較強(qiáng)的模型生成響應(yīng)來(lái)訓(xùn)練較弱的模型,從而提高較弱模型的性能。

1月29日,OpenAI指控DeepSeek利用模型蒸餾技術(shù),基于OpenAI的技術(shù)訓(xùn)練自己的模型。OpenAI稱,有證據(jù)表明DeepSeek使用其專有模型來(lái)訓(xùn)練自己的開(kāi)源模型,但沒(méi)有進(jìn)一步列舉證據(jù)。OpenAI的服務(wù)條款規(guī)定,用戶不能“復(fù)制”其任何服務(wù)或“使用其輸出來(lái)開(kāi)發(fā)與OpenAI競(jìng)爭(zhēng)的模型”。

郭成凱認(rèn)為,基于領(lǐng)先模型蒸餾驗(yàn)證優(yōu)化自己的模型,是很多大模型訓(xùn)練的一個(gè)普遍操作。DeepSeek已經(jīng)開(kāi)源了模型,再進(jìn)行驗(yàn)證是一件簡(jiǎn)單的事情。而OpenAI早期的訓(xùn)練數(shù)據(jù)本身就存在合法性的問(wèn)題,如果要對(duì)DeepSeek采取法律手段,則須上升到法律層面維護(hù)其條款的合法性,并且要更明確其條款內(nèi)容。

DeepSeek另一有待解決的問(wèn)題是如何推進(jìn)更大規(guī)模參數(shù)的預(yù)訓(xùn)練模型。在這方面,掌握更多優(yōu)質(zhì)標(biāo)注數(shù)據(jù)、更多算力資源的OpenAI尚未推出GPT-5這一更大規(guī)模參數(shù)的預(yù)訓(xùn)練模型,DeepSeek是否能繼續(xù)創(chuàng)造奇跡,還是個(gè)疑問(wèn)。

無(wú)論如何,對(duì)DeepSeek產(chǎn)生的幻覺(jué),同樣由好奇心所激發(fā),這或許正是創(chuàng)新的一體兩面。正如其創(chuàng)始人梁文鋒所言:“創(chuàng)新不完全是商業(yè)驅(qū)動(dòng)的,還需要好奇心和創(chuàng)造欲。中國(guó)的AI不可能永遠(yuǎn)跟隨,需要有人站到技術(shù)的前沿?!?/p>

免責(zé)聲明:信息網(wǎng)轉(zhuǎn)載此文目的在于傳遞更多信息,不代表本站的觀點(diǎn)和立場(chǎng)。文章內(nèi)容僅供參考,不構(gòu)成投資建議。如果您發(fā)現(xiàn)網(wǎng)站上有侵犯您的知識(shí)產(chǎn)權(quán)的作品,請(qǐng)與我們?nèi)〉寐?lián)系,我們會(huì)及時(shí)修改或刪除。

Tags:[db:TAG標(biāo)簽](1714560)

轉(zhuǎn)載請(qǐng)標(biāo)注:信息網(wǎng)——關(guān)于DeepSeek,誤讀與幻覺(jué)

搜索
網(wǎng)站分類
標(biāo)簽列表