一文讀懂 DeepSeek-V3 技術(shù)報(bào)告

一文讀懂 DeepSeek-V3 技術(shù)報(bào)告

pengzhiyu 2025-03-28 快播 106 次瀏覽 0個(gè)評(píng)論

?2023年7月17日,DeepSeek正式成立,由幻方量化提供資金支持。梁文鋒憑借其在金融和AI領(lǐng)域的深厚背景,帶領(lǐng)團(tuán)隊(duì)開始探索生成式AI技術(shù)。同年11月2日,DeepSeek推出首款開源模型DeepSeek Coder,支持多種編程語言的代碼生成、調(diào)試和數(shù)據(jù)分析任務(wù),為AI領(lǐng)域的應(yīng)用奠定了基礎(chǔ),直到 2024 年 12 月,DeepSeek-V3的發(fā)布引發(fā)了行業(yè)震動(dòng)和社會(huì)廣泛關(guān)注,在他們的最新技術(shù)報(bào)告《DeepSeek-V3技術(shù)報(bào)告》中,團(tuán)隊(duì)詳細(xì)介紹了其最新成果——DeepSeek-V3模型。這個(gè)模型不僅在規(guī)模上達(dá)到了新的高度,而且在性能、訓(xùn)練效率以及多語言支持等方面實(shí)現(xiàn)了顯著提升,今天我們將詳細(xì)解讀DeepSeek-V3技術(shù)報(bào)告,分析他們的技術(shù)特征。

DeepSeek-AI研究團(tuán)隊(duì)由一群來自不同領(lǐng)域的頂尖專家組成,這些專家在數(shù)學(xué)、編程、邏輯推理、自然語言處理和深度學(xué)習(xí)等多個(gè)領(lǐng)域有著豐富的經(jīng)驗(yàn)。他們共同致力于推動(dòng)先進(jìn)大規(guī)模語言模型的發(fā)展。團(tuán)隊(duì)的多樣性和跨學(xué)科合作精神在DeepSeek-V3的開發(fā)中起到了關(guān)鍵作用。主要貢獻(xiàn)者包括Aixin Liu、Bei Feng、Bing Xue、Chong Ruan、Damai Dai、Dejian Yang、Dongjie Ji、Fangyun Lin、Guowei Li、Han Bao、Hui Li、Jingchang Chen、Kai Dong等。這些研究人員在模型架構(gòu)優(yōu)化、訓(xùn)練效率提升以及多項(xiàng)基準(zhǔn)測(cè)試上,做出了卓越的貢獻(xiàn)。

DeepSeek-V3作為一款先進(jìn)的大規(guī)模語言模型,其總體架構(gòu)設(shè)計(jì)和目標(biāo)主要集中在以下幾個(gè)方面:

多頭潛在注意力(MLA)與DeepSeekMoE架構(gòu):DeepSeek-V3采用了多頭潛在注意力(MLA)和DeepSeekMoE架構(gòu),這兩種架構(gòu)在之前的版本中已經(jīng)得到了驗(yàn)證,能夠在保證模型性能的同時(shí)實(shí)現(xiàn)高效訓(xùn)練和推理。MLA通過低秩聯(lián)合壓縮注意力鍵和值,顯著降低了推理過程中的KV緩存,同時(shí)保持了與標(biāo)準(zhǔn)多頭注意力(MHA)相當(dāng)?shù)男阅堋?/p>

無輔助損失的負(fù)載平衡策略:為了實(shí)現(xiàn)負(fù)載平衡并最大限度減少輔助損失帶來的性能下降,DeepSeek-V3創(chuàng)新性地引入了無輔助損失的負(fù)載平衡策略。這一策略通過動(dòng)態(tài)調(diào)整每個(gè)專家的偏差項(xiàng),確保在訓(xùn)練過程中保持專家負(fù)載平衡,進(jìn)而提升模型性能。

多token預(yù)測(cè)(MTP)目標(biāo):DeepSeek-V3在訓(xùn)練過程中采用多token預(yù)測(cè)(MTP)目標(biāo),不僅增加了訓(xùn)練信號(hào)的密度,提高了數(shù)據(jù)效率,還使模型能夠更好地預(yù)測(cè)未來token。通過這種方式,模型在實(shí)際應(yīng)用中能夠?qū)崿F(xiàn)更高效的解碼速度。

計(jì)算基礎(chǔ)設(shè)施和優(yōu)化策略:DeepSeek-V3的訓(xùn)練依托于一個(gè)配備2048個(gè)NVIDIA H800 GPU的集群。為了提升訓(xùn)練效率,團(tuán)隊(duì)設(shè)計(jì)了DualPipe算法,減少了流水線氣泡,并通過計(jì)算與通信重疊,解決了跨節(jié)點(diǎn)專家并行帶來的通信開銷問題。此外,團(tuán)隊(duì)還開發(fā)了高效的跨節(jié)點(diǎn)全對(duì)全通信內(nèi)核,進(jìn)一步優(yōu)化了內(nèi)存占用。

FP8訓(xùn)練框架:DeepSeek-V3引入了利用FP8數(shù)據(jù)格式的混合精度訓(xùn)練框架,通過細(xì)粒度量化策略和高精度累積過程,有效提升了低精度訓(xùn)練的準(zhǔn)確性,顯著減少了內(nèi)存消耗和通信開銷。

圖1:DeepSeek-V3及其對(duì)應(yīng)產(chǎn)品的基準(zhǔn)性能

DeepSeek-V3不僅在模型架構(gòu)、訓(xùn)練效率和推理性能方面實(shí)現(xiàn)了突破,還在多語言支持和長(zhǎng)上下文處理等方面展現(xiàn)了卓越的能力。通過這種多方位的創(chuàng)新和優(yōu)化,DeepSeek-V3為開源和閉源模型樹立了新的標(biāo)桿,并為未來人工智能研究的進(jìn)一步發(fā)展奠定了堅(jiān)實(shí)基礎(chǔ)。

DeepSeek-V3的成功離不開其創(chuàng)新的架構(gòu)設(shè)計(jì)與優(yōu)化策略。在這一部分,我們將深入探討其基本架構(gòu)及其核心特點(diǎn)。

DeepSeek-V3采用了多頭潛在注意力(MLA)架構(gòu),這是一種優(yōu)化傳統(tǒng)多頭注意力機(jī)制的方法。與標(biāo)準(zhǔn)多頭注意力(MHA)相比,MLA通過低秩聯(lián)合壓縮注意力鍵和值,顯著降低了推理過程中的KV緩存需求,同時(shí)保持了與MHA相當(dāng)?shù)男阅堋LA通過對(duì)注意力輸入進(jìn)行低秩壓縮,再恢復(fù)到高維度,這種方式不僅減少了計(jì)算量,也提升了模型的推理效率。

在具體實(shí)現(xiàn)中,MLA通過將每個(gè)token的注意力輸入進(jìn)行壓縮,再通過特定的線性變換和旋轉(zhuǎn)位置編碼(RoPE)進(jìn)行處理。這種方法的優(yōu)勢(shì)在于,它可以在不顯著影響模型性能的情況下,大幅度減少KV緩存,從而在推理階段實(shí)現(xiàn)更高的效率。

DeepSeekMoE架構(gòu)

圖2:DeepSeek-V3的基本架構(gòu)示意圖。在DeepSeek-V2之后,他們采用MLA和DeepSeekMoE進(jìn)行高效推理和經(jīng)濟(jì)訓(xùn)練

DeepSeekMoE架構(gòu)是DeepSeek-V3的核心,它在前饋網(wǎng)絡(luò)(FFN)中使用了專家混合模型(MoE)。與傳統(tǒng)MoE架構(gòu)(如GShard)不同,DeepSeekMoE使用了更細(xì)粒度的專家,并將部分專家設(shè)為共享專家。這種方法不僅提升了計(jì)算效率,還減少了專家負(fù)載不平衡的問題。

在具體實(shí)現(xiàn)中,DeepSeek-V3引入了動(dòng)態(tài)路由機(jī)制,使每個(gè)token在不同節(jié)點(diǎn)間進(jìn)行路由,從而實(shí)現(xiàn)跨節(jié)點(diǎn)的專家并行。通過這種方式,DeepSeek-V3能夠在保持高性能的同時(shí),實(shí)現(xiàn)高效的計(jì)算和訓(xùn)練。

為了進(jìn)一步提升模型的性能和訓(xùn)練效率,DeepSeek-V3采用了一種無輔助損失的負(fù)載平衡策略。傳統(tǒng)的MoE模型在實(shí)現(xiàn)負(fù)載平衡時(shí)通常依賴于輔助損失,但這種方法往往會(huì)影響模型的性能。DeepSeek-V3通過引入偏差項(xiàng),使得在路由過程中可以動(dòng)態(tài)調(diào)整每個(gè)專家的負(fù)載,從而實(shí)現(xiàn)負(fù)載平衡而不依賴于輔助損失。

具體而言,每個(gè)專家都有一個(gè)偏差項(xiàng),這個(gè)偏差項(xiàng)會(huì)根據(jù)專家的負(fù)載情況進(jìn)行動(dòng)態(tài)調(diào)整。如果某個(gè)專家負(fù)載過重,則減小其偏差項(xiàng),反之則增加。通過這種方式,DeepSeek-V3在訓(xùn)練過程中能夠保持專家負(fù)載的平衡,從而提升模型的整體性能。

DeepSeek-V3在訓(xùn)練過程中還采用了多token預(yù)測(cè)(MTP)目標(biāo)。傳統(tǒng)的語言模型通常只預(yù)測(cè)下一個(gè)token,而DeepSeek-V3則在每個(gè)位置上預(yù)測(cè)多個(gè)未來token。這種方法不僅增加了訓(xùn)練信號(hào)的密度,提高了數(shù)據(jù)效率,還使模型能夠更好地規(guī)劃其表示,以便更準(zhǔn)確地預(yù)測(cè)未來的token。

一文讀懂 DeepSeek-V3 技術(shù)報(bào)告

圖3:他們的多令牌預(yù)測(cè)(MTP)實(shí)現(xiàn)示例。他們?yōu)槊總€(gè)深度的每個(gè)令牌的預(yù)測(cè)保留了完整的因果鏈

在具體實(shí)現(xiàn)中,MTP通過多層次的模塊來預(yù)測(cè)多個(gè)附加的token,每個(gè)模塊共享嵌入層和輸出頭,保持預(yù)測(cè)的因果鏈。這種方法在推理過程中可以提高生成速度,并顯著提升模型的整體性能。

DeepSeek-V3的架構(gòu)設(shè)計(jì)在多方面實(shí)現(xiàn)了創(chuàng)新和優(yōu)化。通過MLA、DeepSeekMoE架構(gòu)、無輔助損失的負(fù)載平衡策略以及多token預(yù)測(cè)目標(biāo),DeepSeek-V3不僅在性能上取得了顯著提升,還在訓(xùn)練效率和推理速度上展現(xiàn)了卓越的能力。這些特點(diǎn)使得DeepSeek-V3在眾多基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,成為當(dāng)前最強(qiáng)的開源語言模型之一。

DeepSeek-V3的成功不僅依賴于其先進(jìn)的架構(gòu)設(shè)計(jì),還得益于強(qiáng)大的計(jì)算基礎(chǔ)設(shè)施支持。通過優(yōu)化計(jì)算集群配置和訓(xùn)練框架,DeepSeek-AI團(tuán)隊(duì)大幅提升了模型的訓(xùn)練效率和性能。

圖4:一對(duì)單獨(dú)的正向和反向塊的重疊策略(transformer塊的邊界未對(duì)齊)。橙色表示前進(jìn),綠色表示前進(jìn)“輸入向后”,藍(lán)色表示“權(quán)重向后”,紫色表示PP通信,紅色表示障礙。所有對(duì)所有和PP通信都可以完全隱藏

在計(jì)算集群配置方面,DeepSeek-V3的訓(xùn)練依托于一個(gè)配備2048個(gè)NVIDIA H800 GPU的集群。每個(gè)H800節(jié)點(diǎn)包含8個(gè)通過NVLink和NVSwitch連接的GPU,跨節(jié)點(diǎn)的通信則使用InfiniBand(IB)互連。這種配置不僅確保了高帶寬的通信能力,還通過硬件設(shè)計(jì)的優(yōu)化大幅減少了訓(xùn)練過程中通信延遲帶來的瓶頸。

在訓(xùn)練框架與優(yōu)化策略方面,DeepSeek-V3采用了HAI-LLM框架,這是一種高效且輕量的訓(xùn)練框架。該框架支持16路流水線并行、跨8個(gè)節(jié)點(diǎn)的64路專家并行以及ZeRO-1數(shù)據(jù)并行,確保了在大規(guī)模訓(xùn)練任務(wù)中的高效運(yùn)行。通過DualPipe算法的設(shè)計(jì),團(tuán)隊(duì)實(shí)現(xiàn)了計(jì)算與通信階段的重疊,有效解決了跨節(jié)點(diǎn)專家并行帶來的通信開銷問題。

圖5:8個(gè)PP等級(jí)和20個(gè)微批次的雙管調(diào)度示例,分為兩個(gè)方向。反向的微批次與正向的微批次是對(duì)稱的,因此為了簡(jiǎn)化說明,他們省略了它們的批次ID。由共享黑色邊框包圍的兩個(gè)單元具有相互重疊的計(jì)算和通信

DualPipe算法是DeepSeek-V3訓(xùn)練框架中的一大亮點(diǎn)。這一算法通過減少流水線氣泡并實(shí)現(xiàn)前向和后向計(jì)算-通信階段的重疊,不僅加速了模型訓(xùn)練,還顯著提高了訓(xùn)練效率。具體來說,DualPipe將每個(gè)塊劃分為四個(gè)組件:注意力、全對(duì)全分派、MLP和全對(duì)全組合。通過手動(dòng)調(diào)整GPU SM用于通信與計(jì)算的比例,確保通信與計(jì)算完全重疊,從而實(shí)現(xiàn)了近乎零的通信開銷。

高效的跨節(jié)點(diǎn)全對(duì)全通信內(nèi)核進(jìn)一步提升了訓(xùn)練效率。DeepSeek-AI團(tuán)隊(duì)開發(fā)了高效的跨節(jié)點(diǎn)全對(duì)全通信內(nèi)核,充分利用IB和NVLink帶寬,并節(jié)省用于通信的流式多處理器(SM)。通過限制每個(gè)token最多發(fā)送到4個(gè)節(jié)點(diǎn),減少了IB流量,實(shí)現(xiàn)了IB與NVLink通信的完全重疊。

內(nèi)存占用優(yōu)化也是DeepSeek-V3訓(xùn)練框架中的重要一環(huán)。通過重新計(jì)算RMSNorm和MLA上投影,消除持續(xù)存儲(chǔ)輸出激活的需求,大幅減少內(nèi)存占用。此外,通過將模型參數(shù)的指數(shù)移動(dòng)平均(EMA)存儲(chǔ)在CPU內(nèi)存中并異步更新,進(jìn)一步減少了內(nèi)存開銷。

在FP8訓(xùn)練框架方面,DeepSeek-V3引入了利用FP8數(shù)據(jù)格式的混合精度訓(xùn)練框架。低精度訓(xùn)練雖然前景廣闊,但通常受到激活、權(quán)重和梯度中的異常值的限制。DeepSeek-AI團(tuán)隊(duì)通過引入細(xì)粒度量化策略和高精度累積過程,有效提升了低精度訓(xùn)練的準(zhǔn)確性,顯著減少了內(nèi)存消耗和通信開銷。

圖6:FP8數(shù)據(jù)格式的整體混合精度框架。為澄清起見,僅示出了線性運(yùn)算符

混合精度訓(xùn)練框架通過在FP8精度下執(zhí)行大多數(shù)核心計(jì)算內(nèi)核,并在需要較高精度的操作中保留原始精度,平衡了訓(xùn)練效率和數(shù)值穩(wěn)定性。在這個(gè)框架中,大多數(shù)通用矩陣乘法(GEMM)操作以FP8精度實(shí)現(xiàn),顯著提高了計(jì)算速度。此外,通過采用細(xì)粒度量化策略,將激活和權(quán)重按塊狀分組和縮放,有效解決了激活異常值帶來的量化準(zhǔn)確性問題。

在精度改進(jìn)策略方面,DeepSeek-V3通過在Tensor Cores和CUDA Cores之間的高精度累積過程,顯著提高了低精度訓(xùn)練的準(zhǔn)確性。通過將部分結(jié)果復(fù)制到CUDA Cores上的FP32寄存器,并在這些寄存器中執(zhí)行全精度FP32累積,有效提升了精度而不會(huì)引入顯著的開銷。

圖7:(a)他們提出了一種細(xì)粒度量化方法,以減輕特征異常值引起的量化誤差;為了簡(jiǎn)化說明,僅示出了Fprop。(b) 結(jié)合我們的量化策略,他們通過以???? ==128個(gè)元素MMA的間隔升級(jí)到CUDA核心來提高FP8 GEMM的精度,以實(shí)現(xiàn)高精度累積

低精度存儲(chǔ)與通信則進(jìn)一步減少了內(nèi)存消耗和通信開銷。通過在反向傳遞中緩存FP8格式的激活,并將優(yōu)化器狀態(tài)壓縮為低精度格式,DeepSeek-V3在保持訓(xùn)練性能的同時(shí),顯著減少了內(nèi)存占用和通信帶寬需求。

綜上所述,DeepSeek-V3在計(jì)算基礎(chǔ)設(shè)施和訓(xùn)練框架方面的創(chuàng)新和優(yōu)化,使其在模型性能、訓(xùn)練效率和推理速度上都取得了顯著的突破。這些技術(shù)上的進(jìn)步不僅為DeepSeek-V3的成功提供了堅(jiān)實(shí)基礎(chǔ),也為未來大規(guī)模語言模型的發(fā)展指明了方向。

在構(gòu)建DeepSeek-V3的過程中,預(yù)訓(xùn)練是一個(gè)至關(guān)重要的環(huán)節(jié)。通過精心設(shè)計(jì)的數(shù)據(jù)構(gòu)建方法、優(yōu)化的分詞器策略以及合理的超參數(shù)設(shè)置,DeepSeek-AI團(tuán)隊(duì)確保了模型在多語言和多任務(wù)環(huán)境中的卓越表現(xiàn)。

在數(shù)據(jù)構(gòu)建方面,DeepSeek-V3采用了多種優(yōu)化策略。相較于前一版本DeepSeek-V2,團(tuán)隊(duì)在預(yù)訓(xùn)練語料庫中增加了數(shù)學(xué)和編程樣本的比例,并擴(kuò)展了多語言覆蓋范圍,不再局限于英語和中文。此外,團(tuán)隊(duì)還通過改進(jìn)數(shù)據(jù)處理流程,最大限度地減少了數(shù)據(jù)冗余,確保語料庫的多樣性。受到Ding等人(2024年)的啟發(fā),他們實(shí)施了文檔打包方法,以確保數(shù)據(jù)完整性,同時(shí)避免了訓(xùn)練期間跨樣本注意力掩碼的應(yīng)用。最終,DeepSeek-V3的訓(xùn)練語料庫包含了14.8萬億高質(zhì)量和多樣的tokens,為模型提供了豐富的訓(xùn)練數(shù)據(jù)。

在分詞器及預(yù)處理策略方面,DeepSeek-V3采用了字節(jié)級(jí)BPE分詞器,具有128K的擴(kuò)展詞匯表。為了優(yōu)化多語言壓縮效率,團(tuán)隊(duì)對(duì)分詞器的預(yù)處理和訓(xùn)練數(shù)據(jù)進(jìn)行了修改。新的分詞器引入了結(jié)合標(biāo)點(diǎn)符號(hào)和換行符的tokens,盡管這可能在無終止換行的多行提示處理中引入token邊界偏差,但通過在訓(xùn)練過程中隨機(jī)拆分這些組合token,團(tuán)隊(duì)有效地減輕了這種偏差,提高了模型在多種特殊情況下的表現(xiàn)。

在超參數(shù)設(shè)置方面,團(tuán)隊(duì)精心挑選了模型和訓(xùn)練的超參數(shù),以確保模型的最佳性能。模型超參數(shù)包括61層Transformer層,每層有7168個(gè)隱藏維度,以及128個(gè)注意力頭和128個(gè)每頭維度。所有可學(xué)習(xí)參數(shù)隨機(jī)初始化,標(biāo)準(zhǔn)差為0.006。對(duì)于多頭潛在注意力(MLA),設(shè)置了512的KV壓縮維度和1536的查詢壓縮維度,所有FFN層除前三層外均替換為專家混合模型(MoE)層,每個(gè)MoE層包括1個(gè)共享專家和256個(gè)路由專家。

圖8:“草垛中的針”(NIAH)測(cè)試的評(píng)估結(jié)果。DeepSeek-V3在高達(dá)128K的所有上下文窗口長(zhǎng)度上都表現(xiàn)良好

訓(xùn)練超參數(shù)方面,團(tuán)隊(duì)使用AdamW優(yōu)化器,設(shè)置了β1=0.9,β2=0.95和weight_decay=0.1。最大序列長(zhǎng)度設(shè)置為4K,并在14.8萬億tokens上進(jìn)行預(yù)訓(xùn)練。學(xué)習(xí)率調(diào)度采用了從0逐漸增加到2.2×10-4 的線性增長(zhǎng),然后在10萬億訓(xùn)練tokens內(nèi)保持恒定,再逐漸衰減至2.2×10-5,并在最后5000億tokens內(nèi)保持在7.3×10^-6。梯度裁剪范數(shù)設(shè)為1.0,批量大小從3072逐漸增加到15360,使用流水線并行將模型的不同層部署在不同的GPU上,實(shí)現(xiàn)高效訓(xùn)練。

在長(zhǎng)上下文擴(kuò)展方面,DeepSeek-V3采用了與DeepSeek-V2類似的方法,使其具備處理長(zhǎng)上下文的能力。預(yù)訓(xùn)練階段后,通過YaRN進(jìn)行上下文擴(kuò)展,進(jìn)行兩階段的訓(xùn)練,每階段包含1000步,將上下文窗口從4K逐漸擴(kuò)展到128K。通過這種兩階段擴(kuò)展訓(xùn)練,DeepSeek-V3能夠處理最長(zhǎng)128K的輸入,同時(shí)保持強(qiáng)大的性能。

通過上述多種優(yōu)化策略和超參數(shù)設(shè)置,DeepSeek-V3在模型性能和訓(xùn)練效率方面實(shí)現(xiàn)了顯著提升,為其在多語言和多任務(wù)環(huán)境中的卓越表現(xiàn)奠定了堅(jiān)實(shí)基礎(chǔ)。

在評(píng)估與實(shí)驗(yàn)結(jié)果部分,DeepSeek-AI團(tuán)隊(duì)對(duì)DeepSeek-V3進(jìn)行了全面且詳盡的測(cè)試,通過多種基準(zhǔn)測(cè)試和不同設(shè)置,展示了模型在各個(gè)方面的卓越性能。

在選擇評(píng)估基準(zhǔn)時(shí),團(tuán)隊(duì)考慮了多種因素,包括模型的多語言能力、代碼生成能力、數(shù)學(xué)推理能力以及在開放式生成任務(wù)中的表現(xiàn)。他們選取了廣泛認(rèn)可的基準(zhǔn)測(cè)試,如MMLU、DROP、GPQA和SimpleQA等,以全面評(píng)估模型的性能。

具體評(píng)估配置方面,團(tuán)隊(duì)使用了內(nèi)部開發(fā)的評(píng)估框架,確保所有模型在相同的條件下進(jìn)行測(cè)試。例如,在MMLU-Redux的零樣本設(shè)置中,使用Zero-Eval提示格式;在代碼和數(shù)學(xué)基準(zhǔn)測(cè)試中,HumanEval-Mul數(shù)據(jù)集包括了8種主流編程語言,并采用CoT和非CoT方法評(píng)估模型性能。在數(shù)學(xué)評(píng)估中,AIME和CNMO 2024使用0.7的溫度進(jìn)行評(píng)估,結(jié)果平均于16次運(yùn)行,而MATH-500則采用貪婪解碼。所有模型在每個(gè)基準(zhǔn)測(cè)試中最多輸出8192個(gè)token,以保證公平比較。

在標(biāo)準(zhǔn)評(píng)估結(jié)果中,DeepSeek-V3展示了其作為最強(qiáng)開源模型的實(shí)力,并在與閉源模型的競(jìng)爭(zhēng)中表現(xiàn)出色。

在英文基準(zhǔn)測(cè)試中,DeepSeek-V3在MMLU、MMLU-Pro、MMLU-Redux、GPQA-Diamond和DROP等測(cè)試中表現(xiàn)優(yōu)異,顯示了其在多領(lǐng)域知識(shí)和任務(wù)中的競(jìng)爭(zhēng)力。例如,在MMLU-Pro這一更具挑戰(zhàn)性的教育知識(shí)基準(zhǔn)測(cè)試中,DeepSeek-V3緊隨Claude-Sonnet 3.5,其結(jié)果顯著優(yōu)于其他模型。此外,DeepSeek-V3在處理長(zhǎng)上下文任務(wù)中表現(xiàn)出色,如在DROP的3-shot設(shè)置中取得了91.6的F1分?jǐn)?shù),并在FRAMES這一需要在10萬token上下文中進(jìn)行問答的基準(zhǔn)測(cè)試中,緊隨GPT-4o,顯著優(yōu)于其他模型。

在代碼與數(shù)學(xué)基準(zhǔn)測(cè)試中,DeepSeek-V3展示了卓越的編碼生成和數(shù)學(xué)推理能力。在工程任務(wù)中,盡管略遜于Claude-Sonnet-3.5-1022,但顯著優(yōu)于其他開源模型。在算法任務(wù)中,DeepSeek-V3在HumanEval-Mul和LiveCodeBench等測(cè)試中表現(xiàn)優(yōu)異,超越所有基線模型。這種成功得益于其先進(jìn)的知識(shí)蒸餾技術(shù),在數(shù)學(xué)基準(zhǔn)測(cè)試如AIME、MATH-500和CNMO 2024中,DeepSeek-V3同樣表現(xiàn)出色,顯著優(yōu)于其他模型。

在中文基準(zhǔn)測(cè)試中,DeepSeek-V3在Chinese SimpleQA、C-Eval和CLUEWSC等測(cè)試中也表現(xiàn)出色。例如,在Chinese SimpleQA這一中文事實(shí)知識(shí)基準(zhǔn)測(cè)試中,DeepSeek-V3比Qwen2.5-72B高出16.4分,盡管Qwen2.5-72B在更大規(guī)模的語料庫上進(jìn)行了訓(xùn)練。這一結(jié)果表明DeepSeek-V3在多語言環(huán)境中的優(yōu)越性能。

在開放式評(píng)估中,DeepSeek-V3在Arena-Hard和AlpacaEval 2.0基準(zhǔn)測(cè)試中也展示了卓越的性能。在Arena-Hard基準(zhǔn)測(cè)試中,DeepSeek-V3對(duì)基線GPT-4-0314的勝率超過86%,表現(xiàn)與頂級(jí)模型Claude-Sonnet-3.5-1022相當(dāng),突顯了其在處理復(fù)雜提示(包括編碼和調(diào)試任務(wù))方面的強(qiáng)大能力。此外,DeepSeek-V3在AlpacaEval 2.0上的表現(xiàn)也非常出色,超越了閉源和開源模型,展示了其在寫作任務(wù)和處理簡(jiǎn)單問答場(chǎng)景方面的卓越能力。

圖9 :樁試驗(yàn)裝置中三個(gè)域的無輔助損失和基于輔助損失的模型的專家載荷。無輔助損失模型比基于輔助損失的模型顯示出更大的專家專業(yè)化模式。相對(duì)專家負(fù)荷表示實(shí)際專家負(fù)荷與理論平衡專家負(fù)荷之間的比率

作為生成性獎(jiǎng)勵(lì)模型,DeepSeek-V3在RewardBench中的表現(xiàn)同樣突出。與GPT-4o和Claude-3.5-Sonnet等先進(jìn)模型相比,DeepSeek-V3的判斷能力不相上下,并且可以通過投票技術(shù)進(jìn)一步提升。這一特性使得DeepSeek-V3能夠?yàn)殚_放式問題提供自我反饋,提高對(duì)齊過程的有效性和魯棒性。

在DeepSeek-V3的開發(fā)過程中,后訓(xùn)練階段起到了至關(guān)重要的作用,通過監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí),進(jìn)一步提升了模型的性能和實(shí)用性。

監(jiān)督微調(diào)

數(shù)據(jù)集構(gòu)建與策略方面,DeepSeek-AI團(tuán)隊(duì)精心整理了一個(gè)包含150萬實(shí)例的指令調(diào)優(yōu)數(shù)據(jù)集,涵蓋多個(gè)領(lǐng)域。每個(gè)領(lǐng)域的數(shù)據(jù)創(chuàng)建方法各異,以滿足特定的需求。對(duì)于推理相關(guān)的數(shù)據(jù)集,如數(shù)學(xué)、代碼競(jìng)賽問題和邏輯難題,團(tuán)隊(duì)利用內(nèi)部的DeepSeek-R1模型生成數(shù)據(jù)。盡管R1生成的數(shù)據(jù)具有較高的準(zhǔn)確性,但也存在過度思考、格式差和長(zhǎng)度過長(zhǎng)的問題。為了解決這些問題,團(tuán)隊(duì)開發(fā)了一個(gè)針對(duì)特定領(lǐng)域的專家模型,如代碼、數(shù)學(xué)或一般推理,使用監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練流水線。這個(gè)專家模型作為數(shù)據(jù)生成器,為最終模型提供了高質(zhì)量的訓(xùn)練數(shù)據(jù)。

在微調(diào)設(shè)置方面,團(tuán)隊(duì)對(duì)DeepSeek-V3-Base進(jìn)行了兩輪微調(diào),使用了從5×10-6 逐漸減少到1×10-6的余弦衰減學(xué)習(xí)率調(diào)度。訓(xùn)練期間,每個(gè)單獨(dú)序列從多個(gè)樣本打包而成,但通過樣本掩碼策略確保這些例子相互隔離和不可見。這樣不僅提高了訓(xùn)練效率,還保證了數(shù)據(jù)集的多樣性和有效性。

強(qiáng)化學(xué)習(xí)

在獎(jiǎng)勵(lì)模型方面,團(tuán)隊(duì)采用了基于規(guī)則的獎(jiǎng)勵(lì)模型和基于模型的獎(jiǎng)勵(lì)模型。對(duì)于可以使用特定規(guī)則驗(yàn)證的問題,如某些數(shù)學(xué)問題,團(tuán)隊(duì)采用基于規(guī)則的獎(jiǎng)勵(lì)系統(tǒng)來確定反饋。這種方法具有高可靠性,不易被操縱。對(duì)于具有自由形式真實(shí)答案的問題,團(tuán)隊(duì)則依賴獎(jiǎng)勵(lì)模型確定響應(yīng)是否符合預(yù)期答案。通過構(gòu)建包含獎(jiǎng)勵(lì)過程的偏好數(shù)據(jù),提高了獎(jiǎng)勵(lì)模型的可靠性,減少了特定任務(wù)中獎(jiǎng)勵(lì)劫持的風(fēng)險(xiǎn)。

在群組相對(duì)策略優(yōu)化(GRPO)方面,團(tuán)隊(duì)放棄了通常與策略模型同大小的評(píng)論模型,而是從群組評(píng)分中估計(jì)基線。具體而言,對(duì)于每個(gè)問題,GRPO從舊策略模型中抽樣一組輸出,然后優(yōu)化策略模型,最大化目標(biāo)函數(shù)。通過這種方法,團(tuán)隊(duì)在RL過程中引入了來自編碼、數(shù)學(xué)、寫作、角色扮演和問答等不同領(lǐng)域的提示,不僅使模型更符合人類偏好,還顯著提升了在基準(zhǔn)測(cè)試中的表現(xiàn)。

總結(jié)而言,通過監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)的有效結(jié)合,DeepSeek-V3在后訓(xùn)練階段取得了顯著的性能提升。監(jiān)督微調(diào)階段高質(zhì)量數(shù)據(jù)集的構(gòu)建與策略,確保了模型在多個(gè)領(lǐng)域的準(zhǔn)確性和適用性。而在強(qiáng)化學(xué)習(xí)階段,通過先進(jìn)的獎(jiǎng)勵(lì)模型和群組相對(duì)策略優(yōu)化,進(jìn)一步提升了模型的對(duì)齊性和魯棒性。這些努力使得DeepSeek-V3不僅在多領(lǐng)域表現(xiàn)優(yōu)異,還具備了強(qiáng)大的實(shí)際應(yīng)用潛力。

在DeepSeek-V3的開發(fā)過程中,知識(shí)蒸餾策略起到了關(guān)鍵作用。通過從DeepSeek-R1模型中蒸餾出高質(zhì)量的推理能力數(shù)據(jù),團(tuán)隊(duì)顯著提升了DeepSeek-V3在各個(gè)基準(zhǔn)測(cè)試中的表現(xiàn)。表9顯示了蒸餾數(shù)據(jù)在LiveCodeBench和MATH-500基準(zhǔn)測(cè)試中的有效性,不僅提高了模型的性能,還增加了平均響應(yīng)長(zhǎng)度。雖然蒸餾策略在提升性能方面表現(xiàn)出色,但也帶來了計(jì)算效率的挑戰(zhàn)。為了解決這個(gè)問題,團(tuán)隊(duì)仔細(xì)選擇了蒸餾過程中的最佳設(shè)置,以在模型準(zhǔn)確性和效率之間取得平衡。

這種蒸餾策略的成功表明,從推理模型中蒸餾知識(shí)是后訓(xùn)練優(yōu)化的一個(gè)有前途的方向。盡管目前的工作主要集中在數(shù)學(xué)和編碼領(lǐng)域,蒸餾技術(shù)在其他認(rèn)知任務(wù)中也顯示出潛力,特別是那些需要復(fù)雜推理的任務(wù)。未來,團(tuán)隊(duì)計(jì)劃進(jìn)一步探索這一方法在不同任務(wù)領(lǐng)域的應(yīng)用,以期在更廣泛的領(lǐng)域提升模型性能。

在強(qiáng)化學(xué)習(xí)過程中,獎(jiǎng)勵(lì)機(jī)制對(duì)優(yōu)化過程至關(guān)重要。在可以通過外部工具進(jìn)行驗(yàn)證的領(lǐng)域(如某些編碼或數(shù)學(xué)場(chǎng)景),強(qiáng)化學(xué)習(xí)表現(xiàn)出極高的效率。然而,在更廣泛的場(chǎng)景中,通過硬編碼構(gòu)建反饋機(jī)制往往不切實(shí)際。為解決這一問題,DeepSeek-V3采用了憲法AI方法,利用DeepSeek-V3自身的投票評(píng)估結(jié)果作為反饋源。這種方法顯著提升了DeepSeek-V3在主觀評(píng)估中的性能。

通過引入額外的憲法輸入,DeepSeek-V3能夠朝著預(yù)期方向進(jìn)行優(yōu)化。團(tuán)隊(duì)認(rèn)為,這種結(jié)合補(bǔ)充信息與LLMs作為反饋源的模式非常重要。LLM作為一個(gè)多功能處理器,能夠?qū)碜圆煌瑘?chǎng)景的非結(jié)構(gòu)化信息轉(zhuǎn)化為獎(jiǎng)勵(lì),最終促進(jìn)LLMs的自我改進(jìn)。除了自我獎(jiǎng)勵(lì)外,團(tuán)隊(duì)還致力于發(fā)現(xiàn)其他通用且可擴(kuò)展的獎(jiǎng)勵(lì)方法,以在一般場(chǎng)景中持續(xù)提升模型能力。

DeepSeek-V3在訓(xùn)練過程中采用了多token預(yù)測(cè)(MTP)技術(shù),這一創(chuàng)新顯著提升了模型的生成速度和性能。傳統(tǒng)的語言模型通常只預(yù)測(cè)下一個(gè)token,而DeepSeek-V3則在每個(gè)位置上預(yù)測(cè)多個(gè)未來token。通過這種方法,模型不僅增加了訓(xùn)練信號(hào)的密度,提高了數(shù)據(jù)效率,還能夠更好地規(guī)劃其表示,以便更準(zhǔn)確地預(yù)測(cè)未來的token。

結(jié)合推測(cè)性解碼框架,MTP技術(shù)大幅加快了模型的解碼速度。評(píng)估顯示,DeepSeek-V3在不同生成主題中的第二個(gè)token預(yù)測(cè)接受率在85%到90%之間,展示了這一技術(shù)的一致可靠性。高接受率使得DeepSeek-V3能夠?qū)崿F(xiàn)1.8倍的TPS(每秒token數(shù)),顯著提升了解碼速度。這一創(chuàng)新不僅提高了模型的實(shí)際應(yīng)用效率,也為未來語言模型的發(fā)展提供了寶貴的經(jīng)驗(yàn)。

DeepSeek-V3作為一款先進(jìn)的專家混合(MoE)語言模型,在性能方面達(dá)到了新的高度。通過采用多頭潛在注意力(MLA)和DeepSeekMoE架構(gòu),結(jié)合無輔助損失的負(fù)載平衡策略和多token預(yù)測(cè)(MTP)目標(biāo),DeepSeek-V3在推理和訓(xùn)練效率上實(shí)現(xiàn)了顯著提升。在多種基準(zhǔn)測(cè)試中,DeepSeek-V3表現(xiàn)出色,超越了許多開源和閉源模型,尤其在代碼生成、數(shù)學(xué)推理和長(zhǎng)上下文處理方面展現(xiàn)了卓越的能力。例如,在MMLU、DROP、GPQA-Diamond和HumanEval-Mul等測(cè)試中,DeepSeek-V3的成績(jī)令人矚目,其表現(xiàn)不僅在開源模型中名列前茅,還與頂級(jí)閉源模型不相上下。

盡管DeepSeek-V3在多個(gè)方面表現(xiàn)出色,但其仍然存在一些局限性。首先,為了確保高效的推理性能,推薦的部署單元相對(duì)較大,這對(duì)于規(guī)模較小的團(tuán)隊(duì)可能會(huì)造成一定的負(fù)擔(dān)。其次,盡管經(jīng)過多項(xiàng)優(yōu)化,DeepSeek-V3的端到端生成速度已達(dá)到DeepSeek-V2的兩倍以上,但在推理速度上仍有進(jìn)一步提升的空間。此外,當(dāng)前的模型在處理某些特定任務(wù)時(shí)仍可能存在瓶頸,例如在復(fù)雜推理或極端長(zhǎng)上下文處理方面。

未來的研究方向

面向未來,DeepSeek-AI團(tuán)隊(duì)計(jì)劃在多個(gè)方向上持續(xù)投入研究,以進(jìn)一步提升模型性能和應(yīng)用廣泛性。首先,團(tuán)隊(duì)將繼續(xù)研究和改進(jìn)模型架構(gòu),旨在進(jìn)一步提高訓(xùn)練和推理效率,并努力支持無限上下文長(zhǎng)度。此外,團(tuán)隊(duì)將探索突破Transformer架構(gòu)限制的方法,拓展其建模能力邊界。

在數(shù)據(jù)方面,團(tuán)隊(duì)將不斷迭代訓(xùn)練數(shù)據(jù)的數(shù)量和質(zhì)量,并探索引入額外的訓(xùn)練信號(hào)源,以推動(dòng)數(shù)據(jù)在更廣泛維度上的擴(kuò)展。與此同時(shí),團(tuán)隊(duì)還將持續(xù)探索和迭代模型的深度思考能力,旨在通過擴(kuò)展推理長(zhǎng)度和深度,提升模型的智能和解決問題的能力。

最后,團(tuán)隊(duì)計(jì)劃探索更全面和多維度的模型評(píng)估方法,以避免研究過程中對(duì)固定基準(zhǔn)測(cè)試的優(yōu)化傾向,確保對(duì)模型能力的基礎(chǔ)性評(píng)估更加準(zhǔn)確和全面。這些研究方向不僅為DeepSeek-V3的持續(xù)優(yōu)化提供了路徑,也為整個(gè)領(lǐng)域的未來發(fā)展指明了方向。

總的來說,DeepSeek-V3在多個(gè)方面實(shí)現(xiàn)了突破,展示了強(qiáng)大的潛力和應(yīng)用前景。通過持續(xù)的研究和優(yōu)化,相信這一模型將為未來人工智能的發(fā)展作出更大的貢獻(xiàn)。(END)

參考資料:https://arxiv.org/abs/2412.19437

本文轉(zhuǎn)載自 ??大噬元獸??,作者: FlerkenS

轉(zhuǎn)載請(qǐng)注明來自濟(jì)南富森木工刀具制造有限公司 ,本文標(biāo)題:《一文讀懂 DeepSeek-V3 技術(shù)報(bào)告》

百度分享代碼,如果開啟HTTPS請(qǐng)參考李洋個(gè)人博客
每一天,每一秒,你所做的決定都會(huì)改變你的人生!

發(fā)表評(píng)論

快捷回復(fù):

驗(yàn)證碼

評(píng)論列表 (暫無評(píng)論,106人圍觀)參與討論

還沒有評(píng)論,來說兩句吧...

Top
 迅源機(jī)械招聘信息最新  震安科技最新中標(biāo)信息  約到集團(tuán)最新信息招聘  佛山遠(yuǎn)泰招聘信息最新  西安IQC最新招聘信息  沿溪廚師招聘信息最新  發(fā)電機(jī)招聘信息最新  六團(tuán)店鋪轉(zhuǎn)讓信息最新  余江母嬰店招聘信息最新  寧蒗縣最新拆遷規(guī)劃信息  赤峰醫(yī)保工招聘信息最新  漢濱區(qū)招護(hù)工最新信息  防范美國大選最新信息  東盛最新疫情發(fā)布信息  仙桃到天津最新防疫信息  桂平北江最新房?jī)r(jià)信息  榮昌新門面出售信息最新  21屆校園招聘信息最新  烏市酒店最新招聘信息  苗鄉(xiāng)打工的最新通告信息  布吉附近最新招聘信息  珠海金灣區(qū)最新新盤信息  上海大道最新樓盤信息  最新公租房信息合肥武漢  貴州掌圈招聘信息最新  杭州城隍閣最新信息地址  赤峰高爾夫招聘最新信息  荔浦最新工廠招工信息  長(zhǎng)春最新公益崗招聘信息  汝南古城最新房?jī)r(jià)信息