推理性能直逼o1，DeepSeek再次出手，重點(diǎn)：即將開源

huamei 2025-03-15 新聞 2 次瀏覽 0個(gè)評(píng)論

DeepSeek 又出手了，這次又是重磅炸彈。

昨晚，DeepSeek 上線了全新的推理模型 DeepSeek-R1-Lite-Preview ，直接沖擊 OpenAI o1 保持了兩個(gè)多月的大模型霸主地位。

在美國(guó)數(shù)學(xué)競(jìng)賽（AMC）中難度等級(jí)最高的 AIME 以及全球頂級(jí)編程競(jìng)賽（codeforces）等權(quán)威評(píng)測(cè)中，DeepSeek-R1-Lite-Preview 模型已經(jīng)大幅超越了 GPT-4o 等頂尖模型，有三項(xiàng)成績(jī)還領(lǐng)先于 OpenAI o1-preview。

背后的秘訣，就是「深度思考」。

更多的強(qiáng)化學(xué)習(xí)、原生的思維鏈、更長(zhǎng)的推理時(shí)間，能讓大模型的性能更強(qiáng)，這在領(lǐng)域內(nèi)已經(jīng)是廣泛共識(shí)。這種模式其實(shí)非常像人類大腦的深度思考。

與 OpenAI o1 有點(diǎn)不一樣的是，DeepSeek-R1-Lite-Preview 會(huì)在回復(fù)中展示「思路鏈」推理，也就是響應(yīng)查詢和輸入的不同鏈或「思路」，并解釋它在做什么以及為什么這樣做。

就像是解題時(shí)，有人喜歡將每一步驟都詳盡地寫在卷子上，而 DeepSeek-R1-Lite-Preview 更進(jìn)一步：把內(nèi)心 OS 也都寫出來了。

DeepSeek 官方表示，DeepSeek R1 系列模型使用強(qiáng)化學(xué)習(xí)訓(xùn)練，推理過程包含大量反思和驗(yàn)證，思維鏈長(zhǎng)度可達(dá)數(shù)萬字。已經(jīng)發(fā)布的 DeepSeek-R1-Lite-Preview 使用的是一個(gè)較小的基座模型，尚未完全釋放長(zhǎng)思維鏈的潛力。

對(duì)于用戶的 Prompt，DeepSeek-R1-Lite-Preview 會(huì)有一個(gè)很長(zhǎng)的推理過程。如上圖中的紅色實(shí)線所示，模型所能達(dá)到的準(zhǔn)確率與所給定的推理長(zhǎng)度呈正相關(guān)。且相比于傳統(tǒng)的多次采樣 + 投票（Majority Voting），模型思維鏈長(zhǎng)度增加展現(xiàn)出了更高的效率。

最驚艷的是，發(fā)布即上線：所有用戶均可通過官網(wǎng)開啟與 DeepSeek-R1-Lite-Preview 的對(duì)話，但注意要先在輸入框中打開「深度思考」模式，每天限制 50 次使用。

體驗(yàn)地址：http://chat.deepseek.com/

不得不說，對(duì) o1 直接發(fā)起沖擊的 DeepSeek，著實(shí)讓國(guó)內(nèi) AI 社區(qū)振奮了一把：

^{圖源：https://www.zhihu.com/question/4689435060/answer/36575793425}

由于 DeepSeek-R1-Lite-Preview 目前僅支持網(wǎng)頁使用，沒有發(fā)布完整代碼供獨(dú)立第三方分析或基準(zhǔn)測(cè)試，也沒有通過 API 提供 DeepSeek-R1-Lite-Preview 以進(jìn)行同類獨(dú)立測(cè)試，也沒有解釋 DeepSeek-R1-Lite-Preview 是如何訓(xùn)練或構(gòu)建的博客文章或技術(shù)論文，大家心中其實(shí)還有許多的「問號(hào)」。

但 DeepSeek 已經(jīng)表示，正式版 DeepSeek-R1 模型會(huì)完全開源，還會(huì)公開技術(shù)報(bào)告，部署 API 服務(wù)。

^{圖源：https://www.zhihu.com/question/4689435060/answer/36604051127}

回想起上一次，DeepSeek-V2 的開源和 API 降價(jià)，直接引發(fā)了國(guó)產(chǎn)大模型廠商的降價(jià)浪潮。同樣的力度再來一波，不知道大家如何頂住。

耐心等待的時(shí)間里，我們先來實(shí)測(cè)一下。

一手實(shí)測(cè)體驗(yàn)

與 OpenAI o1 相同的是，根據(jù)問題的復(fù)雜程度，它也需要「思考」數(shù)十秒后再回答。

雖然有些過程中的思路在人類看來可能毫無意義，甚至是錯(cuò)誤的，但據(jù)初步測(cè)評(píng)，DeepSeek-R1-Lite-Preview 回復(fù)的最終整體準(zhǔn)確率還是比較高的。

比如它可以回答 GPT-4o 和 Claude 系列都翻車過的問題 —— 經(jīng)典陷阱題「Strawberry 這個(gè)詞中有多少個(gè)字母 R？」和「9.11 和 9.9 哪個(gè)更大？」。

有用戶在 DeepSeek Chat 上使用這些 Prompt 進(jìn)行測(cè)試，回復(fù)結(jié)果和思考用時(shí)情況如下：

^{Strawberry 這個(gè)詞中有多少個(gè)字母 R？用時(shí) 29 秒。}

^{9.11 和 9.9 哪個(gè)更大？用時(shí) 9 秒。}

不過在數(shù)草莓的問題上，R1-Lite-Preview 有時(shí)也會(huì)困惑，數(shù)出「只有 2 個(gè) r」的答案：

機(jī)器之心也實(shí)測(cè)了一把，似乎對(duì)于中文，R1-Lite-Preview 的準(zhǔn)確率更高：

對(duì)于需要?jiǎng)幽X的問題，R1-Lite-Preview 的表現(xiàn)也可圈可點(diǎn)，比如它可以破解行測(cè)題的邏輯陷阱：

由 LeCun 提出的物理題：圓周上均勻分布了 7 根軸，每根軸上都有一個(gè)齒輪。每個(gè)齒輪都與其左邊和右邊的齒輪嚙合。齒輪從 1 到 7 編號(hào)，依次沿圓周排列。問題是：如果齒輪 3 順時(shí)針旋轉(zhuǎn)，問齒輪 7 會(huì)沿什么方向旋轉(zhuǎn)？

得出解來十分絲滑：

接下來，給 R1-Lite-Preview 上點(diǎn)強(qiáng)度，看看它能否笑對(duì)大學(xué)物理的噩夢(mèng)：《電磁學(xué)千題解》。

在 34 秒內(nèi)，它根據(jù)題意列出了對(duì)應(yīng)的公式，得到了正確答案：

至于 R1-Lite-Preview 被全球頂級(jí)編程競(jìng)賽（codeforces）等權(quán)威評(píng)測(cè)檢驗(yàn)過的代碼能力，讓它手撕大廠秋招級(jí)別的 Leetcode 經(jīng)典題「島嶼問題」試一下：

運(yùn)行起來也沒大問題。

然而，相比推理、物理和編程，R1-Lite-Preview 的數(shù)學(xué)能力可能沒那么讓人放心。

比如科技博主 @Transformer - 周問了一道中學(xué)水平的數(shù)列題，只有 o1 和 o1mini 做對(duì)了，R1-Lite-Preview 沒想出關(guān)鍵的破題思路，而是「蒙」出了答案。

而對(duì)于最能考驗(yàn)人類大腦的深度思考能力的 IMO 國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽試題，R1-Lite-Preview 的表現(xiàn)是這樣的：

這道代數(shù)題相當(dāng)難，全球僅有 5 個(gè)人全對(duì)。在長(zhǎng)達(dá) 162 秒的思考過程中，R1-Lite-Preview 洋洋灑灑地把解題思路寫成了一篇小論文，可能它的老師也教過 —— 把解題過程寫上能得一半分。

令人遺憾的是，最終答案 c=1 是錯(cuò)的，正確答案如下：

而另一位「解題過程沒寫全」的選手 OpenAI o1 卻給出了正確答案：

這說明，DeepSeek-R1-Lite-Preview 仍有進(jìn)步空間，也更讓我們期待完整版模型的發(fā)布了。

各位讀者已經(jīng)試用了嗎？歡迎在評(píng)論區(qū)分享有趣的實(shí)測(cè)案例。

^{參考鏈接：}

^{https://mp.weixin.qq.com/s/e1YnTxZlzFvjcmrLLTA8fw}

^{https://venturebeat.com/ai/deepseeks-first-reasoning-model-r1-lite-preview-turns-heads-beating-openai-o1-performance/}

轉(zhuǎn)載請(qǐng)注明來自濟(jì)南富森木工刀具制造有限公司 ，本文標(biāo)題：《推理性能直逼o1，DeepSeek再次出手，重點(diǎn)：即將開源》

huamei 141篇文章站點(diǎn) 微博

每一天，每一秒，你所做的決定都會(huì)改變你的人生！

發(fā)表評(píng)論取消回復(fù)

評(píng)論列表（暫無評(píng)論，2人圍觀）參與討論

還沒有評(píng)論，來說兩句吧...

? 2025年3月 ?
一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

super_admin管理員

最新文章

文章歸檔

網(wǎng)站收藏

推理性能直逼o1，DeepSeek再次出手，重點(diǎn)：即將開源

發(fā)表評(píng)論取消回復(fù)

還沒有評(píng)論，來說兩句吧...

最近發(fā)表

友情鏈接

文章目錄

super_admin管理員

最新文章

文章歸檔

網(wǎng)站收藏

推理性能直逼o1，DeepSeek再次出手，重點(diǎn)：即將開源

國(guó)家農(nóng)作物品種審定委員會(huì)關(guān)于印發(fā)《主要農(nóng)作物品種審定標(biāo)準(zhǔn)（國(guó)家級(jí)）》的通知

泰國(guó)草皮價(jià)格走勢(shì)最新圖，泰國(guó)草皮價(jià)格走勢(shì)圖表及分析

國(guó)鐵集團(tuán)今年前三季度：實(shí)現(xiàn)營(yíng)業(yè)總收入7823億元

夢(mèng)幻火鍋店最新版，體驗(yàn)極致火鍋文化之旅，夢(mèng)幻火鍋店最新版，極致火鍋文化之旅體驗(yàn)

數(shù)據(jù)科技｜技術(shù)成熟，場(chǎng)景擴(kuò)容，L3+普及放量極速駛來

AIGC案例實(shí)戰(zhàn)！如何用AI為可視化大屏設(shè)計(jì)提效？

通州創(chuàng)森最新招聘信息網(wǎng)——探索職業(yè)發(fā)展的黃金門戶，通州創(chuàng)森最新招聘信息網(wǎng)，職業(yè)發(fā)展的黃金門戶探索

個(gè)人代客炒股如何量刑，有哪些相關(guān)的規(guī)定

sany-gz.com

fanyuhaiwei.com

szlen.cn

qswtnm.com

xaqlbf.com

laikaiwei.com

chznt.cc

wozhong.net

hongchen-toy.com

rymdzs.cn

ticketstar.com.cn

dianzbh.com

發(fā)表評(píng)論取消回復(fù)

還沒有評(píng)論，來說兩句吧...

最近發(fā)表

友情鏈接

文章目錄

推理性能直逼o1，DeepSeek再次出手，重點(diǎn)：即將開源

夢(mèng)幻火鍋店最新版，體驗(yàn)極致火鍋文化之旅，夢(mèng)幻火鍋店最新版，極致火鍋文化之旅體驗(yàn)

數(shù)據(jù)科技｜技術(shù)成熟，場(chǎng)景擴(kuò)容，L3+普及放量極速駛來

AIGC案例實(shí)戰(zhàn)！如何用AI為可視化大屏設(shè)計(jì)提效？

通州創(chuàng)森最新招聘信息網(wǎng)——探索職業(yè)發(fā)展的黃金門戶，通州創(chuàng)森最新招聘信息網(wǎng)，職業(yè)發(fā)展的黃金門戶探索

個(gè)人代客炒股如何量刑，有哪些相關(guān)的規(guī)定

還沒有評(píng)論，來說兩句吧...