123,123,123

DeepSeek V4終于來(lái)了！我們知道些什么？

2026-04-24 18:03

萬(wàn)眾期待的DeepSeek V4預(yù)覽版終于在北京時(shí)間4月24日上午發(fā)布了。此前，媒體和分析師曾反復(fù)預(yù)測(cè)V4即將發(fā)布，并已經(jīng)多次預(yù)測(cè)失敗，這一次終于成功了。由于模型發(fā)布時(shí)間還太短，第三方和客戶評(píng)測(cè)還在緊鑼密鼓的進(jìn)行中，現(xiàn)在的有效信息其實(shí)很少。不過，通過技術(shù)文檔和海外AI社區(qū)的初步討論，我們還是能得到一些情報(bào)的。

首先，V4的戰(zhàn)略方向是提高Agent能力，這與OpenClaw發(fā)布以來(lái)的世界潮流相符。“全民養(yǎng)龍蝦”的浪潮，給MiniMax, Kimi和智譜等國(guó)產(chǎn)大模型廠商帶來(lái)了巨大的Token增量，但最重要、最專業(yè)的增量被Claude吃掉了。Agent能力與編程能力是密不可分的，Claude Code至今仍是全球最強(qiáng)大的AI編程工具（沒有之一），GPT-Codex也無(wú)法撼動(dòng)其地位。DeepSeek官方公告在開頭最顯眼的部分宣稱“Agent能力大幅提高”，但也承認(rèn)“（據(jù)評(píng)測(cè)反饋）仍與Opus 4.6思考模式存在一定差距”。

在海外AI社區(qū)，一部分用戶十分興奮，期待DeepSeek成為“Claude殺手”——但公允的說，這只是一種美好愿望，畢竟很多人都很痛恨Claude及其開發(fā)商Anthropic，“天下苦Anthropic久矣”。從目前的測(cè)試數(shù)據(jù)看，V4的Token性價(jià)比很高，但是Agent Benchmark指標(biāo)并沒有超過Claude Opus-4.6和GPT-5.4。需要注意的是，Benchmark分?jǐn)?shù)只有參考意義，關(guān)鍵還是實(shí)際用戶體驗(yàn)，Claude在許多Benchmark測(cè)試當(dāng)中并不優(yōu)于GPT和Gemini，但并不妨礙它在Agent領(lǐng)域幾乎一枝獨(dú)秀。因此，我非常關(guān)心接下來(lái)一段時(shí)間，專業(yè)用戶使用DeepSeek進(jìn)行Agent操作的實(shí)際反饋。

上下文窗口擴(kuò)展到1M是一個(gè)重要提升，與較低的Token定價(jià)結(jié)合起來(lái)，可能創(chuàng)造較高的生產(chǎn)力。不過，我們?nèi)孕枰却龑I(yè)客戶執(zhí)行復(fù)雜任務(wù)之后的實(shí)際反饋，至少還得等兩三天。

我猜測(cè)：DeepSeek從傳說中的“1月/2月發(fā)布”一直拖到今天發(fā)布，實(shí)際原因可能是打磨Agent能力，因?yàn)辇埼r這波增量超出了所有人的預(yù)期。與其發(fā)布一個(gè)跟不上現(xiàn)實(shí)Agentic Workflow需求的大模型，還不如在等幾個(gè)月，發(fā)布一個(gè)完全符合現(xiàn)實(shí)需求的大模型。當(dāng)然這只是我的個(gè)人猜測(cè)，沒有實(shí)證。

其次，最初一波海外客戶使用反饋，在執(zhí)行“非深度推理、非數(shù)學(xué)、非代碼”任務(wù)，例如頭腦風(fēng)暴和文藝創(chuàng)作時(shí)，V4給人的感覺“太干”(dry)，“過于正式”，落后于Claude和GPT的最新版本，甚至有人認(rèn)為落后于GPT-5.2。需要強(qiáng)調(diào)的是，這些零碎的主觀感受代表不了什么，文藝創(chuàng)作任務(wù)也并非V4的主要發(fā)力方向。不過，這有可能對(duì)消費(fèi)端用戶的傾向造成微妙的影響，從而擾動(dòng)目前互聯(lián)網(wǎng)大廠對(duì)C端AI應(yīng)用市場(chǎng)的爭(zhēng)奪戰(zhàn)。

假設(shè)V4的回答真的“太干”“太正式”，有可能是對(duì)于V3/R1幻覺率較高問題的一種解決，因?yàn)樽杂砂l(fā)揮幾乎一定意味著幻覺率提升，而限制幻覺率幾乎一定會(huì)讓回答“更干”。當(dāng)然這只是猜測(cè)，期待更多更廣泛的測(cè)試結(jié)果。

第三，也是很多人最關(guān)心的：DeepSeek V4技術(shù)文件披露了很多訓(xùn)練細(xì)節(jié)，但是不包括訓(xùn)練硬件（顯卡）。整份技術(shù)文件當(dāng)中，僅僅提到“華為”(Huawei)一次，提到“英偉達(dá)”(Nvidia)三次（不含腳注）；提到"GPU"十四次（不含腳注），但都沒有提到是什么型號(hào)的GPU，僅有一次例外——"We validated the fine-grained EP scheme on both NVIDIA GPUs and Huawei NPUs platforms. 但這只是表示測(cè)試環(huán)境，不代表訓(xùn)練場(chǎng)景（注：這也是唯一一次提到華為昇騰NPU）。

因此，我們?nèi)圆恢繢eepSeek究竟是在什么硬件上訓(xùn)練出來(lái)的。技術(shù)文件中有幾次提到了CUDA，但也不能據(jù)此得出完全基于英偉達(dá)架構(gòu)的結(jié)論。是否像某些分析師預(yù)期的那樣，“基于英偉達(dá)和華為昇騰混合架構(gòu)進(jìn)行訓(xùn)練”，或者“在后訓(xùn)練環(huán)節(jié)對(duì)昇騰進(jìn)行了專門優(yōu)化”？遺憾的是，雖然一切皆有可能，但是DeepSeek官方既無(wú)認(rèn)可、也無(wú)否認(rèn)。相比之下，V3技術(shù)文件在一開始就宣布是由英偉達(dá)H800和A100訓(xùn)練出來(lái)的。

圖片由Google Nano Banana Pro制作

有人根據(jù)DeepSeek公告中“預(yù)計(jì)下半年昇騰950超節(jié)點(diǎn)批量上市后，Pro的價(jià)格會(huì)大幅下調(diào)”，得出了“V4針對(duì)昇騰做了深度優(yōu)化”，甚至“從1月推遲發(fā)布至今就是為了適配昇騰”的結(jié)論。雖然不能完全排除這種可能性，但不得不說，這種思維過于跳躍。這只能說明DeepSeek官方會(huì)采購(gòu)或租用一批昇騰算力，并對(duì)昇騰推理進(jìn)行過一些優(yōu)化（這是很正常的），至于優(yōu)化程度多深、乃至是否為了適配昇騰而多次推出發(fā)布，均還沒有任何實(shí)證支持。

不過，要間接證明或證偽也不難。V4是開源的，從今天起，會(huì)有無(wú)數(shù)廠商用自己的算力運(yùn)行推理。假設(shè)它確實(shí)是基于昇騰訓(xùn)練出來(lái)的，或者為昇騰做過深度優(yōu)化，那么可以推斷——它在昇騰硬件上的推理效率，應(yīng)該高于在英偉達(dá)等其他硬件上的推理效率，或至少處于同一量級(jí)。又或者，昇騰硬件能夠促使V4達(dá)到某種獨(dú)特的性能，而其他硬件做不到。只需要關(guān)注一下新聞即可輕松了解實(shí)際情況（如果沒看到新聞則代表證偽了）。

最后是對(duì)產(chǎn)業(yè)界的影響。除了DeepSeek自己，最期待V4發(fā)布并震驚世界的，大概就是騰訊了。昨天混元3.0大模型預(yù)覽版剛剛發(fā)布，結(jié)果其光芒完全被今天的DeepSeek V4遮住了。我還沒有機(jī)會(huì)全面試用混元3.0，但是考慮到此前騰訊在基座大模型方面的落后程度非常大，想用一個(gè)版本就達(dá)到世界先進(jìn)水平，似乎不太可能。

因此，騰訊要做好AI生意，不管是做好To B生意（尤其是賣Token的MaaS生意）還是To C生意，恐怕還是要依賴高質(zhì)量的第三方開源大模型。國(guó)內(nèi)水平最高、使用人數(shù)最多的開源大模型是Qwen，那是老對(duì)手阿里的，騰訊顯然不太愿意用。那就只有依靠DeepSeek，以及幾天之前才發(fā)過新版本的Kimi了。如果DeepSeek真的開放融資，騰訊一定會(huì)不惜代價(jià)投進(jìn)去。V4越成功，就越能讓騰訊爭(zhēng)取到更多時(shí)間，一邊爭(zhēng)取把自己做成“國(guó)產(chǎn)開源生態(tài)”的一個(gè)集合平臺(tái)，另一邊竭盡全力把自研大模型實(shí)力趕上來(lái)。

我想，現(xiàn)在最期待V4在用戶測(cè)試當(dāng)中傳來(lái)捷報(bào)的，應(yīng)該是騰訊的投資人和管理層。幸運(yùn)的是，從最初期的一波反饋看，似乎還不錯(cuò)，海外社區(qū)的評(píng)價(jià)偏向積極一面。但確實(shí)還需要更多信息，而且僅僅“偏向積極”是不夠的，最好是“十分積極”——我們恐怕還得等上一個(gè)星期才能確認(rèn)。

原文標(biāo)題 : DeepSeek V4終于來(lái)了！我們知道些什么？