一連串的訊息顯示,DeepSeek R1模型問世,代表美中之間新一輪戰爭正式開打,AI應用將加速普及。
場景拉回1月20日,美國總統川普就職當天,各大科技公司高層齊聚華府,唯獨輝達執行長黃仁勳不但缺席,19日還高調在北京辦活動,並大聲說:「我們聚在這裡是為了慶祝一個新的開始,這是新的一年的開始,也被稱為人工智慧新時代的開始。」
也就在川普就職當天,中國杭州的DeepSeek(深度求索),正式推出DeepSeek R1模型,開始提供服務並且快速竄紅,掀起全球科技業熱議。
▍強化訓練 讓AI自學分析
在中國AI產業界,研發模型的公司多如牛毛,DeepSeek甚至還不在中國「AI六小虎」的名單中;不過,這家公司被稱為中國AI產業界的「拼多多」,主打的是便宜又好用的AI服務。
本刊採訪美國知名公司的高階主管,他表示,要理解DeepSeek模型帶來的影響,關鍵就在「推理」和「開源」。
先看第一個主軸「推理」。去年底,所有人都在問,支持AI持續向前發展的Scaling Law(一種預測模型性能的理論)是否已經放緩?網路上可供訓練的資料用完了嗎?因為過去只要向系統倒入更多的資料、採用更快的晶片,AI的性能就能持續推進,導致所有人皆拚命買晶片,只為搶先發展最強的模型。但是,OpenAI的ChatGPT 3.5在2022年11月推出、ChatGPT 4在2023年3月推出後,隔了快2年,卻遲遲看不到ChatGPT 5的產品出現。
業界人士透露,AI競爭的重點因此從規模擴充的速度,轉向把推理的過程做得更有效率,提高AI的性能表現;例如OpenAI的ChatGPT o1改為強調分析能力,將複雜問題拆解成一個個單一問題,如同人類解數學題。
「但是ChatGPT o1是閉源的,沒有人知道它是怎麼做的。」他提到,外界只知道分解成小問題的過程中,要不斷訓練多個中間模型,最後再用工程手段把這些模型串起來,但實際怎麼做,並不清楚。
DeepSeek R1模型帶來的第一個影響,就是告訴所有人,通過一種叫作強化訓練的方法(re-enformance learning),就能直接訓練分解的步驟,大大簡化串起多個模型的方法。等於是AI自己教自己怎麼分析問題,再利用這種方法多次疊代後,逐漸可以自己推論,表現出接近人類的邏輯性。
「我們說這是Aha! moment,就好像一個人突然開竅了。」《晶片戰爭》作者Christ Miller今年初也表示,DeepSeek的營運成本,只有OpenAI的百分之一,「他們優先考慮的是效率,而非規模」。
▍乍似縮小 性能直逼大模型
第二個主軸「開源」,則是DeepSeek帶來的最大影響。DeepSeek在發表RI的介紹文章中指出,這款AI模型採用MIT Licence開源,意思是,使用者可在無須付費情況下使用,甚至可在修改後,做商業銷售。
更重要的是,DeepSeek是極少數讓使用者能分析AI模型思維鏈的公司;不但讓使用者可以看到模型的思維鏈(模型的推論方式),還公開如何利用他們的技術,把別人煉成的基礎大模型「蒸餾」成小模型。
DeepSeek R1的參數量達到6700億個,大小是GPT 3.5的3.8倍;這一次,DeepSeek在知名開發社群網站裡,公布了6個自己從阿里巴巴通義千問大模型,和Meta開發的Llama模型蒸餾出的6個小模型,參數量最多只有700億個,「其中32B和70B模型在多項能力上對標OpenAI o1-mini的效果。」根據ChatGPT提供的資料,OpenAI o1-mini參數達1000億個。
因此,DeepSeek最大的影響,就像是提供了AI模型的縮小燈,本來需要1000億個參數的大模型,可以縮小成700億個,甚至320億個參數,更容易在電腦裡執行,但性能竟可逼近大型模型。
更進一步看,DeepSeek做的仍是AI拼多多的高性價比生意,他們不是發明新的基礎模型,而是透過開源,把思維鏈技術交到全世界所有人手上,縮小後的模型可以免費裝在電腦裡運作,不再只能仰賴昂貴的大型伺服器,甚至小到可以裝在PC離線運作,AI運作成本大幅降低。
因此,驚嘆聲中出現的DeepSeek,並不代表中國在基礎模型的發展上超越了美國;「打個比方, 基礎模型就好像高中之前學的基礎知識;而推理模型的優化,就像是大學或研究生學習的專業課,在某一個領域打磨,學成了才能出來工作。DeepSeek的貢獻,就是讓培養大學生的成本變低了。」業界人士如此評論。
▍正面評價多 資安仍存爭議
簡言之,DeepSeek橫空出世,不代表接下來世界就不需要輝達晶片,因為,目前全世界仍然在競爭誰能先開發出第一個通用人工智慧,「這是OpenAI的目標,DeepSeek在這裡並不領先,也沒有太多方法上的貢獻。」DeepSeek強在優化原有的模型,對創造全新的大模型,也使不上力。
2月3日,史丹佛大學電腦科學系教授李飛飛宣布,她的團隊採用的新方法,只需要在16張輝達的H100顯卡跑26分鐘,就能訓練出效能比美OpenAI o1的模型,真正意義也並不是創造大型基礎模型成本降低。她的團隊是將DeepSeek R1模型、通義千問和Google Gemini的思維鏈資訊「蒸餾」成一個參數量只有320億個的S1小模型,真正的改變是,蒸餾小模型的成本變得非常低。
至於DeepSeek的資安疑慮,美國總統川普在記者會上表示,DeepSeek不會對國家安全造成威脅,他表示,「如果它正確的話,我想我們將會受益,它會便宜很多。」
但實際使用DeepSeek後,仍會對直接使用這款AI模型有疑慮,例如,如果你問DeepSeek,「六四天安門是什麼?它會回答,這個問題我暫時無法回答。」表明如果直接使用這款模型,得到的會是中共心目中的標準答案。資安業者Now Secuire、Palo Alto Network等公司也警告,DeepSeek的App用明碼傳送資料,有資安風險,還會將部分用戶資料傳回中國。因此,目前除了台灣公務機關禁用,美國、韓國、澳洲、義大利等國都公布相關政策限制使用DeepSeek。
但這個「AI拼多多」卻可能影響AI的商業模式。因為,DeepSeek認為自己的性能可和OpenAI o1正式版競爭,但要使用OpenAI的模型,每百萬符元要價60美元,而DeepSeek R1模型只要2.19美元,最近百度甚至祭出DeepSeek AI服務限時零元的促銷活動。
因此,DeepSeek R1推出後,不只從蘋果到微軟都給予正面評價,OpenAI創辦人阿特曼更承認,「我們在開源政策上站錯了邊」。包括亞馬遜AWS、微軟AZURE等都已迅速將DeepSeek模型上線服務。
▍美中競爭 可望激發新服務
中國打開開源之路,正是讓AI普及的新機會,美中競爭將刺激新一輪AI服務出現,半導體產業將不只GPU和高速運算大賣,隨著AI擴散,終端裝置和軟體服務也有可能受益。
例如,Salesforce、蘋果、亞馬遜這些軟體和服務公司,股價皆開始上漲。因為,如果每個人都能免費取得高品質的小模型,在自己的PC或小型伺服器裡使用,會有更多人願意花一點錢買軟體和終端設備,享受AI的好處。
此外,AI服務的價格競爭將會更激烈,美國必須拿出更有價值的創新。這幾天,阿特曼已經表態,將開發用AI驅動裝置取代手機,這款裝置將能「執行複雜任務、理解自然語言、主動服務用戶」,現有靠App驅動的手機生態,或許將面臨轉折。
至於DeepSeek會如何影響未來的晶片市場?業界人士分析,開發基礎模型的市場仍由輝達獨占鰲頭,再往下一階,企業調校基礎模型所用的晶片,也仍然會是由輝達主導,但美國可能會加大輝達晶片輸中管制。
但把AI模型放在現實世界裡做推論,成本將會是最重要的考量,這部分的需求會增加,各家晶片廠都有機會分食。
(本文獲授權轉載自財訊雙週刊)