Wednesday, February 5, 2025

談DeepSeek

近兩周,DeepSeek成為全球討論熱話。整個大模型open source,deepseek同時間公開發報一篇論文,提到模型算法內的技巧枝節。

對於寫代碼或編程,我的了解有限。對於跟數學原理有關的算法,我還算略知一二。下載他們發表的論文一看,部分粗略看懂。結合美國AI大廠工程師的解釋,大概明白多一點。

在訓練模型流程的細節位,極端優化算力與存儲能力的運用。例如整個運算到達某一個階段時,模型會自動砌割成數個細分小模型,各模型處理的參數與擅長的數據範圍不同,從而減少消耗無謂的算力。在運算方面,模型學習過程涉及大量大型矩陣乘法,技巧地活用不少線性代數原理,把巨型矩陣分解成不同因子,各因子是體型更小的矩陣,乘法運算上節省不少時間與存儲空間。其他的細節特別是有關RL的,我便不懂了。

若不是高端芯片短缺的話,正常思維路徑的模型建設者不會去考慮相關的技巧優化細節。只能說是高端芯片受限這個大環境下,才會去建構這種大模型。美國大量頂尖工程師不是能力不足,而是在優越大環境下,硬件軟件絲毫不缺,養尊處優,當然不會想盡辦法做出極端優化。

再次印證necessity is the mother of innovation。

在算力成本大大縮減的狀況下,模型性能卻不比美國頂尖的大模型差,這是第一個關鍵。第二個關鍵是整個模型開源,則全球的軟件工程師都可在這模型上進行更細緻的優化,更新或改進,或直接從中開發中更有應用性的產品。

在發展AI進程中的突破性進展,少不免有質疑聲音與造假的說法。整個模型open source,美國各大廠的工程師已細閱當中細節,基本上可看成第三方權威評估,各大廠(Dell, Amazon, Microsoft, etc...)已把deepseek模型陸續上線在自己的平台,造假可能性很低。其次,已有小規模的AI團隊如美國UC Berkeley博士生,利用deepseek上傳的模型編碼,自行建構自己的模型,發現模型確實可節省大量成本,但性能依然超卓。

當中最不透明的地方大概是deepseek需要的芯片量與種類,有陰謀論說它用了大量違規得到的英偉達最高階GPU芯片進行開發,這可能性當然不能排除。但deepseek模型當中的原創性想法得到業界AI工程師核實,它著實節省大量成本。即使不是坊間所說的50-100倍,節省成本是至少10倍,這是現階段業界人士的理解。

至於Open AI早陣子的指控,指deepseek團隊運用蒸餾法,把Open AI得出的數據蒸餾製作出自身模型,更是令人啼笑皆非。數據蒸餾法是業界常用的手法,Open AI的AI團隊不可能不知吧 ? 利用一個AI的數據或訓練結果去訓練另一個AI,已是很普遍的做法。

至於Open AI指控的所謂侵權行為更是可笑,Open AI的模型不是開源,根本不能抄襲或參考。其次,Open AI製造出的LLM本身是建基於偷竊全球數十億網民發報的資訊。如媒體在網上公開的文章全都有版權,內容創作者在不同平台發出的資訊全都有版權,Open AI私自運用這些海量數據製作LLM模型,過程中完全不開源,營收源自用家的月費,引入大量投資者投資而自肥,企圖狀大自己至龐然大物壟斷市場。若Open AI完全守法守規,所有網上資源都先申請得到創作者或機構同意才運用,成本增加萬億元也不止,Chatgpt誕生前公司已破產。

美國數個科技巨頭近年大量投資AI項目,搞軍備競賽,築高牆,營造一個必須年花數百億美元才有條件搞AI的大氛圍,不讓中小企或個人設計開發者有突出重圍的機會(即使他們有力突圍,也需要向巨頭們大量付費,利用巨頭的數據中心,數據或雲端運算服務,去建立他們自身的系統),由一開始便沒有造福全人類的想法,一心只搞數個寡頭壟斷。美國的資本體制下,巨頭們需要對投資人負責,一向都極度追求利潤。

近兩年美股炒起不少AI股,一間三萬億市值的芯片龍頭,但面向應用端的產品完全沒出現,估值明顯不合理。業界過去數年信奉為鐵律的Scaling Law,利用大量高端GPU芯片做運算,把LLM模型越做越大,算力愈來愈猛,便可處理更多大數據,這才能開發出應用AI。這個遊戲到了現在或許值得反思。

AI經過過去數年的快速發展,世上遺留下來還未訓練的數據已不多(對比數年前的狀況),這樣的話,市場早晚都會問一個問題:到底什麼時候才會出現消費者願意付費的AI消費產品?

從過去百年的科技各細分行業發展規律去看,首階段的領先者都不能持續壟斷到最後,中後段有中小型創業者利用前人走過的路,再另找路徑去突破巨企的圍堵,反撲巨頭成功的例子屢見不鮮。若現在便有人斷言,AI走到成熟應用的階段,領先的企業依然是現時最大的科技龍頭霸佔(Nvidia / Amazon / Meta / Microsoft / Google),這才算是天大奇事。

有關科技歷史發展,我建議Engines that move markets (by Alasdair Nairn),這絕對是一本好書。

DeepSeek的出現給不少中小型開發者帶來希望。或許,做到應用型的產品,根本不需要數百億投資在芯片上,LLM可大規模縮小,只需處理精專細分業務的工作,便足以做到滿足大眾需求的產品。簡單的例子如手術室內的AI機械人不需要處理有關自動駕駛的數據,或建築應用的AI機械人不需懂歷史知識等等。這樣的話,不需要最高階的芯片或許已可做到相關產品。

行業規模化生產落地,相宜的人力成本如頂尖工程師的分紅與工資,市場找到足夠大的應用需求,再加上數據中心需要大規模配搭電網(美國的電力基建系統完全不能接收用電量的大幅提升),當中需要政府有效率地配合,再加上各AI子行業需要的大數據也需要政府配合調配數據資源。綜觀全球,只有中國能滿足所有條件。

本年剛開始,AI界出現這個大突破,我相信對AI行業的進展是好事,向AI普遍性應用踏前一大步。

No comments:

Post a Comment