Monday, February 17, 2025

DeepSeek 遍地開花

阿聯酋高級官員 Faisal Al Bannai 告訴記者,阿聯酋正計劃在中國 DeepSeek 的啟發下推出新的人工智慧模型,並稱DeepSeek的顛覆性出現是「了不起的消息」。

阿聯酋 Falcon 大語言模型背後的推動者 Bannai 表示,DeepSeek 對美國科技巨頭的挑戰表明,在人工智慧主導地位的競爭中,該領域是開放的。

阿聯酋正在大力發展轉型技術,作為其推動經濟多元化、擺脫化石燃料的一部分。

Bannai 表示,DeepSeek 讓他深受鼓舞,這是一種高性能且明顯低成本的人工智慧模型,推出後導致美國科技股暴跌。「這是個好消息。因為它證明了一件事:這場遊戲才剛開始,」Bannai在杜拜舉行的世界政府高峰會上表示。

阿聯酋總統先進技術顧問表示:DeepSeek 發生的事情再次證明,小團隊、敏捷團隊、敏捷國家可以快速行動並產生影響。我們正在從他們所展示的內容中學習。我們正在吸取教訓,我們還將在這方面推出其他模型。我認為(DeepSeek 給予)一種強烈的鼓勵感,你可以在這場比賽中超越自己的體重,因為比賽仍在開始。

Bannai也是阿布達比先進技術研究委員會的秘書長,他表示,阿聯酋的財富、吸引人才的能力及其自上而下的決策可能使其成為人工智慧領域的重要參與者。

「當網路 1.0 或 2.0 階段發生時,我們不一定準備好,」他說。 「今天我們處於一個令人驚奇的境地,我們擁有如此多元化的生態系統,作為一個國家,來自世界各地的人才。

這是新聞來源

--------------------------------------------------------------

Deepseek 一個星期的全球下載量便超過一億次,史無前例。由現在起,全球會出現越來越多受DeepSeek啟發的大模型,這現象只能用遍地開花形容。

對於發達地區而言,一直用Chatgpt其實也無不可,它們的大模型持續在進步。但對發展中地區而言(全球約80億人,70億人在發展中地區),差別便大了。有天賦的程式人員或工程師可持續在DeepSeek的大模型上進行開發或改進,或直接應用。

早陣子Open AI決定把Open AI 轉變為牟利機構時,當時大量工程師辭職表達不滿,當中大多數人的理念都是為一個開源與非牟利組織工作。既然違背初心,Open AI變成一個搵錢至上的科技巨頭,他們出走也正常不過。這大量優秀工程師會否支持DeepSeek這類開源模型,答案很明顯。

其他科技巨頭如Meta的AI大模型是開源的,但將來也會把它與旗下的社交平台與生態綑綁。DeepSeek 是純粹做理論與學術,現階段不存在什麼與平台綑綁的問題。這樣下去,DeepSeek會否形成一個類似Android的生態,我不懂預測,拭目以待。

很明顯的,某一些工作或工序已可由DeepSeek取代。即使不是完全取代,善用AI的人,在職場上的生產力會大幅提升。當然不是所有工作都跟AI有關係。有一些職業將來不會給AI取代。

跟AI有關的產業會如何發展,現階段不能看清。唯一比較明確的是,對於企業或政府而言,部份工序或工作的確可由AI衍生的應用取代,即成本可降低,也不需要更多人手;另一方面,為大眾提供服務或產品的消費類企業,利用AI可令用戶或客戶的體驗感更好。即是說,AI to B / AI to G這條線似乎更清楚明確。但直接提供服務的東西如算法/ AI chatbox,或將來純粹是人工智能產品,其競爭格局或生意模式現階段完全不確定,AI to C如何發展還要拭目以待。

若全球優秀工程人才持續湧進參與開源大模型的開發,產品更新速度是可以很快的,某程度上反映算法其實沒什麼持續的護城河或長期商業價值。硬件如芯片,更新速度超快,現在科技巨頭連年花數百億在英偉達的高端芯片上,過了兩三年這些芯片便已落後了,價值可能只有現價的兩三成。財務報表上成了一個資產值大幅減值的項目。若同時間相關衍生的收入增長沒跟上,科技巨頭的估值走勢其實不難想像

若看上游的位置,即供電網與數據中心。數據中心是重資本投資,當中的成本如大量芯片,貶值速度可以很快。反而更上游的供電網,確定性似乎更大,若下游人工智能相關應用快速發展,對應的電力需求一定會增加。

總體而言,股票投資的話,已有企業把現成人工智能應用在減低成本的工序上,成本大降下,純利出現可觀增長。但純粹AI消費應用端如何發展,根本完全看不清。即使是阿里的阿里雲,增長空間如何也很難說得清。準確點說,阿里近兩個星期市值增加了8000億港元左右,不單純是炒概念。阿里在雲業務的投資已持續多年,營收持續增長,去年已到達一千億營收了,但在過去四年的熊市中,阿里雲給市場以零估值定價,基本上否定它的存在。現在市場因為AI題材對其雲業務重估,簡單P/S 3-5倍報價,阿里市值也增加3000-5000億,所以阿里大升也算合理,只是後續這板塊業績如何發展還是難以估計。

雖然我完全沒有在AI相關題材交易,但對於相關炒作不反感,發展科技需要大量資金,科技泡沫有其必要性。從美股歷史去看便知一二,過去數十年出現不少跟科技相關題材的牛市炒作,不少當時得令的垃圾公司到最後破產收場,也有股民血無歸,但大量資本投入下,市場通過一輪優勝劣敗的競爭,競爭格局明朗化後,的確由此誕生不少偉大企業,整個進程資本助力貢獻極大,看Amazon的成長路徑便知道了。

Wednesday, February 5, 2025

談DeepSeek

近兩周,DeepSeek成為全球討論熱話。整個大模型open source,deepseek同時間公開發報一篇論文,提到模型算法內的技巧枝節。

對於寫代碼或編程,我的了解有限。對於跟數學原理有關的算法,我還算略知一二。下載他們發表的論文一看,部分粗略看懂。結合美國AI大廠工程師的解釋,大概明白多一點。

在訓練模型流程的細節位,極端優化算力與存儲能力的運用。例如整個運算到達某一個階段時,模型會自動砌割成數個細分小模型,各模型處理的參數與擅長的數據範圍不同,從而減少消耗無謂的算力。在運算方面,模型學習過程涉及大量大型矩陣乘法,技巧地活用不少線性代數原理,把巨型矩陣分解成不同因子,各因子是體型更小的矩陣,乘法運算上節省不少時間與存儲空間。其他的細節特別是有關RL的,我便不懂了。

若不是高端芯片短缺的話,正常思維路徑的模型建設者不會去考慮相關的技巧優化細節。只能說是高端芯片受限這個大環境下,才會去建構這種大模型。美國大量頂尖工程師不是能力不足,而是在優越大環境下,硬件軟件絲毫不缺,養尊處優,當然不會想盡辦法做出極端優化。

再次印證necessity is the mother of innovation。

在算力成本大大縮減的狀況下,模型性能卻不比美國頂尖的大模型差,這是第一個關鍵。第二個關鍵是整個模型開源,則全球的軟件工程師都可在這模型上進行更細緻的優化,更新或改進,或直接從中開發中更有應用性的產品。

在發展AI進程中的突破性進展,少不免有質疑聲音與造假的說法。整個模型open source,美國各大廠的工程師已細閱當中細節,基本上可看成第三方權威評估,各大廠(Dell, Amazon, Microsoft, etc...)已把deepseek模型陸續上線在自己的平台,造假可能性很低。其次,已有小規模的AI團隊如美國UC Berkeley博士生,利用deepseek上傳的模型編碼,自行建構自己的模型,發現模型確實可節省大量成本,但性能依然超卓。

當中最不透明的地方大概是deepseek需要的芯片量與種類,有陰謀論說它用了大量違規得到的英偉達最高階GPU芯片進行開發,這可能性當然不能排除。但deepseek模型當中的原創性想法得到業界AI工程師核實,它著實節省大量成本。即使不是坊間所說的50-100倍,節省成本是至少10倍,這是現階段業界人士的理解。

至於Open AI早陣子的指控,指deepseek團隊運用蒸餾法,把Open AI得出的數據蒸餾製作出自身模型,更是令人啼笑皆非。數據蒸餾法是業界常用的手法,Open AI的AI團隊不可能不知吧 ? 利用一個AI的數據或訓練結果去訓練另一個AI,已是很普遍的做法。

至於Open AI指控的所謂侵權行為更是可笑,Open AI的模型不是開源,根本不能抄襲或參考。其次,Open AI製造出的LLM本身是建基於偷竊全球數十億網民發報的資訊。如媒體在網上公開的文章全都有版權,內容創作者在不同平台發出的資訊全都有版權,Open AI私自運用這些海量數據製作LLM模型,過程中完全不開源,營收源自用家的月費,引入大量投資者投資而自肥,企圖狀大自己至龐然大物壟斷市場。若Open AI完全守法守規,所有網上資源都先申請得到創作者或機構同意才運用,成本增加萬億元也不止,Chatgpt誕生前公司已破產。

美國數個科技巨頭近年大量投資AI項目,搞軍備競賽,築高牆,營造一個必須年花數百億美元才有條件搞AI的大氛圍,不讓中小企或個人設計開發者有突出重圍的機會(即使他們有力突圍,也需要向巨頭們大量付費,利用巨頭的數據中心,數據或雲端運算服務,去建立他們自身的系統),由一開始便沒有造福全人類的想法,一心只搞數個寡頭壟斷。美國的資本體制下,巨頭們需要對投資人負責,一向都極度追求利潤。

近兩年美股炒起不少AI股,一間三萬億市值的芯片龍頭,但面向應用端的產品完全沒出現,估值明顯不合理。業界過去數年信奉為鐵律的Scaling Law,利用大量高端GPU芯片做運算,把LLM模型越做越大,算力愈來愈猛,便可處理更多大數據,這才能開發出應用AI。這個遊戲到了現在或許值得反思。

AI經過過去數年的快速發展,世上遺留下來還未訓練的數據已不多(對比數年前的狀況),這樣的話,市場早晚都會問一個問題:到底什麼時候才會出現消費者願意付費的AI消費產品?

從過去百年的科技各細分行業發展規律去看,首階段的領先者都不能持續壟斷到最後,中後段有中小型創業者利用前人走過的路,再另找路徑去突破巨企的圍堵,反撲巨頭成功的例子屢見不鮮。若現在便有人斷言,AI走到成熟應用的階段,領先的企業依然是現時最大的科技龍頭霸佔(Nvidia / Amazon / Meta / Microsoft / Google),這才算是天大奇事。

有關科技歷史發展,我建議Engines that move markets (by Alasdair Nairn),這絕對是一本好書。

DeepSeek的出現給不少中小型開發者帶來希望。或許,做到應用型的產品,根本不需要數百億投資在芯片上,LLM可大規模縮小,只需處理精專細分業務的工作,便足以做到滿足大眾需求的產品。簡單的例子如手術室內的AI機械人不需要處理有關自動駕駛的數據,或建築應用的AI機械人不需懂歷史知識等等。這樣的話,不需要最高階的芯片或許已可做到相關產品。

行業規模化生產落地,相宜的人力成本如頂尖工程師的分紅與工資,市場找到足夠大的應用需求,再加上數據中心需要大規模配搭電網(美國的電力基建系統完全不能接收用電量的大幅提升),當中需要政府有效率地配合,再加上各AI子行業需要的大數據也需要政府配合調配數據資源。綜觀全球,只有中國能滿足所有條件。

本年剛開始,AI界出現這個大突破,我相信對AI行業的進展是好事,向AI普遍性應用踏前一大步。