經(jīng)濟觀察報 關注
2025-05-15 20:40
經(jīng)濟觀察報記者 鄭晨燁
“到2033年,拓展至百萬臺規(guī)模,覆蓋工業(yè)、物流、家庭服務等多元化場景。”近日,智平方(深圳)科技有限公司(下稱“智平方”)創(chuàng)始人兼CEO郭彥東,在公司新一代通用智能機器人AlphaBot 2的發(fā)布會上擲出了這句豪言。
對于一家成立剛滿兩年的初創(chuàng)企業(yè)而言,在商業(yè)化前景尚未十分明朗的具身智能賽道,立下如此具體的目標,實屬罕見。
從履歷上看,郭彥東曾是微軟美國總部核心AI團隊成員,任職期間主導開發(fā)了多款 AI 前沿技術(shù)和產(chǎn)品,其中Custom Vision服務是全球范圍內(nèi)首次將“預訓練模型+場景微調(diào)”商業(yè)化的實踐嘗試,為AI技術(shù)的大規(guī)模應用打開了新思路。
他還在小鵬汽車和OPPO擔任過首席科學家和研發(fā)高管,這名技術(shù)和產(chǎn)業(yè)“老兵”,選擇在人工智能大模型爆發(fā)的節(jié)點時刻切入機器人賽道,其核心思考邏輯是“將AGI(通用人工智能)從數(shù)字世界拓展到物理世界”。
郭彥東強調(diào),智平方堅持“軟硬一體垂直整合”,以自研的Alpha Brain為核心,定義并驅(qū)動AlphaBot等一系列“AGI終端”,率先從汽車制造、半導體、生物科技等高門檻的工業(yè)場景尋求商業(yè)化突破。
然而,在“豪言壯語”的背后,現(xiàn)實的拷問也隨之而來:一家年輕的創(chuàng)業(yè)公司,何以支撐如此“重”的戰(zhàn)略投入和如此長遠的產(chǎn)出預期?其宣稱領先的GOVLA大模型,在全球巨頭林立、技術(shù)加速迭代的背景下,能否構(gòu)筑起真正的護城河,并轉(zhuǎn)化為可持續(xù)的商業(yè)成功?從“能演示”到“真能用”,再到“大規(guī)模用好”,這條路上的“坑”,智平方能否一一趟過?
另外,郭彥東也預測通用機器人的“iPhone時刻”將在5至7年后到來。這一預測和百萬臺產(chǎn)能目標,是基于清醒的行業(yè)洞察,還是在資本與輿論裹挾下的理想化宣言?
近日,帶著這些問題,經(jīng)濟觀察報記者與郭彥東展開了一場直接對話。
以下是對話實錄:
最難啃的三塊“硬骨頭”
經(jīng)濟觀察報:你從微軟、小鵬、OPPO等大廠高位轉(zhuǎn)身,創(chuàng)立智平方,投身具身智能賽道,是什么驅(qū)使你做出這樣的選擇?要實現(xiàn)智平方的“AGI終端”普及的愿景,你認為最難啃的“硬骨頭”是什么?
郭彥東:我在微軟、小鵬、OPPO的經(jīng)歷,讓我深刻體會到AI技術(shù)如何一步步滲透并重塑各個智能終端形態(tài)。
從PC到智能手機,再到智能汽車,每一次變革的核心都是讓人與智能終端的交互更便捷,讓終端能在更多場景完成更多樣的工作,這是一個很清晰的脈絡。
今天,我們正站在又一個變革的門檻上,通用人工智能(AGI)與物理實體的結(jié)合——也就是具身智能機器人——將是第四代革命性的智能終端。
這不是簡單的線性延伸,而可能是一個數(shù)量級的飛躍。
我看到的機會,就是將AGI的能力真正賦予物理世界的機器人,讓它們從只能執(zhí)行預設程序的“機器”,進化成能夠理解環(huán)境、自主決策、并與人自然協(xié)作的“智能體”。這片“無人區(qū)”,正是通用智能機器人能夠像今天的智能手機和汽車一樣普及的巨大空間。
我們的愿景和使命,就是推動這一天的到來。但這條路無疑是艱難的。當前最難啃的“硬骨頭”,我認為有三塊:
首先是技術(shù)的通用性與魯棒性(指系統(tǒng)、模型或算法在面對異常輸入、干擾、噪聲或環(huán)境變化時保持正常功能和性能的能力)。如何讓機器人真正具備跨行業(yè)、跨場景、跨任務的泛化執(zhí)行能力,而不是每換一個場景就要重新大量編程和訓練?這需要多模態(tài)感知、快速學習、自主決策與精準執(zhí)行能力的深度融合與突破。很多時候,實驗室里表現(xiàn)完美的機器人,到真實、復雜、動態(tài)的工廠或家庭環(huán)境里就“水土不服”,這就是魯棒性不夠。
其次是成本與價值的平衡。目前高性能機器人的硬件成本依然高昂,雖然我們判斷未來2—3年硬件成本會隨著規(guī)模化量產(chǎn)而顯著下降,但現(xiàn)階段,如何在特定場景下讓客戶明確感知到機器人帶來的價值,比如,效率提升、成本降低、安全性提高,能夠覆蓋甚至遠超其采購和部署成本,這是商業(yè)化的關鍵。
最后是應用場景的深度挖掘與標準化難題,工業(yè)場景需求相對明確,比如我們合作的晶圓搬運、汽車裝配。但即便是工業(yè)場景,不同工廠的工藝流程、環(huán)境布局也千差萬別。
如何從中提煉出共性需求,形成相對標準化的解決方案,再針對特定需求做少量定制,這對我們的技術(shù)能力和行業(yè)理解都是巨大考驗。而服務機器人、家庭機器人面臨的場景則更為開放和非標,挑戰(zhàn)更大。
“軟硬一體”自建產(chǎn)線
經(jīng)濟觀察報:智平方堅持“軟硬一體”并自建產(chǎn)線,走的是重投入的“機器人服務商”模式,在行業(yè)有多種輕資產(chǎn)模式的背景下,你為何認定這條重投入之路是必要的?如何平衡高投入與回報周期的不確定性?
郭彥東:這確實是一條“重路”,但我們認為這是具身智能,尤其是通用智能機器人這個賽道特性決定的,甚至是唯一能走通的路。為什么這么說?
第一,我們的商業(yè)模式核心是交付能解決實際問題的最終產(chǎn)品,而不是一個單一的技術(shù)模塊或零部件。客戶買的是一個能干活的機器人,一個完整的解決方案,而不是一堆需要自己集成的技術(shù)。這就要求我們對最終產(chǎn)品的性能、可靠性、成本負全責。
第二,從技術(shù)層面講,機器人的“大腦”(AI模型)與“身體”(硬件本體)是高度耦合、深度綁定的,很難割裂開來獨立發(fā)展和銷售。這非常像自動駕駛系統(tǒng),甚至可以說自動駕駛是機器人大腦的一個簡化版。
你看看行業(yè)里的經(jīng)驗,一些已經(jīng)做得非常好的自動駕駛系統(tǒng),換一個車型,往往需要幾百個工程師耗費十幾個月的時間駐場進行適配開發(fā)。這個例子從一個側(cè)面反映出,一旦進入具身大模型這個賽道,切換硬件的代價和成本是相對比較高的。這就意味著,你很難用一個所謂“通用”的大腦,簡單地賣給各種不同的機器人硬件公司,讓他們自己去適配。更高效、更可靠的模式,是用一個全新的、強大的大腦,去正向設計和定義你的整個機器人系統(tǒng),然后以軟硬一體的方式進行銷售和交付。
汽車行業(yè)喊了很多年“軟件定義汽車”“智能定義汽車”,但實際上受到了很多現(xiàn)有生產(chǎn)供應鏈的限制、行業(yè)慣例的制約,以及各種車規(guī)、行規(guī)和產(chǎn)品慣性的束縛,使得軟件并不能夠真正意義上地徹底定義硬件。但機器人是一個全新的賽道,它沒有那么多歷史包袱。只要你有這樣的認知,有這樣的能力,你完全可以用一個全新的軟件和AI能力,去定義一套全新的硬件架構(gòu),然后軟硬一體地交付給客戶,提供最佳體驗。
當然,這要求創(chuàng)始團隊和核心團隊必須是“全能型選手”,既要懂模型算法,也要懂硬件本體,還要懂生產(chǎn)制造、供應鏈管理,把這些要素協(xié)同起來,作為一個整體產(chǎn)品去打造和運營。
關于高投入與回報周期的平衡,我們有清晰的融資規(guī)劃和階段性的商業(yè)化目標。通過率先在高價值、需求明確的工業(yè)場景落地,比如半導體、汽車制造、生物科技等,我們可以較早地獲得現(xiàn)金流,驗證商業(yè)模式,并為后續(xù)更大規(guī)模的研發(fā)和市場拓展提供支持。同時,自建產(chǎn)線也是為了更好地控制產(chǎn)品質(zhì)量、迭代速度和最終成本,為未來的大規(guī)模量產(chǎn)做準備。
我認為一個強大的、定義清晰的軟硬一體化產(chǎn)品平臺,反而能更有效地吸引和賦能生態(tài)伙伴。我們并不是所有東西都自己做,比如一些通用的零部件、末端執(zhí)行器等,我們會選擇成熟的供應商。
大模型研發(fā)必須“重投入”
經(jīng)濟觀察報:智平方宣稱Alpha Brain的GOVLA大模型是“全球首款”全域全身VLA(視覺-語言-行動)模型,這個“全球首款”具體“新”在哪里,對比業(yè)界已有的VLA,其核心的、可被感知的“領先性”體現(xiàn)在哪些方面?
郭彥東:稱GOVLA是“全球首款”全域全身VLA大模型,我們是有底氣的。它的“新”和“領先性”,主要體現(xiàn)在對機器人“智能”和“行動”邊界的根本性拓展上。
傳統(tǒng)的VLA模型,很多時候更側(cè)重于“視覺到單臂操作”的映射,機器人像一個固定在原地的“桌面操作員”。而我們的GOVLA,這里的“G”代表Global(全局),意味著機器人具備對廣闊、動態(tài)、非結(jié)構(gòu)化環(huán)境的理解與適應能力,不再局限于眼前的一畝三分地;“O”代表Omni-body(全身協(xié)同),這是核心突破之一,意味著我們的大模型首次能夠輸出機器人全身的控制指令和完整的移動軌跡,而不僅僅是機械臂的動作。
我舉一個“做早餐”的例子,它很能說明問題:一個搭載常規(guī)VLA的機器人,你讓它做早餐,可能需要人把雞蛋、面包都放到它面前的桌子上,它在桌面上操作完成后,你還得去把它做的早餐端走。因為它可能“看”不見桌子以外的東西,也無法自主移動到冰箱取食材。但搭載GOVLA大模型的AlphaBot 2,就能做到360度無死角地感知周圍環(huán)境,聽懂你的指令后,自主規(guī)劃路徑去冰箱取食材,完成制作,甚至把早餐送到你的餐桌上。
這才是從“自動化工具”到“智能管家”的跨越。我們GOVLA的內(nèi)部架構(gòu),通過空間交互基礎模型、負責復雜邏輯推理與任務拆解的“慢系統(tǒng)”(System2),以及負責輸出全身控制動作與移動軌跡并兼顧實時響應的“快系統(tǒng)”(System1)的協(xié)同工作,來實現(xiàn)這種復雜的全鏈條服務能力。
就我所知,在目前中國這么多做機器人的創(chuàng)業(yè)公司里面,我們是唯一一家已經(jīng)把自己的模型版本開源,且有能力將自研的大模型能力商業(yè)化輸出的公司,這本身就說明了我們的技術(shù)是有實際應用價值和市場競爭力的。
我們的GOVLA大模型,其核心框架——包括空間智能的構(gòu)建、多模態(tài)信息的融合機制,以及機器人全身運動控制和移動軌跡生成等關鍵模塊——是100%全棧自研的。這是我們技術(shù)體系的基石,也是我們知識產(chǎn)權(quán)的核心。
在這個堅實的自研基礎上,我們敏銳地觀察到,當前大語言模型在長程復雜任務的理解、分析和高級邏輯推理方面,確實展現(xiàn)出了非常強大的能力。為了進一步強化我們GOVLA模型在這一特定維度的表現(xiàn),讓機器人不僅“手巧”,更能“心靈”(具備深度思考和規(guī)劃能力),我們選擇性地將DeepSeek在推理大模型方面的關鍵訓練技術(shù)引入GOVLA的訓練過程中,目的是在保持整體技術(shù)架構(gòu)自主可控的前提下,更快地打造出整體性能更強、更智能、更具競爭力的國產(chǎn)可控VLA模型。
經(jīng)濟觀察報:大模型研發(fā)無疑是一場高投入的“馬拉松”,你們宣稱擁有“搜索引擎級”數(shù)據(jù),并在研發(fā)上投入巨大。對這種高投入,你如何向市場和投資人證明其商業(yè)上的合理性與必要性?
郭彥東:大模型的研發(fā)是“重投入”,而且必須是持續(xù)的“重投入”。
關于商業(yè)合理性和投入產(chǎn)出,我的看法是,在當前具身智能發(fā)展的初期階段,尤其是對于我們這種致力于構(gòu)建底層核心技術(shù)壁壘的公司,不能簡單地用傳統(tǒng)的、短期的財務投資回報率去衡量。
我們更看重的是,這些投入能否為我們構(gòu)建起足夠深、足夠?qū)挼募夹g(shù)護城河,能否讓我們在關鍵的核心能力上,比如,模型泛化能力、端側(cè)部署效率等,做到全球領先,以及這些核心能力最終能否轉(zhuǎn)化為產(chǎn)品在特定場景下不可替代的競爭力,并贏得客戶的真金白銀的訂單。 這就像修高速公路,前期投入巨大,但一旦建成,其長期的社會和經(jīng)濟效益是不可估量的。
那么,我們?nèi)绾未_保這些投入是高效的,而不是盲目燒錢呢?主要有幾個層面:
第一,我們的投入是建立在清晰的戰(zhàn)略認知和深厚的技術(shù)積累之上的,不是跟風,也不是“大力出奇跡”那么簡單。
在算法層面,我們的核心團隊在AI領域有近20年的“內(nèi)功”修為,我們具備設計和實現(xiàn)全球領先的、非基于現(xiàn)有開源框架的全新神經(jīng)網(wǎng)絡結(jié)構(gòu)的能力。這是我們最核心的Know-how之一,它決定了我們模型的上限和獨特性。
在數(shù)據(jù)層面,我們說用的是“搜索引擎級別”的數(shù)據(jù),這個“級別”不僅僅指規(guī)模大,更重要的是數(shù)據(jù)的多樣性和高質(zhì)量融合。我們有來自公開互聯(lián)網(wǎng)的海量數(shù)據(jù),比如YouTube上每秒鐘都在上傳新的視頻,這些能讓模型具備廣泛的常識和基礎泛化能力;我們也有高質(zhì)量的仿真數(shù)據(jù),我們用仿真數(shù)據(jù)訓練的模型在全球相關比賽中也拿過冠軍,仿真環(huán)境能提供精確的3D空間信息和大規(guī)模、低成本的交互訓練;但最寶貴也最能提升模型應對真實世界能力的,還是我們通過實際部署的機器人采集到的真實世界交互數(shù)據(jù)。
我早在2017年在華盛頓大學給博士生上課的時候,就提出要把這三種數(shù)據(jù)(互聯(lián)網(wǎng)、仿真、真實物理交互)結(jié)合起來,因為每種數(shù)據(jù)都有其獨特的優(yōu)勢和不可替代的價值。
在算力層面,我們確實投入了大量的計算資源和基礎設施建設,但我們更強調(diào)“好鋼用在刀刃上”,非常注重訓練效率的提升。
比如,我們在訓練加速、增量學習(Incremental Learning)等領域都有非常深入的研究和實踐——我之前寫的一篇關于端到端增量學習的論文,是目前全球在這個細分領域被引用次數(shù)最多的。這意味著我們不僅敢于投入,更知道如何聰明地、高效地利用這些寶貴的算力資源。
第二,我們通過一些戰(zhàn)略性的舉措,來放大我們研發(fā)投入的價值,之前跟北大合作的RoboMamba(一款高效端到端VLA具身大模型)開源就是一個例子。
開源對我們來說,至少有三重意義。
其一,這是技術(shù)自信的體現(xiàn),也是一種“以打促練”。我們把模型放在世界舞臺上,與全球最頂尖的模型和團隊去實測PK,我們的具身大模型在運行速度、任務執(zhí)行的成功率上都遠遠領先,這本身就是對我們技術(shù)最好的檢驗和提升。我也很不服氣Figure AI創(chuàng)始人說中國公司只會搞硬件,我們就是要證明中國在AI智能化這個高毛利、高附加值的領域,同樣可以做到世界一流。
其二,開源是吸引頂尖人才、促進技術(shù)交流、構(gòu)建開發(fā)者生態(tài)的重要途徑。一個活躍的開源社區(qū),能為我們帶來寶貴的外部反饋,加速模型的迭代和優(yōu)化,甚至可能發(fā)現(xiàn)一些我們自己都沒想到的新應用場景。
其三,這對于我們商業(yè)模型的快速成熟和數(shù)據(jù)生態(tài)的構(gòu)建,有著間接但非常重要的戰(zhàn)略助益。
我們堅決避免陷入不計成本的“燒錢競賽”,我們的核心理念是“實干創(chuàng)造價值”。我們是“實干派”,不是“炫技派”。
評價一項技術(shù)、一個產(chǎn)品好不好,我們的標準不是看它的演示有多酷炫,機器人能不能跳舞、翻跟頭,而是看它能不能真正在工廠里、在實際應用場景中,穩(wěn)定、高效地完成有價值的工作,能不能為客戶創(chuàng)造可量化、可感知的效益。
我們絕不會為了追求某個單一的技術(shù)指標的極致,而犧牲產(chǎn)品的整體實用性、可靠性和經(jīng)濟性。
為此,我們在技術(shù)路線上有很多非常務實的選擇,比如,我們大力發(fā)展端側(cè)智能,提升模型壓縮的能力。我們的技術(shù)可以讓大模型在端側(cè)部署后,推理運行速度提升8倍以上,這意味著什么?意味著可以大幅降低對云端昂貴算力的依賴,降低機器人的功耗和成本,提升響應速度和數(shù)據(jù)安全性。
這背后,是我們團隊很多核心成員過去在OPPO、小鵬等企業(yè),積累的將AI模型在數(shù)以億計的智能終端(手機、汽車)上進行本地化部署和優(yōu)化的寶貴經(jīng)驗。純粹的科學家團隊,可能在這方面經(jīng)驗會相對欠缺一些。
我們的目標是做出真正有用、好用,而且最終讓客戶用得起的機器人。
高端工業(yè)場景“痛點清晰”
經(jīng)濟觀察報:智平方主攻汽車、半導體、生物科技等高端工業(yè)場景,為什么選擇這些場景先行落地?
郭彥東:我們選擇汽車制造、半導體、生物科技這些高端工業(yè)場景作為商業(yè)化的首批切入點,主要是基于幾點考慮:
第一,這些行業(yè)對自動化、智能化、柔性化的需求非常迫切,痛點清晰,比如招工難、人力成本高、生產(chǎn)環(huán)境要求嚴苛(如無塵、無菌)、重復性勞動強度大等;第二,這些場景對機器人的任務成功率、穩(wěn)定性、可靠性要求極高,能夠充分檢驗和打磨我們的核心技術(shù);第三,這些行業(yè)的客戶通常有較強的付費能力和意愿,能夠為我們帶來相對可觀的早期收入,形成正向的商業(yè)循環(huán)。
這些場景的定制化需求比較高,這也是為什么很多傳統(tǒng)機器人公司或系統(tǒng)集成商在這些領域做得比較“重”的原因。
但我們的思路不太一樣。我們的核心是通用具身大模型Alpha Brain和通用智能機器人AlphaBot,而AlphaBot的設計理念是用一個相對通用的本體形態(tài),通過合理地更換部分模組,實現(xiàn)對較多場景任務的適配性。
在具體項目落地時,我們會首先深入理解客戶的核心工藝流程和痛點,然后基于AlphaBot在有限范圍內(nèi)的通用性,結(jié)合場景特點進行適配和優(yōu)化。這種適配更多的是在軟件層面,比如針對特定任務的技能學習、與客戶現(xiàn)有生產(chǎn)管理系統(tǒng)(MES)的對接等,而不是對機器人硬件本體做大規(guī)模的定制化改造。通過對一個個扎實場景的攻堅,我們的Alpha Brain會積累越來越豐富的行業(yè)知識和技能,其泛化能力也會越來越強。這樣,當遇到相似行業(yè)或相似任務時,我們就能大大縮短部署周期,降低實施成本,從而實現(xiàn)解決方案的可規(guī)模化復制。
例如,我們與吉利科技旗下的晶能微電子合作,在杭州的半導體生產(chǎn)基地部署AlphaBot,執(zhí)行晶圓在無塵車間的搬運和裝載任務,能有效降低因人工操作可能引入的“人源污染”,提高產(chǎn)品良率。
最新的戰(zhàn)略合作方是全球生物科技龍頭華熙生物,我們的機器人將在其工廠內(nèi)執(zhí)行物料協(xié)同轉(zhuǎn)運、智能拆包消毒、成品智能視覺檢驗,以及多種物料協(xié)同的智能供料等操作,特別是在無菌產(chǎn)品灌裝、微生物培養(yǎng)監(jiān)控等高風險、高潔凈度要求的環(huán)節(jié),替代人工操作,避免交叉污染,保障產(chǎn)品質(zhì)量。
我們是從工業(yè)場景切入,逐步向公共服務、家庭服務等領域拓展,構(gòu)建起“技術(shù)-場景-數(shù)據(jù)”閉環(huán)。今年第三季度,智平方的機器人將上線國內(nèi)一線城市的機場,為旅客提供貼心服務。今年第四季度,智平方的機器人將在國內(nèi)示范小區(qū)落地應用,為業(yè)主提供有智慧、有溫度的服務。
從實際的訂單規(guī)模和商業(yè)回報來說,我們?nèi)ツ辏?024年)已經(jīng)實現(xiàn)了數(shù)千萬元人民幣的回款。
這在國內(nèi)通用智能機器人創(chuàng)業(yè)公司中,算是比較早實現(xiàn)商業(yè)化營收的。這證明了我們的產(chǎn)品和服務是能夠被市場接受并產(chǎn)生實際價值的。當然,目前我們還處于商業(yè)化的早期階段,單個項目的金額和利潤貢獻可能還無法與成熟的工業(yè)自動化設備相比,但重要的是我們驗證了技術(shù)的可行性和商業(yè)模式的閉環(huán)。
隨著我們解決方案的成熟度越來越高,可復制性越來越強,以及客戶對我們產(chǎn)品信任度的提升,未來的訂單規(guī)模和商業(yè)回報是值得期待的。我們不是簡單地賣幾臺機器人,而是通過“機器人即服務”的模式,為客戶提供持續(xù)的價值。
通用機器人的“iPhone時刻”
經(jīng)濟觀察報:你預測通用機器人的“iPhone時刻”在5—7年后到來。回顧智能設備史,許多技術(shù)從工業(yè)應用到消費普及的路徑遠比預期曲折。支撐你這一判斷的關鍵前提是什么?
郭彥東:我對人形機器人,更廣義地說是通用智能機器人,進入大眾消費市場的“iPhone時刻”的預測,是基于對技術(shù)發(fā)展趨勢、成本下降曲線以及市場需求演變的綜合判斷。這里面有幾個關鍵前提:
第一,核心技術(shù)的成熟與突破,特別是“智能的通用性”。機器人需要具備跨行業(yè)、跨場景、跨任務的泛化執(zhí)行能力,能夠像人一樣適應不同的環(huán)境和需求,而無需針對每個新任務進行大量的重新編程。這依賴于具身大模型的持續(xù)進化,包括更強的感知理解能力、更高效的學習能力、更安全的決策與交互能力。我們正在努力的方向,就是讓Alpha Brain驅(qū)動的機器人,能做到“無需訓練即可完成多種任務,并且能快速掌握新任務,穩(wěn)定適應各種變化”。
第二,硬件成本的顯著下降,目前高性能機器人的核心零部件,如傳感器、驅(qū)動器、控制器以及AI計算單元等,成本依然不菲。但我堅信,隨著機器人產(chǎn)業(yè)規(guī)模的擴大,供應鏈的成熟(尤其是在中國,很多機器人零部件可以借鑒和轉(zhuǎn)化新能源汽車的供應鏈體系),以及關鍵技術(shù)的國產(chǎn)化替代,機器人的整體硬件成本在未來5—7年內(nèi)有望降低到一個普通消費者可以接受的水平,也許就像今天一輛經(jīng)濟型汽車的價格。我們判斷,機器人硬件本體的研發(fā)已趨于成熟,正處于量產(chǎn)爬坡階段,未來2—3年內(nèi)將迎來平穩(wěn)的規(guī)模化增長期。
第三,“殺手級應用”的出現(xiàn),就像智能手機的App Store和各種移動應用引爆了市場,通用智能機器人也需要在某些關鍵場景中展現(xiàn)出不可替代的價值,解決用戶的核心痛點,才能真正激發(fā)大規(guī)模的購買需求。在工業(yè)領域,這個價值點可能體現(xiàn)在效率提升、成本降低、替代高危或重復勞動;在家庭領域,可能體現(xiàn)在陪伴、護理、家政服務等方面。
我們相信,這些探索對于理解用戶需求、打磨產(chǎn)品體驗,以及最終找到通往“iPhone時刻”的路徑至關重要。這符合我們“技術(shù)-場景-數(shù)據(jù)”閉環(huán)的戰(zhàn)略。
具身智能的“中國優(yōu)勢”
經(jīng)濟觀察報:百萬臺產(chǎn)能目標(2033年),對初創(chuàng)公司而言極具挑戰(zhàn)。在核心零部件國產(chǎn)化、整體成本、高端人才等現(xiàn)實制約下,智平方的“軟硬一體的機器人服務商”模式如何避免重蹈“新勢力”造車早期在產(chǎn)能和供應鏈上遇到的問題?
郭彥東:我們計劃到2028年實現(xiàn)萬臺級別的場景應用,到2033年公司成立十周年之際,將機器人部署規(guī)模拓展至百萬臺級別,覆蓋工業(yè)、物流、家庭服務等多元化場景。這絕非易事,尤其對于一家初創(chuàng)公司而言。
你提到的核心零部件國產(chǎn)化、成本控制、高端人才等問題,都是我們必須正面應對的關鍵挑戰(zhàn)。關于“產(chǎn)能地獄”和“供應鏈掣肘”,我在小鵬汽車時親身經(jīng)歷了從零到年產(chǎn)十萬臺的快速爬坡過程,深知其中的艱辛與關鍵節(jié)點。我們選擇自建產(chǎn)線,正是為了從一開始就將生產(chǎn)制造的主動權(quán)掌握在自己手中,確保產(chǎn)品質(zhì)量、迭代速度和長期的成本控制能力。
對于供應鏈,機器人產(chǎn)業(yè)與新能源汽車產(chǎn)業(yè)有很多相似之處,尤其是在“三電”(電機、電驅(qū)、電控)、電池、傳感器等領域。中國在這些領域已經(jīng)建立了相對完善且富有彈性的供應鏈體系。很多機器人零部件并非從零開始,而是可以從新能源汽車的成熟供應鏈中進行轉(zhuǎn)化和升級,這個過程的速度和效率可能比外界想象得要快。
至于一些特定的、技術(shù)含量非常高、目前可能還需要依賴進口的核心部件,首先,并非每一款機器人都必須使用這類特定的高端部件,有很多不同的技術(shù)方案可以實現(xiàn)類似的驅(qū)動功能;其次,即便某些部件短期內(nèi)存在瓶頸,我相信隨著國內(nèi)需求的增長和技術(shù)的進步,國產(chǎn)替代的速度也會加快。我們也在積極布局核心硬件的自研能力,比如在機械臂、底盤等關鍵部件上,我們都有自己的自研技術(shù),目標是逐步提升核心部件的自研比例和可控性。
人才方面,我們采取“南北協(xié)同”的模式,在北京設立AI團隊,依托那里的人才高地進行核心算法和模型的研發(fā),很多同事都來自北大、清華等頂尖學府,且多是經(jīng)驗豐富的“行業(yè)老炮”,可以“老帶新”;同時將硬件研發(fā)、產(chǎn)業(yè)化和供應鏈管理扎根于深圳這個硬件創(chuàng)新之都。我們對人才的要求非常高,寧缺毋濫。
百萬臺目標雖然道阻且長,但我們有戰(zhàn)略、有技術(shù)、有團隊,也有對產(chǎn)業(yè)發(fā)展規(guī)律的敬畏和對挑戰(zhàn)的充分準備。
經(jīng)濟觀察報:你如何理解中國發(fā)展具身智能產(chǎn)業(yè)的優(yōu)勢?你認為中國具身智能企業(yè)在全球牌桌上突圍的關鍵是什么?智平方如何證明自己是核心智能的創(chuàng)造者,而非僅僅是硬件集成商?
郭彥東:中國為發(fā)展具身智能產(chǎn)業(yè)提供了可以說是得天獨厚的環(huán)境:
第一,我們擁有全球最完善、響應速度最快的機器人硬件供應鏈,這植根于我們國家發(fā)達的消費電子和新能源汽車產(chǎn)業(yè)基礎,使得硬件迭代更快、成本控制更有優(yōu)勢;
第二,我們有極其豐富的應用場景,從龐大的制造業(yè)基礎到多樣化的社會服務需求,這為機器人提供了海量的真實世界訓練數(shù)據(jù)和商業(yè)化機會;
第三,我們有活躍的創(chuàng)業(yè)公司、積極的投資者以及各級政府的大力支持,共同構(gòu)成了一個充滿活力的產(chǎn)業(yè)生態(tài)系統(tǒng)。
我甚至有一個判斷:“任何國家的科學家要做具身智能,都得去中國,否則技術(shù)很難走出實驗室。”
當然,“卡脖子”的風險也確實存在,尤其是在一些高端AI芯片、核心傳感器、精密制造工藝等領域。美國等國家也在加速布局,試圖構(gòu)建技術(shù)壁壘。
中國企業(yè)要想在全球競爭中突圍,關鍵在于兩點:一是堅持核心技術(shù)的自主研發(fā)與創(chuàng)新,尤其是在“大腦”層面,也就是在具身大模型、空間智能、自主決策等核心算法上,必須有自己的東西,不能滿足于做簡單的集成和應用;二是深度理解并快速響應市場需求,將技術(shù)優(yōu)勢轉(zhuǎn)化為實實在在的商業(yè)價值。
智平方從創(chuàng)立之初,就立志成為一家技術(shù)驅(qū)動的、世界領先的具身智能機器人企業(yè)。我們不僅要做出好的“身體”,更要打造出最聰明的“大腦”。
我們?nèi)珬W匝蠥lpha Brain及其底層的GOVLA大模型,就是為了掌握核心智能。我們之前開源RoboMamba模型,也是希望在世界舞臺上與頂級模型同場競技,證明中國企業(yè)在AI軟件和核心算法層面同樣可以做到世界一流。