3個月連投5家機(jī)器人企業(yè),京東首次公開具身智能雄心
21世紀(jì)經(jīng)濟(jì)報道記者孔海麗、實(shí)習(xí)生吳佳蕓
7月30日,RoboScience宣布完成近2億元天使輪融資,由京東領(lǐng)投,招商局創(chuàng)投、商湯國香資本跟投,老股東零一創(chuàng)投繼續(xù)追投,慕石資本擔(dān)任本輪獨(dú)家財務(wù)顧問。
又是京東。近3個月內(nèi),京東已經(jīng)密集投資了5家機(jī)器人企業(yè),堪稱大手筆全面進(jìn)軍具身智能領(lǐng)域;ヂ(lián)網(wǎng)大廠的下一個“戰(zhàn)場”開打,但路線并不一致,各有側(cè)重。
“現(xiàn)在能說的就是,肯定不會止步于此。” 京東集團(tuán)高級副總裁、京東集團(tuán)探索研究院副院長何曉冬近日在接受21世紀(jì)經(jīng)濟(jì)報道記者采訪時透露,京東對具身智能的投入和戰(zhàn)略性認(rèn)知是非常長遠(yuǎn)的,“具體什么時候再宣布下一次投資動向,可能要等投資部門的同事!
這場采訪中,京東首次公開了密集投資背后對具身智能的思考,總結(jié)來看,一是,戰(zhàn)略性長期投入;二是,具身智能是服務(wù)生態(tài)的一部分,京東生態(tài)會從具身智能的發(fā)展上受益;還有第三點(diǎn),京東對具身智能的看法比較廣泛,并非只聚焦在“人形機(jī)器人”上,符合“大腦+小腦+IO”。
這種考量,也在本次世界人工智能大會(WAIC)期間有所體現(xiàn)。期間,京東宣布了一系列在AI和具身智能領(lǐng)域的動作,附身智能品牌JoyInside已經(jīng)亮相,并與數(shù)十家主流機(jī)器人品牌達(dá)成了合作。“附身智能”是指將大模型接入機(jī)器人、AI玩具等終端設(shè)備,提供交互對話能力。
此外,京東大模型品牌升級為JoyAI,覆蓋3B到750B全尺寸模型;京東云也面向企業(yè)推出行業(yè)首個100%開源的企業(yè)級智能體JoyAgent。
何曉冬表示,京東希望打造開放的機(jī)器人生態(tài),做行業(yè)的朋友。
說到京東押注具身智能的原因,何曉冬頻繁提及“用戶體驗(yàn)”,強(qiáng)調(diào)機(jī)器人需要感受得到用戶的需求、指令和體驗(yàn),并給予回饋。在他看來,機(jī)器人處理輸入和輸出的能力,與用戶和世界的交互能力,是具身智能的核心模塊之一,也是行業(yè)較少關(guān)注的模塊。換言之,高情商、高智商是具身智能產(chǎn)品待開發(fā)的獨(dú)特價值。
以下為何曉冬分享實(shí)錄,經(jīng)編輯:
“肯定不會止步于此”,具身智能投資考量
何曉冬:有些信息可能還在進(jìn)行中,還沒有公布。現(xiàn)在能說的就是肯定不會止步于此。京東對具身智能的投入和我們的戰(zhàn)略性認(rèn)知是非常長遠(yuǎn)的。
首先,具身智能是未來一個很重要的賽道,是有戰(zhàn)略意義的,我們對它有很大的投入。第二,我們認(rèn)為它是整個服務(wù)生態(tài)的一部分,京東整體生態(tài)會從中具身智能的發(fā)展上受益。
第三,我們對具身智能的看法比較廣,更廣泛的符合大腦、小腦和輸入輸出的,我們都可以看作是具身智能,都會對用戶帶來很大的體驗(yàn)上的提升,反過來幫助京東的整個服務(wù)生態(tài)。
我們希望用最快的速度把整個這個行業(yè)發(fā)展起來,這也是為什么我們在具身智能之外,要提出“附身智能”這個新的品牌和平臺。
我們對具身智能的觀念是比較廣的,不只局限在人形機(jī)器人。比如說Fuzozo,所有在物理世界能夠跟用戶交互、還有一定情商智商的,我認(rèn)為都是我們合作的方向。
此外,京東自己也有應(yīng)用場景,包括物流、工業(yè),對普通消費(fèi)者的家庭服務(wù),像家政、金融。有大量的應(yīng)用場景是我們想做的。
我們想通過附身智能這種合作方式,能夠給更多的合作伙伴能力,加快整個行業(yè)的發(fā)展。
具身智能的三個核心模塊與廣闊市場空間
何曉冬:如果用一句話解釋什么是具身智能,就是有智能加上物理的機(jī)器,兩足人形、四足狗或其他形態(tài)都行。但如果再定義更加清楚一點(diǎn)的話,我認(rèn)為具身智能需要三個核心模塊:
第一個是有控制運(yùn)動的小腦,具備一定的運(yùn)動能力,可以在物理世界行動。第二個是需要一個大腦。光有運(yùn)動能力還是比較單調(diào)的,有了大腦以后,它的可體驗(yàn)性、交互性、感知性就會大很多。
第三個大家說得比較少,但很重要,就是IO(輸入輸出)交互。具身智能機(jī)器人涉及三個體系交互:機(jī)器人、世界和用戶。用戶的命令、需求、體驗(yàn)要能夠讓機(jī)器人感受得到,機(jī)器人還能給出回饋。這三個模塊構(gòu)成了具身智能的核心模塊。
未來應(yīng)用場景會非常廣闊。我們以前說得比較多的是工業(yè)場景,包括京東自己做了很多物流場景。現(xiàn)在我們看到它們已經(jīng)開始走入生活場景,走進(jìn)更通用的場景,包括人形機(jī)器人、機(jī)器狗。
從工業(yè)應(yīng)用走向陪伴、家庭服務(wù),這塊空間我認(rèn)為是比原來會大更多的,可能會大一到兩個數(shù)量級都不止,對用戶的體驗(yàn)是最直接的。
我覺得這個事情可以跟汽車類比,現(xiàn)在每家都有一輛車,以后也許每家都會有一個人形機(jī)器人,其他形態(tài)的會更多。未來的空間幾乎是無限的。
不擔(dān)心具身智能過熱,一旦走入C端就會迅速成熟
何曉冬:公眾對機(jī)器人技術(shù),包括對AI技術(shù)的期望是非常高的,所以很容易在一個點(diǎn)就引爆。但是真正要落地,比如說走入家庭,還有很多問題要解決。我們現(xiàn)在比較關(guān)注的是,機(jī)器人要做服務(wù)的話,很多手部的操作要解決。雖然手很小,但手的關(guān)節(jié)很多,關(guān)節(jié)靈活度比腳高得多。我們看到機(jī)器人前滾翻后滾翻各種動作,但是看自由度的話,其實(shí)難度還不如一只手。這塊是我們要關(guān)心的,還有很多工作要做。
第二,大模型本身還沒有充分跟機(jī)器人結(jié)合。比如說空間智能,能不能讓機(jī)器人進(jìn)入房間,看一圈就知道誰在什么地方。比如我說把桌上的那個水杯拿過來,他就知道我說的是哪個水杯,能夠精準(zhǔn)定位。這還有很多問題需要解決。
我個人還是比較樂觀的,因?yàn)槲野l(fā)現(xiàn)任何產(chǎn)業(yè)只要開始走入用戶以后,特別是C端用戶以后,它的迭代速度會非常快。
就像自動駕駛,早期大家有很多討論,到底是應(yīng)該先做 L2還是先做 L3?先用模擬數(shù)據(jù)還是真實(shí)數(shù)據(jù)?最后你看特斯拉先上 L2,然后上那個攝像頭,開始大量收集數(shù)據(jù)。數(shù)據(jù)上來以后,技術(shù)進(jìn)步這兩年是非常明顯的。所以我估計機(jī)器人可能也會走類似的這個路徑。
京東的AI應(yīng)該做到一流水平
何曉冬:京東對AI有自己獨(dú)特的戰(zhàn)略認(rèn)知,也有自己獨(dú)特的打法。所以我們的自我定位是,京東在AI應(yīng)該做到世界一流的水平。
一方面,我們今天發(fā)布的750B大模型,它的效果經(jīng)我們內(nèi)部評測,已經(jīng)進(jìn)入世界第一梯隊(duì)了。跟國內(nèi)國外的一些頂級模型進(jìn)行對比,效果還是非常好的。
同時,我們更關(guān)心的是,大模型最后怎么產(chǎn)生閉環(huán)的商業(yè)價值?去打榜是簡單的,我們更想看在京東內(nèi)部能不能先用起來。內(nèi)部已經(jīng)有上千個場景在用我們的大模型。京東內(nèi)部的政策很開放,各個業(yè)務(wù)是可以自由選擇各種各樣的大模型的,包括開源的、閉源的。我們還跟一些企業(yè)合作,可以用各種模型,包括ChatGPT。但是90%的業(yè)務(wù)方都選擇了京東自己研發(fā)的750B大模型。
機(jī)器狗要走入C端寵物大市場,或成為“行走的搜索引擎”
何曉冬:有一次在京東內(nèi)部的高管培訓(xùn)會上,我就自己溜達(dá)的機(jī)器狗,一邊跟他聊天,一邊走了一圈,在整個大會議室。很多高管事后跟我說,他們想買一條自己去溜去,一邊走一邊溜。你可以想象就是在逛這個公園的時候,或者在外面逛街的時候,一邊鍛煉身體一邊遛狗。
眾擎是我們投的企業(yè)之一,有一些聯(lián)合打造的產(chǎn)品也會上架。我們會給他提供更多的人機(jī)交互的能力,包括IO(輸入輸出)和更高層次的、語義層面的視覺和語音能力。然后再把這個高語義層面的視覺、語音轉(zhuǎn)成底層的,比如說小腦的命令,最后轉(zhuǎn)化成關(guān)節(jié)和軀體的命令。
云深處是很有意思的。早期,他們的四足機(jī)器人主要是用來做管道巡檢的,做很多年了,很優(yōu)秀,但整體來說市場并不是特別大。我們聊了之后,發(fā)現(xiàn)可以把它變成一個可以跟著你走的玩具,一邊走一邊跟你聊天,變成to C端的機(jī)器寵物。這是以前沒有過的賽道。
以前的寵物更多是偏玩具型的,它的行動能力沒有像機(jī)器狗那么強(qiáng)。但是加上JoyAI以后,它同時具有足夠高的情商和智商跟你溝通交流,聽你的命令,還有很強(qiáng)的行動能力,于是適用范圍就大了很多。
很多用戶表達(dá)了很強(qiáng)的興趣,我們也積極嘗試這個賽道。因?yàn)轲B(yǎng)只狗其實(shí)也很麻煩,成本也很高,有只高情商的機(jī)器狗還是有市場的。
它首先是陪伴,其次是一個知識工具,有點(diǎn)類似于一個可以行走的搜索引擎。未來我們可以把它當(dāng)成一個行走的平臺,比如能幫你取外賣。這個想象空間還是非常大的。
0人