整個服務(wù)機(jī)器人產(chǎn)業(yè)建立在三大核心技術(shù)模塊:人機(jī)交互及識別模塊、環(huán)境感知模塊、運動控制模塊。依托于三大模塊,機(jī)器人有基礎(chǔ)的硬件:電池模組、電源模組、主機(jī)、存儲器、專用芯片等,還有操作系統(tǒng)。
智能機(jī)器人三大核心技術(shù)模塊:感知+交互+運控
整個服務(wù)機(jī)器人產(chǎn)業(yè)建立在三大核心技術(shù)模塊:人機(jī)交互及識別模塊、環(huán)境感知模塊、運動控制模塊。依托于三大模塊,機(jī)器人有基礎(chǔ)的硬件:電池模組、電源模組、主機(jī)、存儲器、專用芯片等,還有操作系統(tǒng):ROS、Linux、安卓等;由硬件和操作系統(tǒng)構(gòu)成機(jī)器人整機(jī),整合基礎(chǔ)硬件、系統(tǒng)、算法、控制元件,形成滿足定行走能力和交互能力的機(jī)器人整機(jī);在此基礎(chǔ)上形成各種基礎(chǔ)應(yīng)用開發(fā),基于機(jī)器人操作系統(tǒng)開發(fā)的控制類APP、管理員APP和各類應(yīng)用程序App等;產(chǎn)生的數(shù)據(jù)將有群組服務(wù)、云服務(wù)、大數(shù)據(jù)服務(wù)等。
服務(wù)機(jī)器人的交互能力、感知能力、運動能力對應(yīng)三大模塊。交互模塊包括語音識別、語義識別、語音合成、圖像識別等,相當(dāng)于人的大腦;感知模塊借助于各種傳感器、陀螺儀、激光雷達(dá)、相機(jī)、攝像頭等,相當(dāng)于人的眼、耳、鼻、皮膚等;運控模塊包括舵機(jī)、電機(jī)、芯片等。
服務(wù)機(jī)器人的各個細(xì)分模塊中,語音模塊重要性和成熟度均高,語義模塊是目前突破重點,運控模塊相對重要性弱。服務(wù)機(jī)器人三大模塊可以繼續(xù)細(xì)分為語音模塊、語義模塊、圖像模塊、感知模塊、運控模塊、芯片模塊。重要性排序依次為:語音模塊、語義模塊、芯片模塊、圖像模塊、感知模塊、運控模塊。成熟度重要性排序依次為:語音模塊、圖像模塊、運控模塊、感知模塊、語義模塊、芯片模塊。
從技術(shù)儲備上來看,人工智能是核心。目前的技術(shù)儲備方面,只有語音和OCR領(lǐng)域具備定的成熟度。語音和OCR領(lǐng)域已發(fā)展接近20年,在某些特定場景和行業(yè)已經(jīng)有了些數(shù)據(jù)基礎(chǔ)。其他的技術(shù)包括圖像識別、語義分析都還在很早期的階段。語音領(lǐng)域,也是目前已知的平臺類企業(yè)大的板塊。
服務(wù)機(jī)器人多場景特征,多模態(tài)交互融合是關(guān)鍵
從代以鼠標(biāo)和鍵盤的交互方式為特點的PC互聯(lián)網(wǎng),到第二代以觸屏、GPS等交互方式為特點的移動互聯(lián)網(wǎng),再到今天以多模態(tài)人機(jī)交互方式為特點的第三代互聯(lián)網(wǎng),服務(wù)機(jī)器人產(chǎn)業(yè),底層的邏輯就是人機(jī)交互方式的發(fā)展和演變。
隨著語音交互、視覺圖像交互、動作交互、腦電波交互等多模態(tài)人機(jī)交互技術(shù)的逐步發(fā)展和成熟,這些第三代人機(jī)交互方式將會深層次地改變我們?nèi)粘I畹膽?yīng)用場景;同時,場第三代互聯(lián)網(wǎng)的主流終端模式和服務(wù)內(nèi)容入口的競爭也在同步進(jìn)行。
什么是多模態(tài)交互?多模態(tài)融合了視覺、聽覺、觸覺、嗅覺等交互方式,其表達(dá)效率和表達(dá)的信息完整度要由于傳統(tǒng)單的交互模式。人機(jī)交互是服務(wù)機(jī)器人場景化不可或缺的環(huán)節(jié)。傳統(tǒng)的交互模式中,大多是單單向的交互方式。人機(jī)對話中,尤其是多輪人機(jī)對話,涉及到語音理解、語義分析、情感分析、動作捕捉等多個維度。