文心大模型上車 智能座艙邁入大模型時代_環(huán)球速遞
隨著AI大模型的持續(xù)演進,其應用場景也在不斷更新。
“今天我們正站在大語言模型的技術基點去思考,汽車里所需要的最本質的核心變革點是什么?!?月26日,在21世紀經濟報道科技峰會“潮起AIGC:大模型崛起”北京閉門會上,百度智能汽車事業(yè)部智艙業(yè)務部產品架構師徐嘉南介紹稱。
(資料圖片)
在徐嘉南看來,未來可移動的汽車機器人應當具備自主移動及人機對話式交互兩大方向的能力,大語言模型則以其更強的自然語言理解、邏輯推理及創(chuàng)造性為汽車的智能應用帶來全新的想象空間。
需要注意的是,百度正在進行大模型上車的持續(xù)探索。就在日前,百度Apollo汽車智能化業(yè)務展示了以文心大模型為基礎的新一代AI智艙探索成果,這也是國內首個基于文心大模型在車載場景下的探索成果,并有望在未來推進量產。
據介紹,基于文心大模型能力,百度Apollo推出的智艙將具備出行場景對話式交互、邏輯推理、策略規(guī)劃和知識問答等多項能力,同時也能夠實現(xiàn)在當前智艙命令式交互下覆蓋全車多音區(qū)、毫秒級響應、免喚醒全時交互的極致體驗。
“從整個發(fā)展角度來看,我們認為未來文心大模型會重塑車內的應用和交互,基于文心這樣的能力,把過去可能我們想到的體驗,但是過去的技術做不到的能力,去進行一次重構,給大家?guī)砣麦w驗?!毙旒文现赋觥?/p>
文心大模型上車
作為智能汽車的核心,智能座艙隨著汽車智能化的演進而持續(xù)發(fā)生著變化,它也愈發(fā)成為用戶購車決策的決定因素之一。
徐嘉南指出,當前智能座艙的功能正在持續(xù)增加,同時語音交互的覆蓋率也在持續(xù)增加。據相關機構調研,2022年1-8月,語音交互功能在智能座艙的滲透率達到73.3%,百度方面則預測稱,未來智能座艙的語音交互覆蓋量還會快速拓展,到2025年會實現(xiàn)超過95%的搭載。
不過當前,智能座艙的語音交互更多是命令式的交互工具,并且系統(tǒng)功能單一,交互系統(tǒng)毫無智能可言。大模型的落地,則帶來了全新的可能性,有望推動座艙語音助手向“AI智能助手”升級。
就此,百度Apollo正式推出國內首個基于文心大模型在車載場景下的探索成果。據介紹,基于文心大模型能力,百度Apollo針對車載場景進行專項訓練和模型精調,無需人工數據標注,AI便會具備更出色的語言理解和學習能力。
例如,在出行場景中,小度車載語音可以幫用戶進行旅途行程規(guī)劃、沿途景點美食推薦。在家庭出行時,靈感畫畫可起到給兒童娛樂陪伴的作用。只需用一句話描述想要的畫作內容,AI即可在幾秒內按照完成一幅創(chuàng)意畫作。
同時,百度也在探索如何借助文心大模型能力重塑個性化駕駛空間。在未來,百變人設功能可針對不同場景和不同用戶特點、偏好,定制個性化的語音助手人設,與用戶進行情感化交流。用戶也可以擁有一個用車顧問,拋棄陳舊的產品說明書,用戶可以隨時隨地、詳細了解車輛功能。
此外,大模型融入智艙場景后,百度Apollo智艙也將演變?yōu)椤暗谌羁臻g”的核心載體??梢砸劳姓Z音助手完成朋友圈文案撰寫、沿途景色拍照并一鍵發(fā)送至手機,也可以在開車途中讓語音助手完成一天的日程安排和會議預定等等。
據介紹,在未來,大模型加持下的智艙將具備出行場景對話式交互、邏輯推理、策略規(guī)劃和知識問答等多項能力,讓車內助手在未來有能力像真人一樣跟用戶交流,可以理解并滿足用戶在車內場景的深層次需求。
“未來基于文心大模型的能力,車里所有交互可以用自然語言的方式進行,而不是以點擊頁面然后跳轉的邏輯進行交互,這是大模型給未來車機交互體驗帶來的非常大的變化?!毙旒文媳硎?,“用戶直接表達需求,系統(tǒng)根據分析和理解,調動應用資源進行需求滿足。這將改變人與應用、甚至人與車之間的關系。”
技術推動變革
身處汽車行業(yè)劇變的時代,智能化成為汽車品牌差異化的重要因素,而智艙是當前階段用戶最容易有感知的智能汽車配置。
百度智能座艙產品由小度車載SDK及小度車載OS構成。官方數據顯示,百度Apollo始終助力OEM打造智能化競爭優(yōu)勢,其汽車智能化解決方案已在31個汽車品牌的134個車型上實現(xiàn)量產,累計搭載超700萬輛。
同時,考慮到車企希望進行個性化、定制化而非千篇一律的體驗,希望形成自身的品牌調性,因而百度進一步推出了小度車載SDK,從而讓車企實現(xiàn)差異化設計。
其中,在小度車載語音SDK方面,百度Apollo已經實現(xiàn)了最新的技術升級,使其變得更加智能化和易用。
基于大模型本地化,小度車載語音SDK持續(xù)推動座艙極致交互體驗?!八^的大模型本地化,是指將云端參數非常大的模型通過蒸餾和裁剪的方式,把整個體積和運行資源占用變得更小,然后移動到端上,利用本地化的算力去進行加速運行,從而帶來更極致的語音交互體驗?!毙旒文辖忉尫Q。
具體而言,小度車載語音能夠實現(xiàn)流暢的免喚醒多路同時交互、全頁面所見所說、全域毫秒級響應,讓用戶像是擁有了一個隨時待命的私人助理。
尤其值得注意的是,小度車載語音還能夠實現(xiàn)真多路同時對話能力,最大支持8路同時交互精確處理,覆蓋整個座艙內外,可以實現(xiàn)多路同時、快速、連續(xù)對話的極限挑戰(zhàn)。坐在駕駛位、副駕駛位、和后排的每一個人都可以同時提出自己的訴求,語音助手不僅可以識別不同位置用戶的需求并且可以依次解決。
此外,小度車載語音還實現(xiàn)了全領域毫秒級響應,且通過自動識屏方式實現(xiàn)用戶全場景的語音交互體驗?!败嚴锼械墓δ芏伎梢哉Z音交互,而不是只在某些應用里面才能交互,這在我們行業(yè)上是非常大的改變?!毙旒文媳硎?。
在徐嘉南看來,大語言模型正在推動行業(yè)走向真正的對話式交互,而它也將帶來用戶及產業(yè)層面的深刻變革。
從用戶層面而言,隨著通用語言模型置入設備中,其能夠在不同場景下化身不同類型的助手,并解決用戶的專業(yè)問題。從產業(yè)層面來看,車企未來在進行語音交互功能開發(fā)時,也將從儲備語音開發(fā)人員進行具體功能設計,到配備提示詞工程師進行大模型調教,訓練車機更好地響應用戶需求。
而想要達到這樣的變革,就需要堅實的技術支撐?!鞍俣仍谡麄€行業(yè)內擁有深刻的AI技術積累,擁有全棧自研的AI架構,從底層芯片的昆侖芯,到上層深度學習框架飛槳,再到AI大模型層,我們能夠基于文心大模型的能力實現(xiàn)用戶及車企所需要的體驗?!毙旒文媳硎?。
(文章來源:21世紀經濟報道)
標簽: