VLA

加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

VLA,vision language action。VLA模型是在 VLM 基礎(chǔ)上利用機(jī)器人或者汽車運(yùn)動(dòng)軌跡數(shù)據(jù),進(jìn)一步訓(xùn)練現(xiàn)有的 VLM,以輸出可用于機(jī)器人或者汽車控制的文本編碼動(dòng)作。

VLA,vision language action。VLA模型是在 VLM 基礎(chǔ)上利用機(jī)器人或者汽車運(yùn)動(dòng)軌跡數(shù)據(jù),進(jìn)一步訓(xùn)練現(xiàn)有的 VLM,以輸出可用于機(jī)器人或者汽車控制的文本編碼動(dòng)作。收起

查看更多
  • 理想智駕的VLA模型及其結(jié)構(gòu)
    我們之前文章《2025年,自動(dòng)駕駛即將開“卷”的端到端大模型 2.0 - VLA (Vision Language Action)》分享過(guò)VLA,現(xiàn)在,不少公司已經(jīng)宣稱會(huì)在2025年下半年都會(huì)推出此類模型結(jié)構(gòu)。所以,本文將通過(guò)理想相關(guān)信息來(lái)拆解分享理想智駕VLA算法。理想VLA模型架構(gòu)的四大核心模塊:
    理想智駕的VLA模型及其結(jié)構(gòu)
  • 特斯拉全局端到端走不通,理想與地平線VLA加入diffusion policy再進(jìn)化
    【觀點(diǎn):全局端到端除了太消耗運(yùn)算和存儲(chǔ)資源外,還很難添加輔助模塊,如應(yīng)對(duì)交通規(guī)則的地圖模塊,特斯拉就是因此幾乎完全無(wú)法適應(yīng)中國(guó)的交通規(guī)則。模塊化端到端將是主流,至少在違反交通規(guī)則處罰力度和廣度都很強(qiáng)的中國(guó)如此,某種意義上講還是快慢雙系統(tǒng),快系統(tǒng)是diffusion planner或policy,慢系統(tǒng)是LLM或VLM。】
    特斯拉全局端到端走不通,理想與地平線VLA加入diffusion policy再進(jìn)化
  • VLA,是不是自動(dòng)駕駛的下一站?
    中國(guó)農(nóng)歷新年結(jié)束沒(méi)多久,馬斯克就給中國(guó)的特斯拉車主送上一份大禮——2月26日,在毫無(wú)征兆的情況下特斯拉向中國(guó)區(qū)購(gòu)買了FSD的HW4.0車主開啟了功能推送。此前一度傳言FSD因?yàn)閿?shù)據(jù)問(wèn)題入華時(shí)間將推遲,而且這次推送的是和美國(guó)相同的V13版本,對(duì)于它在中國(guó)的表現(xiàn)大家非常好奇,隨后各大媒體和大V都對(duì)FSD進(jìn)行了詳細(xì)的測(cè)試。
    VLA,是不是自動(dòng)駕駛的下一站?
  • 智駕平權(quán)“最大公約數(shù)”地平線:2024年?duì)I收23.84億元?jiǎng)?chuàng)新高,同比大增53.6%
    地平線機(jī)器人-W(09660.HK,以下簡(jiǎn)稱“地平線”)發(fā)布2024年業(yè)績(jī)公告。截至2024年12月31日止,地平線全年?duì)I收23.84億元,同比增長(zhǎng)53.6%;毛利潤(rùn)18.41億元,同比增長(zhǎng)68.3%;現(xiàn)金及現(xiàn)金等價(jià)物儲(chǔ)備同比增加,流動(dòng)性維持充足。公司營(yíng)收與毛利潤(rùn)表現(xiàn)亮眼,增長(zhǎng)勢(shì)頭強(qiáng)勁。 量產(chǎn)規(guī)模加速擴(kuò)大,穩(wěn)居智駕市場(chǎng)領(lǐng)導(dǎo)地位 地平線成立于2015年,是市場(chǎng)領(lǐng)先的乘用車高級(jí)輔助駕駛(ADAS)和高
    智駕平權(quán)“最大公約數(shù)”地平線:2024年?duì)I收23.84億元?jiǎng)?chuàng)新高,同比大增53.6%
  • Figure AI發(fā)布VLA模型Helix,人形機(jī)器人商業(yè)化元年正在來(lái)臨
    北美時(shí)間2月20日,人形機(jī)器人公司Figure AI發(fā)布新型通用人形機(jī)器人VLA模型Helix。本次Figure發(fā)布的視頻當(dāng)中能看到,有兩臺(tái)搭載了Helix模型的Figure機(jī)器人共同協(xié)作,完成了拾取任意物品并分類的任務(wù)操作。VLA模型是指視覺(jué)(Vision)-語(yǔ)言(Language)-動(dòng)作(Action)模型,機(jī)器人可以將感知、語(yǔ)言等多模態(tài)的信息和學(xué)習(xí)到的控制能力結(jié)合,從而輸出執(zhí)行命令的動(dòng)作。
    Figure AI發(fā)布VLA模型Helix,人形機(jī)器人商業(yè)化元年正在來(lái)臨