• 正文
    • 【摘要】
    • 以下為正文:
    • 01、多模態(tài)原生模型重構AI能力邊界
    • 02、從“宏大敘事”到“百姓日用”
    • 03、打通技術普惠的“最后一公里”
    • 04、尾聲
  • 相關推薦
申請入駐 產(chǎn)業(yè)圖譜

多模態(tài)是AI工業(yè)化范式關鍵,商湯科技第六代大模型開啟“百姓日用”新時代

04/15 15:00
500
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

作者:梁紅

【摘要】

2025年,全球AI產(chǎn)業(yè)進入深水區(qū)。

大模型從技術競賽轉向應用落地,行業(yè)競爭焦點從參數(shù)規(guī)模轉向性價比與場景適配。

在此背景下,商湯科技于4月10日發(fā)布“日日新SenseNova V6”大模型體系及大裝置SenseCore 2.0,以多模態(tài)原生能力為核心,推動AI從“技術炫技”向“百姓日用”的實質(zhì)性跨越。

這場技術迭代不僅標志著商湯戰(zhàn)略的全面升級,更折射出中國AI產(chǎn)業(yè)從“實驗室創(chuàng)新”向“工業(yè)化落地”的范式轉變。

以下為正文:

01、多模態(tài)原生模型重構AI能力邊界

2025年,“多模態(tài)”正成為公眾聚焦的熱點話題。

傳統(tǒng)思維鏈下,AI已經(jīng)在文字推理上相對聰明,但最大的問題在于,現(xiàn)實世界遠比單一文字復雜得多,人腦的思考其實還包含了看圖說話、聽聲辨位、摸物識形。

因此,語言作為編碼過程存在信息損失,很多時候思考與判斷需要通過多模態(tài)實現(xiàn),也即更接近人類思考方式的AI。

但達到這一點,卻長久以來存在技術壁壘,數(shù)據(jù)基礎、算力、技術理解能力都存在進步空間。

密集的采樣、復雜的編碼之下,大模型承載的數(shù)據(jù)量進一步暴增,這對全局記憶能力也提出了考驗。

4月10日,商湯科技舉辦2025技術交流日活動,率先帶來新意,推出全新升級的“日日新SenseNova V6”大模型體系,業(yè)內(nèi)少見地向大家展示了多模態(tài)長思維鏈訓練、全局記憶、強化學習的技術突破。

在文本與多模態(tài)領域的雙冠稱號,也讓業(yè)內(nèi)看見了知識與通用模型的更大可能。

據(jù)悉,商湯憑借過去在視覺、感知、生成等領域積累的大量資源,構造超過200B高質(zhì)量token的多模態(tài)長思維鏈數(shù)據(jù),思維鏈數(shù)據(jù)最長可達64K,這為大模型解決復雜問題提供了必要基礎。

在思維鏈形成之后,商湯通過引入激勵函數(shù)等強化學習引擎實現(xiàn)多模態(tài)融合,數(shù)據(jù)分析能力大幅領先行業(yè)最好的GPT-4o,進一步提升大模型的應用效率。

技術突破外,商湯的另一個優(yōu)勢在于性價比的重新思考。

與市場上“語言模型+插件式多模態(tài)模塊”方案不同,商湯通過自研的多模態(tài)思維鏈構建技術和視頻壓縮算法,實現(xiàn)了文本、圖像、視頻、音頻的深度融合,大大增強了模型實時交互的性能。

值得關注的是,SenseNova V6還有Reasoner這一深度思考的推理版本。

隨著大量數(shù)據(jù)的全新重構,日日新融合模態(tài)從基準的5.5到V6/V6 Reasoner實現(xiàn)100%翻倍能力的提升。

在對齊甚至領先于業(yè)內(nèi)最好水平的推理能力基礎上,商湯科技、DeepSeek等國內(nèi)技術巨頭,正在逐步刷新世界對人工智能大模型的認知。

02、從“宏大敘事”到“百姓日用”

除了性能,大模型的另一個關鍵在應用,覆蓋面、易用性都至關重要。

過去,人工智能的應用藍圖多集中于城市管理、智能工業(yè)、電網(wǎng)、物業(yè)等宏大場景,而此類場景往往存在單一性與難閉環(huán)的局限性。

隨著模型通用性的增長,人工智能的場景已然從過去智慧城市治理、認知邊界探索等宏大敘事,轉向百姓日用。

AI大模型商業(yè)化落地的關鍵在于客戶,而商湯懂模型,也更懂客戶。

此次,商湯交流日發(fā)布的重點并非技術參數(shù),而是明確指向高頻剛需場景,通過“AI工業(yè)化”路徑實現(xiàn)商業(yè)閉環(huán)。

面向B端規(guī)?;芾砼c生產(chǎn)力工具,商湯的大模型正重塑行業(yè)效率。

舉例而言,在公司財務審核、醫(yī)療報銷、保險理賠等充斥著大量非結構化數(shù)據(jù)的領域,大模型可通過交叉驗證進行風險提示,以全新的視角應對開放性問題。

在智能制造這一行業(yè)新風口,商湯大模型利用自主可控的“開悟”平臺生成視覺數(shù)據(jù),提升端到端自動駕駛決策,調(diào)用外部函數(shù)實現(xiàn)與現(xiàn)實世界的反饋,加速具身智能的知識獲取效率。

在C端交互革命的行業(yè)背景下,商湯大模型正搶占全模態(tài)商業(yè)化入口。

在消費者集中的線上購物場景中,不論是個人的消費比價、購物規(guī)劃等零碎的小場景,還是平臺方接收反饋、廣告投放的大型推廣場景,商湯的大模型都可為客戶提供科學決策,增加閉環(huán)價值。

圖文、視頻等更復雜的多模態(tài)領域,也始終是商湯關注的重點。

在流行的短視頻行業(yè),商湯大模型技術可自動剪輯高光片段、生成解說文案,進而提升互動廣安,一鍵化的剪輯操作有助于解決短視頻創(chuàng)作者素材處理痛點。

總的來看,面對現(xiàn)實世界眾多的開放性問題,多模態(tài)已然形成剛性需求,這一點是商湯“日日新”帶來的新范式。

03、打通技術普惠的“最后一公里”

“站在風口上,豬都能飛起來”,這一道理人人都懂,但怎么抓住風口、甚至提前預判風口則是一門學問。

據(jù)悉,早在2018年,當科技行業(yè)還遠沒有大模型概念的時候,商湯科技面對感知智能的技術瓶頸,就在上海市發(fā)改委申請了一個千卡并行訓練的原型機項目。

嘗到了大數(shù)據(jù)帶來的技術紅利,商湯于2020年開始啟動建設臨港商湯大裝置,此時業(yè)內(nèi)甚至沒有智能計算中心的概念。

此后抓住人工智能機遇的產(chǎn)品不少,但在人工智能產(chǎn)業(yè)走向開源的今天,商湯大裝置為何是最懂大模型的AI基礎設施呢?

商湯科技楊帆在接受記者采訪時說到,“過去我們一直強調(diào)AI基礎設施,但AI基礎設施不只是算力,而是算力、算法、數(shù)據(jù)這三個要素均實現(xiàn)基礎設施化”。

這個觀點頗為重要,大模型出現(xiàn)的重大意義,實際是幫助AI的創(chuàng)新者和應用者降低門檻、降低成本,優(yōu)化所有的AI創(chuàng)新者的性價比和效能。

這一點,恰恰是企業(yè)能否實現(xiàn)長久發(fā)展的核心要義。

2023年上半年,商湯就推出了AI專家服務的模塊,助力產(chǎn)業(yè)鏈下游的創(chuàng)新型工作者更好地使用AI基礎設施。

從技術層面看,商湯大裝置已經(jīng)將商湯多模態(tài)推理應用的成本降到和大語言模型一樣。

24年年底,公司曾為國內(nèi)頭部客戶提供4款國產(chǎn)芯片的異構混訓服務,訓練規(guī)模達5000卡,卻實現(xiàn)了80%的算力有效利用率,遠超業(yè)內(nèi)50%-60%的利用水平。

而在具身智能這一高難度領域,商湯憑借著多年的基礎性能力積累,幫助用戶在視覺算法等領域快速實現(xiàn)商業(yè)閉環(huán),通過經(jīng)驗整合打通客戶需求的“最后一公里”。

商湯的SenseCore 2.0通過PD分離/通信計算折疊/FP8強化/算子優(yōu)化等基礎設施與模型協(xié)同優(yōu)化,產(chǎn)品在線服務性能較頭部廠商提升15%,超行業(yè)平均水平25%;離線推理方面,Prefill階段提速5倍,Decode階段提速3.5倍。

SenseCore 2.0正通過提供更敏捷、更靈活、效率更高和更可靠的完整服務,去擁抱開源,去提供更加高性價比的一個選擇。

從行業(yè)整體來看,大算力的市場需求仍在持續(xù)上漲,芯片供應鏈卻面臨著極大的外部不確定性。

而DeepSeek的爆火告訴我們,想要打造一個有國際知名度的中國企業(yè),需要整個行業(yè)的共同托舉。

楊帆表示,公司將于2025年發(fā)放1億的代金券賦能全棧行業(yè)場景的落地,助力客戶與生態(tài)伙伴更快推動中國大模型市場化落地,最終達到以普惠AI創(chuàng)造更加美好的生活、更加美好的社會的共同愿景。

當性價比的生死線正在被突破,商湯正在成為大模型技術普惠下沉的行業(yè)“托舉人”。

04、尾聲

2025年的AI競賽,不再只是參數(shù)的軍備競賽,還包括“場景理解力”的終極比拼。

商湯科技的多模態(tài)和工業(yè)化生態(tài),正在打造“技術-商業(yè)-社會價值”三位一體的新范式。

這條路或許漫長,但正如商湯科技董事長兼CEO 徐立在活動的最后所言,“圣人之道無異于百姓之日用”。

AI的未來,必將在千萬百姓的日常中生根發(fā)芽。

相關推薦

登錄即可解鎖
  • 海量技術文章
  • 設計資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄