• 正文
    • 100位模型工程師的大腦
    • 產(chǎn)品化的能力
  • 推薦器件
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

如果集合100個(gè)模型工程師的大腦,然后變成一個(gè)工廠

2023/07/05
1017
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

作者|油醋
郵箱|zhuzheng@pingwest.com

大模型,到底是一場(chǎng)無(wú)限游戲還是一場(chǎng)有限游戲?

ChatGPT打過(guò)照面的人開始暢想一場(chǎng)無(wú)邊界的AGI愿景,但真的接近它的人,想法或許越來(lái)越傾向后者。

“巨大的參數(shù),巨量高質(zhì)量的數(shù)據(jù)來(lái)源,以及融合在各種不同訓(xùn)練方法中的Knowhow,如果任何廠商說(shuō)自己在三、四個(gè)月之內(nèi)做出來(lái)一個(gè)跟OpenAI效果相近的超大模型,基本上都是唬人的。而如果能力達(dá)不到GPT-4,商用就無(wú)從談起,GPT-3.5都不行。”

6月末竹間智能CEO簡(jiǎn)仁賢這樣說(shuō)的時(shí)候,行業(yè)對(duì)于通用大模型的熱度已經(jīng)迅速降溫。

兩個(gè)月前在MIT發(fā)生的一次討論中,OpenAI CEO Sam Altman現(xiàn)身,他表示“誕生 ChatGPT 的研究策略已經(jīng)結(jié)束”,未來(lái)模型的進(jìn)一步變大將不會(huì)進(jìn)一步帶來(lái)新進(jìn)展。在描述 GPT-4 的論文中,OpenAI預(yù)估擴(kuò)展模型規(guī)模擴(kuò)大的邊際收益將出現(xiàn)遞減。而訓(xùn)練背后,數(shù)據(jù)中心的存量和建造速度也會(huì)成為限制。OpenAI在6月除了推出了token數(shù)擴(kuò)展到32000個(gè)的GPT-4-32k,也同時(shí)推出了另一個(gè)向下兼容的版本:基于GPT-3但模型規(guī)模更小的GPT-3.5-turbo。

投資領(lǐng)域也開始有“創(chuàng)業(yè)公司做通用大模型的機(jī)會(huì)是0”這樣的論調(diào)出現(xiàn),甚至如華映資本表示在未來(lái)5-10年國(guó)內(nèi)能活下來(lái)并且產(chǎn)生商業(yè)價(jià)值的通用大模型不會(huì)超過(guò)三家。這樣的呼聲呼應(yīng)了李彥宏以及李志飛等人在此之前對(duì)于通用大模型競(jìng)爭(zhēng)的悲觀前景。

從商業(yè)角度,最有前景的大模型方向開始變成垂直領(lǐng)域,參數(shù)量則被校準(zhǔn)到了幾十億到幾百億的區(qū)間。早在去年11月ChatGPT出來(lái)后,簡(jiǎn)仁賢做了一個(gè)簡(jiǎn)單的測(cè)試,然后決定放棄AGI的方向。

2015年簡(jiǎn)仁賢離開微軟互聯(lián)網(wǎng)工程院,帶著微軟小娜Cortana的研發(fā)經(jīng)驗(yàn)另起爐灶,成立竹間智能,主攻NLP(自然語(yǔ)言處理)領(lǐng)域,力圖成為以理解人類語(yǔ)言和情緒為目標(biāo)的科技公司。2017年公司開始商業(yè)化探索,2020年形成規(guī)?;涞亍D壳爸耖g智能已經(jīng)為600多家客戶做了NLP的落地。

竹間智能在國(guó)內(nèi)ToB的AI領(lǐng)域玩了8年的有限游戲。簡(jiǎn)仁賢對(duì)于大模型研發(fā)的門檻和機(jī)會(huì)有清晰構(gòu)想。

通用人工智能(AGI)大模型的商業(yè)化路徑勢(shì)必通往ToC,但算力、數(shù)據(jù),以及巨額資金對(duì)于竹間這樣一家仍然保持初創(chuàng)公司體型的公司來(lái)說(shuō)都是擺在明面上的巨大障礙。

但他也明白這場(chǎng)8年的有限游戲中,竹間智能得到了什么。

理性的放棄是為了在另一個(gè)方向上提前起步。ChatGPT在去年11月出現(xiàn)后,簡(jiǎn)仁賢很快決定推進(jìn)Prompt Builder與 Model Factory (模型工廠)的研發(fā),到現(xiàn)在已經(jīng)8個(gè)月,Model Factory也引出了竹間在大模型上的新故事。

100位模型工程師的大腦

“目前市面上幾乎所有大模型都基于Transformer框架展開,或者說(shuō),我們?cè)谡務(wù)摰拇竽P透袷且粋€(gè)復(fù)雜的數(shù)據(jù)處理與模型訓(xùn)練工程?!焙?jiǎn)仁賢說(shuō)。

“模型訓(xùn)練還是在復(fù)制別人,CoT(思維鏈)是人家的Paper,InContext Learning也已經(jīng)有很多研究者做了大量工作,包括Tree of Thought、RLHF也是人家發(fā)明出來(lái)的一個(gè)方法,你只是把這些方法拿來(lái)再?gòu)?fù)現(xiàn)一次而已?!?/p>

這并不是創(chuàng)新。但簡(jiǎn)仁賢認(rèn)為更大的創(chuàng)新空間也從這里延伸出來(lái)——如何將這樣的大模型訓(xùn)練任務(wù)批量化,規(guī)模化,并且做到低成本。

這也是為什么Prompt Builder與 Model Factory研發(fā)被這么早地提上日程。在竹間智能內(nèi)部,Prompt Builder已經(jīng)開始替代產(chǎn)品經(jīng)理的角色,Model Factory 已經(jīng)替代模型工程師做模型微調(diào)的大部分工作,并且滲透進(jìn)所有關(guān)于大模型的研發(fā)體系。這個(gè)并不顯眼的技術(shù)起點(diǎn)投射出竹間在大模型競(jìng)爭(zhēng)中的入局野心。

將一百位模型工程師的大腦聚集成一個(gè)工廠,或者叫EmotiBrain。

Prompt Builder所包含的Prompt模版集以及優(yōu)化和管理能力,都被內(nèi)嵌在大模型訓(xùn)練微調(diào)平臺(tái)EmotiBrain的 Model Factory內(nèi),后者是竹間研發(fā)的一個(gè)大語(yǔ)言模型訓(xùn)練工具。

簡(jiǎn)仁賢演示了一下企業(yè)如何用EmotiBrain來(lái)訓(xùn)練出一個(gè)適合的模型。

這是一個(gè)流水線的訓(xùn)練方式。使用者選擇一個(gè)基礎(chǔ)預(yù)訓(xùn)練模型,然后選擇對(duì)應(yīng)的行業(yè)數(shù)據(jù),企業(yè)自有數(shù)據(jù),指令集數(shù)據(jù),以及同時(shí)可以選擇多種微調(diào)方法(整個(gè)fine-tuning的過(guò)程是自動(dòng)化的)。所有細(xì)節(jié)都選定之后,平臺(tái)智能的分配GPU資源,并開始執(zhí)行模型訓(xùn)練。在EmotiBrain上,多個(gè)模型訓(xùn)練可以同時(shí)運(yùn)行,使用者選定一個(gè)目標(biāo)任務(wù)后,可以改變基礎(chǔ)模型、測(cè)試數(shù)據(jù)以及微調(diào)方式來(lái)生成不同的模型,通過(guò)模型評(píng)測(cè),并選取最優(yōu)者。

EmotiBrain模型訓(xùn)練界面 ?圖源:竹間智能

EmotiBrain能夠?qū)崿F(xiàn)從訓(xùn)練數(shù)據(jù)生成,數(shù)據(jù)梳理清洗,標(biāo)注,到選擇預(yù)訓(xùn)練基礎(chǔ)模型,實(shí)驗(yàn)不同的微調(diào)方法,不同人員進(jìn)行多次微調(diào)直到測(cè)試、部署以及最后應(yīng)用的集成整體化。它可以進(jìn)一步被拆分成多方面的能力,Prompt Builder是其中之一,另一方面,其內(nèi)含的Model Factory擁有高質(zhì)量的中英文訓(xùn)練數(shù)據(jù)集,支持Fine-tune、Prompt Tuning、Instruct Tuning、LoRA、QLoRA等多種微調(diào)模式,可同時(shí)訓(xùn)練上百個(gè)大模型,大大減少訓(xùn)練最優(yōu)模型的時(shí)間,也降低了模型訓(xùn)練成本;Chat Search則是一個(gè)大模型驅(qū)動(dòng)的對(duì)話搜索引擎。

生成式AI的黑箱屬性轉(zhuǎn)變成模型訓(xùn)練的偶然性。這意味著企業(yè)在訓(xùn)練最適合自己的模型時(shí)很難一擊即中,它是訓(xùn)練出來(lái)的,也是多次訓(xùn)練之后選出來(lái)的。EmotiBrain在多模型同時(shí)訓(xùn)練的基礎(chǔ)上提供了一個(gè)模型評(píng)估機(jī)制。比如一個(gè)法律咨詢場(chǎng)景下的對(duì)話AI,將多個(gè)訓(xùn)練完的模型呈現(xiàn)出來(lái)之后會(huì)以相同的提問(wèn)同時(shí)測(cè)試各個(gè)模型,企業(yè)可以根據(jù)評(píng)估結(jié)果來(lái)選擇更好的那個(gè)模型。

對(duì)于大量非AI領(lǐng)域的企業(yè)來(lái)說(shuō),聘請(qǐng)模型工程師是非常奢侈的事情,模型工程師人才短缺是一個(gè)大挑戰(zhàn)。簡(jiǎn)仁賢說(shuō)表示,“EmotiBrain相當(dāng)于有100個(gè)模型工程師在幫你干活”。這樣一個(gè)將集體智慧凝結(jié)成自動(dòng)化流程的過(guò)程也并不是一蹴而就的。

2017年推出機(jī)器人定制云平臺(tái)Bot Factory后,竹間智能也同時(shí)開始了NLP模型的自動(dòng)化訓(xùn)練,對(duì)于 Transformer 的模型開發(fā)也是從2019就開始的,積累到現(xiàn)在已經(jīng)有超過(guò)1000個(gè)意圖理解模型,500多個(gè)解析器,總共的模型積累超過(guò)3000個(gè)。與此同時(shí),一個(gè)竹間內(nèi)部的機(jī)器學(xué)習(xí)平臺(tái)也在成型,并且開始承載整個(gè)模型訓(xùn)練的過(guò)程。

這一套模型訓(xùn)練的流水線機(jī)制在內(nèi)部研發(fā)中打磨多年后,去年年中谷歌效果驚人的LaMDA2發(fā)布,竹間科技決定轉(zhuǎn)向大模型,開始用Bloom作為target(被預(yù)測(cè)內(nèi)容)來(lái)打磨自己的機(jī)器學(xué)習(xí)平臺(tái),并且嘗試訓(xùn)練自己的基礎(chǔ)大模型,現(xiàn)在的EmotiBrain也在機(jī)器學(xué)習(xí)平臺(tái)能力擴(kuò)展之后形成。

但一個(gè)大模型訓(xùn)練微調(diào)平臺(tái)只是基礎(chǔ)。

彭博行業(yè)研究近日的報(bào)告預(yù)測(cè),目前市場(chǎng)規(guī)模僅為400億美元的生成式AI在2032年將會(huì)膨脹為一個(gè)1.3萬(wàn)億美元規(guī)模以上的市場(chǎng)。而簡(jiǎn)仁賢對(duì)生成式AI在ToB領(lǐng)域的最終市場(chǎng)規(guī)模的預(yù)估也在數(shù)萬(wàn)億級(jí)別,而這個(gè)市場(chǎng)中的勝負(fù)手最終將是產(chǎn)品化,規(guī)?;?,與降低成本的能力。

“中國(guó)有14億人,10億以上的網(wǎng)民,但絕大多數(shù)人并不會(huì)使用模型,你要給他產(chǎn)品應(yīng)用,而不是給他模型。”

EmotiBrain是竹間智能“1+4”大模型產(chǎn)品體系中基礎(chǔ)性的“1”,它的能力將會(huì)借助四個(gè)方面的核心產(chǎn)品進(jìn)一步具像化。

產(chǎn)品化的能力

這四個(gè)產(chǎn)品方向分別是對(duì)話、對(duì)練培訓(xùn)、知識(shí)管理和寫作助手。

Bot Factory+和KKBot延續(xù)了竹間智能在對(duì)話方向的產(chǎn)品積累,前者包含大模型和快速模型協(xié)同的雙引擎智能對(duì)話技術(shù),可以實(shí)現(xiàn)對(duì)于問(wèn)答的自動(dòng)抽取和知識(shí)沉淀,在不斷的人機(jī)交互中不斷優(yōu)化回答質(zhì)量和速度。問(wèn)答所形成的知識(shí)庫(kù),以及流程知識(shí)和圖譜知識(shí),也可以通過(guò)Bot Factory+來(lái)管理。

KKBot可以理解為個(gè)人或企業(yè)的辦公Copilot,企業(yè)可以根據(jù)自身業(yè)務(wù)場(chǎng)景和需求在KKBot上選擇適合自己的大模型,形成個(gè)性化的對(duì)話場(chǎng)景和功能,并且竹間提供私有化部署的解決方案來(lái)保證企業(yè)數(shù)據(jù)安全。Bot Factory+和KKBot的組合使用則可以進(jìn)一步強(qiáng)化由AI對(duì)話能力帶來(lái)的生產(chǎn)力提升,兩者的結(jié)合可以控制大語(yǔ)言模型胡言亂語(yǔ)的現(xiàn)象。

Emoti Coach是竹間智能研發(fā)的一款基于大語(yǔ)言模型的仿真對(duì)練軟件,在大模型能力的加持下,基于企業(yè)自有知識(shí)與大模型具備的能力,通過(guò)簡(jiǎn)單提示就可以生成豐富的課程和對(duì)練場(chǎng)景,Emoti Coach的沉浸式特點(diǎn)意味著其對(duì)練環(huán)境逼近實(shí)戰(zhàn),也更容易獲得真實(shí)的1:1對(duì)練效果。融入大模型能力后,它能夠?yàn)榫毩?xí)者給出及時(shí)且細(xì)顆粒度的反饋。

可以自動(dòng)構(gòu)建知識(shí)圖譜及知識(shí)管理的Knowledge Factory定位為企業(yè)級(jí)的知識(shí)工廠,提供了模糊搜索和語(yǔ)意搜索相結(jié)合的方式來(lái)檢索企業(yè)中的相關(guān)文檔,并且能夠在文檔之間建立智能關(guān)系網(wǎng)絡(luò)。對(duì)于員工個(gè)體,Knowledge Factory提供續(xù)寫、改寫、翻譯和總結(jié)等生成式能力來(lái)輔助提高工作效率。而嚴(yán)格的安全審核機(jī)制則會(huì)確保文檔作為企業(yè)的知識(shí)沉淀能夠避開風(fēng)險(xiǎn)。

竹間智能“1+4”大模型產(chǎn)品體系 ?圖源:竹間智能

而針對(duì)文檔創(chuàng)作,竹間智能研發(fā)了企業(yè)級(jí)的寫作助手產(chǎn)品Magic Writer,可以進(jìn)一步解放員工在文檔上的生產(chǎn)力。借助內(nèi)置的豐富文檔模版,員工只要輸入必要的關(guān)鍵詞就可以自動(dòng)實(shí)現(xiàn)文檔的生成,而Knowledge Factory的內(nèi)容生成能力與安全審核機(jī)制也會(huì)在Magic Writer中得到體現(xiàn),可以依據(jù)企業(yè)私有數(shù)據(jù)來(lái)創(chuàng)作,避免通用模型會(huì)胡言亂語(yǔ)的情形。

外界對(duì)于大模型的關(guān)注多放在大廠與新的創(chuàng)業(yè)公司兩端,前者有足夠的資源、研發(fā)能力和自有場(chǎng)景,后者往往可以將矚目的創(chuàng)始團(tuán)隊(duì)轉(zhuǎn)換成巨大的想象空間。相較之下,在NLP領(lǐng)域扎根多年的公司反而被忽視。但當(dāng)外界將視線更多聚焦到行業(yè)大模型與企業(yè)定制化模型上,竹間智能的產(chǎn)品優(yōu)勢(shì)開始顯現(xiàn)出來(lái)。

企業(yè)需要一個(gè)能真正跨越大模型與用戶之間“最后一公里”的解決方案,而不僅僅是孤立的服務(wù)或工具?!耙唤M零散的工具對(duì)企業(yè)是沒(méi)有用的,因?yàn)槠髽I(yè)沒(méi)有那么多能做模型的IT人員”,簡(jiǎn)仁賢說(shuō)。

竹間智能積累了包括私有部署跟SaaS服務(wù)在內(nèi)的六七百個(gè)大客戶,AI產(chǎn)品也在多年的大客戶驗(yàn)證中趨于成熟,“1+4”大模型產(chǎn)品體系可以看做是從前的產(chǎn)品和行業(yè)Knowhow用大語(yǔ)言模型來(lái)做升級(jí),這是竹間自己的“最后一公里”,但在此之前,基礎(chǔ)的產(chǎn)品化能力則是一段必須要用5-7年才能走完的路。

竹間提供的是一個(gè)端到端的解決方案,這是在NLP領(lǐng)域多年積累后的AI公司相比市面上廣泛談?wù)揗aaS的其他玩家所具有的獨(dú)特優(yōu)勢(shì)。

“Model is new Code(模型就是新型代碼)”。竹間提出了這樣的理念。

從20世紀(jì)90年之前程序員以紙帶和純文本形式編寫代碼,到之后集成開發(fā)環(huán)境(IDE)與提供代碼補(bǔ)全和錯(cuò)誤提示的語(yǔ)言服務(wù)器協(xié)議(LSP)的出現(xiàn),人類的編碼歷史也是一條降低開發(fā)者輸入門檻的歷史。大模型的興起已經(jīng)席卷各行各業(yè),未來(lái)的軟件將由大型語(yǔ)言模型驅(qū)動(dòng),模型也就成了新的代碼。

從這個(gè)意義上講,為了彌合用戶、企業(yè)與大模型之間的巨大鴻溝,負(fù)責(zé)大模型生產(chǎn)的流水線工廠會(huì)作為一種基礎(chǔ)設(shè)施長(zhǎng)久存在。竹間智能的機(jī)會(huì)也在這里。

 

 

推薦器件

更多器件
器件型號(hào) 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊(cè) ECAD模型 風(fēng)險(xiǎn)等級(jí) 參考價(jià)格 更多信息
MCF52258CAG66 1 Rochester Electronics LLC 32-BIT, FLASH, 66MHz, RISC MICROCONTROLLER, PQFP144, 20 X 20 MM, ROHS COMPLIANT, LQFP-144
$12.68 查看
STM32F030C8T6TR 1 STMicroelectronics Mainstream Arm Cortex-M0 Value line MCU with 64 Kbytes of Flash memory, 48 MHz CPU

ECAD模型

下載ECAD模型
$3.41 查看
STM32F429ZIT6 1 STMicroelectronics High-performance advanced line, Arm Cortex-M4 core with DSP and FPU, 2 Mbytes of Flash memory, 180 MHz CPU, ART Accelerator, Chrom-ARTAccelerator, FMC with SDRAM, TFT

ECAD模型

下載ECAD模型
$24.77 查看

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計(jì)資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄