與非網(wǎng) 9 月 12 日訊,去年是 NLP 的收獲大年,模型預(yù)訓(xùn)練技術(shù)終于被批量成功應(yīng)用于多項(xiàng) NLP 任務(wù)。之前搞 NLP 的人一直羨慕搞 CV 的人,在 ImageNet 上訓(xùn)練好的模型,居然拿到各種任務(wù)里用都非常有效。現(xiàn)在情形有點(diǎn)逆轉(zhuǎn)了。搞 CV 的人開始羨慕搞 NLP 的人了。
而就在 BERT 發(fā)布之后,點(diǎn)燃了 NLP 各界的歡騰,各路神仙開始加班加點(diǎn)各顯神通,很多相關(guān)工作被發(fā)表出來。目前,BERT 使計(jì)算機(jī)能夠更準(zhǔn)確地理解語音,并實(shí)時(shí)智能地響應(yīng),使聊天機(jī)器人大大提高智能化。
首先,我們先簡(jiǎn)單回顧一下 NLP 的歷史。在上世紀(jì) 80 年代之前,大多數(shù) NLP 系統(tǒng)以規(guī)則為基礎(chǔ),根源于美國(guó)語言學(xué)家 Noam Chomsky 的工作,他認(rèn)為語法規(guī)則可用于理解語義關(guān)系,因而引導(dǎo)機(jī)器理解語音。然而到了 80 年代后期,機(jī)器學(xué)習(xí)算法變得越來越流行,開始從規(guī)則向統(tǒng)計(jì)模型轉(zhuǎn)變。隨著 Word2vec、GloVe 和 FastText 等單詞嵌入的推出,2013 年迎來了 NLP 的下一大飛躍。
在讀取大量文本并分析每個(gè)單詞在數(shù)據(jù)集中的不同上下文中如何出現(xiàn)后,單詞嵌入試圖將單詞的“含義”封裝在向量中。其想法是,含義相似的單詞會(huì)有相似的向量。這第一代單詞嵌入的最大缺點(diǎn)是,每個(gè)單詞只有一個(gè)向量,實(shí)際上它可能有多個(gè)含義(比如 Mercury 有行星、金屬、汽車或羅馬神等意思)。這些缺點(diǎn)歸咎于這一事實(shí):由于效率原因,早期的單詞嵌入模型用小型神經(jīng)網(wǎng)絡(luò)來訓(xùn)練(淺訓(xùn)練)。然而谷歌發(fā)布 BERT 后,我們確實(shí)處于拐點(diǎn)。
BERT 如此驚艷的原因。BERT 是一種上下文模型,這意味著基于句子中所用單詞的上下文生成單詞嵌入,因此一個(gè)單詞可以有多個(gè)嵌入。BERT 支持遷移學(xué)習(xí)(transfer learning)。這被稱為“NLP 的 ImageNet 時(shí)刻。”BERT 可以針對(duì)一小組特定領(lǐng)域數(shù)據(jù)低成本、快速度地加以微調(diào),可以獲得比從頭開始用同樣這些特定領(lǐng)域數(shù)據(jù)集來訓(xùn)練更準(zhǔn)確的結(jié)果。
摩爾定律依然適用。幫助取得 BERT 等進(jìn)步,需要計(jì)算機(jī)的速度和性能不斷提高,尤其是英偉達(dá)的 GPU 和谷歌的 TPU。
由于計(jì)算的現(xiàn)狀和成本,早期的單詞嵌入模型不得不很高效,BERT 效率低得多,但計(jì)算能力完全趕了上來。
英偉達(dá)剛宣布它支持 BERT,現(xiàn)在聲稱其 AI 平臺(tái)擁有最出色的 BERT 訓(xùn)練功能。此外,英偉達(dá)聲稱可以獲得很快速的響應(yīng),實(shí)時(shí)聊天應(yīng)用中需要快速響響應(yīng)。并且,該公司已制定了初創(chuàng)加速計(jì)劃,幫助對(duì)話式 AI 初創(chuàng)公司。
與非網(wǎng)整理自網(wǎng)絡(luò)!