• 正文
    • M2VoC首戰(zhàn)告捷
    • 在猿輔導(dǎo)搞技術(shù)是一種什么體驗?
    • 隱藏在教育背后的技術(shù)實力
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

拿到國際AI比賽冠軍的,居然是個搞教育的

2021/03/31
89
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

最近,聽到不少語音圈兒的盆友都在議論一場比賽。

什么超少樣本啊,什么亂入啊,還有什么教育……

咦,“教育”是什么鬼?

仔細打聽才知道,原來是剛剛落幕的國際TTS(語音合成)賽事M2VoC。

M2VoC,又稱多說話人多風(fēng)格音色克隆大賽,就是給你極少的語音樣本(最少5個的那種),讓你合成同種風(fēng)格的聲音。

這不就一場常規(guī)的技術(shù)玩家競技盛會嘛?

 

盆友表示,意外就意外在,這次的子賽道冠軍里,混進了一個“異類”——

搞直播網(wǎng)課的猿輔導(dǎo)。

搞在線教育,還能搞出個AI冠軍???

據(jù)說,獲獎團隊當(dāng)時還有其他緊急任務(wù),就隨機派了兩個人,硬擠了5天時間來參賽。

疑似凡爾賽,而且有證據(jù)!

但橋豆麻袋,猿輔導(dǎo),確定是一家在線教育公司哈?!

M2VoC首戰(zhàn)告捷

還是先來看看比賽本身。

猿輔導(dǎo)亂入?yún)⒓拥谋荣?,是聲學(xué)、語音和信號處理國際會議(ICASSP)信號處理挑戰(zhàn)期間任務(wù)——多說話人多風(fēng)格音色克隆大賽(M2VoC)。

而ICASSP作為IEEE信號處理協(xié)會組織的年度會議,也是信號處理及應(yīng)用方面最權(quán)威的會議之一。

據(jù)稱,這還是世界上第一個小資源音色克隆挑戰(zhàn)賽。

大賽共分為兩個賽道,一個少樣本賽道,另一個是比“少樣本”更少的賽道。

在極少樣本賽道,參賽者需要針對不同說話風(fēng)格和5個可用音色樣本進行校驗和測試。

每個賽道又分為開集和閉集。開集,即用任何公開數(shù)據(jù);閉集,即只能用官方給到的數(shù)據(jù)。

最終共有150多支隊伍參賽,而在極少樣本開集賽道中猿輔導(dǎo)獲得了第一。

 

另外在少樣本開集、極少樣本閉集的賽道里,分別獲得了第4、第5的成績。

實際上,猿輔導(dǎo)此次比賽中呈現(xiàn)的,并非實驗室技術(shù)。

而是一個早已經(jīng)在小猿口算、猿輔導(dǎo)網(wǎng)課等產(chǎn)品中的技術(shù),用于英語發(fā)音、題干讀題等場景。

比如說讀一個數(shù)學(xué)題,有些幼齡的小朋友字認(rèn)不全,需要讀出來讓孩子理解;另外,老師們也可以設(shè)定一個題目,根據(jù)題目的文字合成一個音頻。

尤其是在英語聽力上的應(yīng)用,發(fā)音要求更為嚴(yán)苛。

但一線老師反饋說,這比公開服務(wù)更好用。

以前,由老師出題,然后找正規(guī)的英音、美音老師錄制。一般外包公司制作一周才返回語音包。

如果有修改,那就最少2周,遇到節(jié)假日就更不可控了。

現(xiàn)在通過語音合成,一句10秒長度的句子,不到1秒就可以完成語音轉(zhuǎn)化,效率上有很大的提升。

這樣一來,2個人準(zhǔn)備5天時間就參加比賽,就也不是那么夸張了。

只是沒想到的是,第一次征戰(zhàn)國際賽事的他們,就獲得子賽道第一的成績。

對于這樣的結(jié)果,他們表示有點意外。

拿到(極少樣本開集)子賽道第一名,我們有點意外。技術(shù)領(lǐng)域的大牛很多,我們也會繼續(xù)努力!

基本思路跟平時的訓(xùn)練流程一致,由大規(guī)模樣本的預(yù)訓(xùn)練和小規(guī)模樣本的微調(diào)訓(xùn)練組成。

至于獲獎的原因,團隊內(nèi)部分析認(rèn)為,除了訓(xùn)練數(shù)據(jù)選的比較好之外,他們在語音合成的前端所采用的停頓、韻律模型,讓合成出來的語音效果更加自然了。

一般來說,通用的語音合成技術(shù),大都將目光聚焦在合成字眼的準(zhǔn)確性。其他有如準(zhǔn)確發(fā)音、韻律情緒、適當(dāng)停頓等問題通常不會顧及。

就是一個莫得感情的朗讀機器~

但在教育領(lǐng)域,這些平時容易忽視的痛點,就變成了技術(shù)團隊重點攻克的對象。

既要保證在遇到類似多音字這樣的情況時,發(fā)出正確的讀音,又需要在面向低齡兒童的教學(xué)場景中,讓拼讀更加自然、富有韻律不生澀。

不能因為我冷漠,就耽誤了小孩學(xué)習(xí)呀?。ㄊ謩庸奉^)

也恰好因為這一點,猿輔導(dǎo)得到了主辦方、評委會的肯定。

在猿輔導(dǎo)搞技術(shù)是一種什么體驗?

所以,猿輔導(dǎo)作為一家在線教育公司,為什么會出現(xiàn)在語音合成技術(shù)的國際賽場上?

其實緣于一個偶然的契機。

當(dāng)時,這次的參賽隊員楊明祺將隨手刷到的大賽信息轉(zhuǎn)發(fā)到語音組群里。就在研發(fā)同學(xué)們的日常吹水中,他們突然想到,猿輔導(dǎo)在這方面已有技術(shù)積累,何不趁著這個比賽跟其他隊伍切磋交流一下,看看在統(tǒng)一任務(wù)下別人有什么不一樣的想法可以借鑒學(xué)習(xí)。

這種保持對前沿技術(shù)關(guān)注、主動學(xué)習(xí)的操作,倒并不是臨時起意,而是整個技術(shù)部門再正常不過的日常。

從他們堅持已久的一個習(xí)慣中也可見一斑——

Paper reading,是猿輔導(dǎo)AI Lab自2014年成立以來一直堅持至今的一項活動。

7年來,團隊每周都會安排一位技術(shù)同學(xué)在組會時分享一篇前沿技術(shù)論文,并與其他同事深入交流討論。

起初,整個實驗室的都要一起參加這樣的閱讀會。后來隨著規(guī)模的不斷擴大,改為下設(shè)5個實驗室分別舉辦,自己實驗室的同學(xué)當(dāng)然必須參加,其他實驗室的人也可以根據(jù)興趣參與進來。

不同技術(shù)之間的碰撞,也成為了猿輔導(dǎo)獨有的技術(shù)方法論。

語音實驗室語音合成組的楊明祺,就分享了一段經(jīng)歷。

在聽到降噪小組分享有關(guān)提高信噪比的最新技術(shù)時,語音合成組就想到,是否能將這樣的技術(shù)應(yīng)用到TTS上來。因為平時采集的訓(xùn)練樣本,錄制環(huán)境不一,音質(zhì)無法保證,而引入相關(guān)技術(shù),就能從數(shù)據(jù)層面來提升最終合成語音的質(zhì)量。

除此之外,作為一家在線教育公司,猿輔導(dǎo)有更豐富、更具體的落地場景,因此也就要比一般的技術(shù)公司更看重技術(shù)落地。

低延時直播,就是這樣一個例子。

市面上通用的直播技術(shù),可能有1-3秒、甚至更長的延時,對于直播帶貨這個場景下影響不大,但要是在教育教學(xué)上,學(xué)生和老師有著很強的互動需求,幾秒的延時就會影響教學(xué)體驗。

就比如,老師在課上提問,學(xué)生正在思考的時候,老師就已經(jīng)給出答案講下一個問題了。

因此,就需要將延時技術(shù)從3秒降到0.3秒,來維持課堂效果。

語音組馬楠也表示,

很多時候,一線的教學(xué)老師提出需求,研發(fā)人員就要想辦法結(jié)合最先進的技術(shù)來滿足。

所以平時看到一些新的論文、技術(shù)方案,也會想著能具體落到什么場景,能否配合一線老師教學(xué)。

也正因為看重落地的本質(zhì),他們隨時保持著Ready的狀態(tài)。

什么時候有新的需求,就想著法兒的用技術(shù)去滿足,也因此團隊成員們練就了能快速適應(yīng)業(yè)務(wù)轉(zhuǎn)型的本領(lǐng)。

馬楠說,他們這個語音合成組,大多本來不是這個專業(yè)的,比如有的成員過去是做搜索的,可以說都是逐漸摸索學(xué)習(xí)過來的。

現(xiàn)在他們從一個想法到Demo,只需要半個月到1個月的時間就可以達成。

因此,也不同于其他技術(shù)團隊的成就感,他們成就感的來源,更多是一線老師的反饋。

“比公開服務(wù)更好用”,就是他們接收到的最好的嘉獎。

隱藏在教育背后的技術(shù)實力

事實上,雖然外界對猿輔導(dǎo)的認(rèn)知更多地聚焦在“教育”上,但猿輔導(dǎo)從成立之初,就是一家把“技術(shù)”視作核心競爭力的公司。

在2014年,猿輔導(dǎo)就成立了AI Lab,是在線教育行業(yè)內(nèi)首個成立AI研究院的企業(yè)。

從業(yè)務(wù)上看,猿輔導(dǎo)旗下有:拍一下就能秒出解題思路的小猿搜題,用AI幫助老師、家長批改作業(yè)的小猿口算,利用AI打造智能學(xué)習(xí)模型的斑馬AI課……

其背后所需要的技術(shù)支持,不止于語音,還包括視覺、自然語言理解、音視頻等多個領(lǐng)域。

就用斑馬AI課來舉個例子好了。

斑馬AI課作為目前國內(nèi)面向?qū)W齡前兒童的最大在線課程學(xué)習(xí)平臺,最吸引人的一點就是能做到“因材施教”。

也就是說,不僅僅是根據(jù)小盆友的年紀(jì)簡單粗暴地劃分學(xué)習(xí)階段,而是讓孩子也能自適應(yīng)學(xué)習(xí)。

等等,自適應(yīng),這不是個教育AI模型的法子嗎?

 

其實是這么回事兒,以猿輔導(dǎo)百億級少兒語言行為大數(shù)據(jù)為基礎(chǔ),通過對孩子的語言行為進行分析,就能更加細致地了解到孩子當(dāng)前的學(xué)習(xí)情況,進而智能地調(diào)整課程的難度、“打怪”的路徑。上完網(wǎng)課,還能根據(jù)AI大數(shù)據(jù)分析,生成個性化的學(xué)習(xí)報告,及時反饋學(xué)習(xí)成果。

另外,就像之前提到的,通用模型在落地到更加垂直的場景中時,表現(xiàn)往往不盡如人意。比如小朋友咿咿呀呀的發(fā)音,就比常規(guī)的成人語音識別更加困難,需要有針對性地收集數(shù)據(jù)、優(yōu)化模型。

源于這樣的背景,目前,猿輔導(dǎo)已經(jīng)發(fā)展形成語音實驗室、視覺實驗室、自然語言理解實驗室、音視頻實驗室和基礎(chǔ)支撐五大實驗室。

而作為技術(shù)人員的馬楠也強調(diào):

對于我們的產(chǎn)品來說,前沿技術(shù)的支持并不是可有可無的,而是產(chǎn)品之所以能成立的核心原因。

以搜題為例,如果OCR的準(zhǔn)確率不夠高,搜得不夠準(zhǔn),用戶根本就不會選擇使用。

站在現(xiàn)在這個時間節(jié)點,從用戶選擇的角度來看,猿輔導(dǎo)已經(jīng)成為國內(nèi)網(wǎng)課用戶規(guī)模最大的在線教育公司。

而從技術(shù)驗證的層面來看,猿輔導(dǎo)曾先后在MS MARCO機器閱讀理解水平測試、斯坦福問答數(shù)據(jù)集兩項世界級NLP賽事中斬獲冠軍,如今也在語音等更多領(lǐng)域的世界賽事上嶄露頭角……

資本對其業(yè)務(wù)、技術(shù)的認(rèn)可,也已落在了具體的數(shù)字上:估值155億美金,是全球估值最高的在線教育獨角獸公司。

就在這樣的高速發(fā)展之中,體量越來越大的猿輔導(dǎo),在重視落地之外,也越來越看重“長期主義”。

馬楠就透露,現(xiàn)在在技術(shù)團隊內(nèi)部,有相當(dāng)一部分人力投入到了前沿技術(shù)的探索、攻關(guān)當(dāng)中。這類研發(fā)工作在短期看來不會立刻被用上,但公司認(rèn)為,從長期發(fā)展的角度來看,這些積累將成為猿輔導(dǎo)技術(shù)護城河的關(guān)鍵組成。

最后,再來總結(jié)一下,猿輔導(dǎo)究竟是一家什么樣的技術(shù)公司?

以在線教育之名,從每個具體場景出發(fā),將AI技術(shù)之力在各個產(chǎn)品中得以體現(xiàn)。

如果一項技術(shù)研發(fā)的很厲害但沒用上,對猿輔導(dǎo)來說是不太可能的。

因此可以說,猿輔導(dǎo)的AI更具有實用主義色彩。

曾經(jīng),中國的教育領(lǐng)域一度被認(rèn)為格局已成。但以猿輔導(dǎo)為代表的第三代教育科技公司,卻以黑馬之勢登上歷史舞臺,撕開了一條新的進擊之路。

背后的核心關(guān)鍵詞,正是技術(shù),正是AI。

而教育在AI等新一代技術(shù)驅(qū)動之下展現(xiàn)的潛力,或許才剛剛開始。

相關(guān)推薦