• 正文
    • 數(shù)字山河,需要怎樣的大數(shù)據(jù)之湖?
    • 開啟紀(jì)元,騰訊云的多米諾骨牌
    • 向文明進(jìn)發(fā):數(shù)據(jù)能源的里程碑
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

從火星的古海洋,讀懂藍(lán)星的數(shù)據(jù)湖之變

2021/05/20
66
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

大家想必都聽說了天問一號探測器“祝融號”成功在火星著陸的消息。在它傳回的家書中,提到科學(xué)家們?yōu)樽约哼x擇的著陸地,火星的烏托邦平原,可能是一個(gè)古海洋所在地,地形平緩,確保了安全性。

當(dāng)我們將目光投回到身處的這顆“藍(lán)星”,也時(shí)時(shí)面臨著需要為產(chǎn)業(yè)要素選擇著陸地——比如說大數(shù)據(jù)。

相比傳統(tǒng)的數(shù)據(jù)倉庫架構(gòu),數(shù)據(jù)湖(Data Lake)已經(jīng)成為數(shù)字化進(jìn)程中,對現(xiàn)代企業(yè)和組織極具吸引力的大數(shù)據(jù)“著陸地”。

簡單來說,數(shù)據(jù)湖指的是如同湖泊一樣,將各種業(yè)務(wù)及軟硬件中源源不斷產(chǎn)生的各類數(shù)據(jù),全部容納其中。

AI+云的大趨勢下,數(shù)據(jù)湖還可以與機(jī)器學(xué)習(xí)等相結(jié)合,指導(dǎo)企業(yè)進(jìn)行效率優(yōu)化及智能決策;與云計(jì)算結(jié)合,利用云服務(wù)彈性擴(kuò)展、靈活部署、高可用高可靠、按使用量付費(fèi)等特點(diǎn),打造出投資回報(bào)更高的大數(shù)據(jù)解決方案。

如果說烏托邦平原是探測火星的絕佳地點(diǎn),那么數(shù)據(jù)湖就是承載企業(yè)數(shù)據(jù)資產(chǎn)的最佳場所。

目前來看,數(shù)據(jù)湖有巨大的想象空間,也吸引著各大云廠商下足功夫,AWS、微軟、谷歌等都推出了各自的數(shù)據(jù)湖產(chǎn)品。

5月13日,騰訊云也首次對外展示完整云端數(shù)據(jù)湖產(chǎn)品圖譜,并推出兩款“開箱即用”數(shù)據(jù)湖產(chǎn)品,數(shù)據(jù)湖計(jì)算服務(wù)DLC和數(shù)據(jù)湖構(gòu)建DLF。

相比單一產(chǎn)品或服務(wù),在騰訊云的數(shù)據(jù)湖版圖中,可以看到概念的“拓維”:云原生智能數(shù)據(jù)湖,對產(chǎn)業(yè)來說意味著什么?圖譜式的產(chǎn)品矩陣,能給企業(yè)帶來哪些價(jià)值?“開箱即用”會(huì)給數(shù)據(jù)湖及數(shù)字化進(jìn)程帶來什么影響?

我們以數(shù)據(jù)湖的需求與挑戰(zhàn)為開端,來探秘騰訊云帶來的“致用紀(jì)元”。

數(shù)字山河,需要怎樣的大數(shù)據(jù)之湖?

先回答一個(gè)疑問,什么樣的企業(yè)需要數(shù)據(jù)湖?答案是,所有。

IDC報(bào)告顯示,到2025年全球數(shù)據(jù)總量將超過160ZB。數(shù)字化進(jìn)程中,對大數(shù)據(jù)的管理與應(yīng)用已經(jīng)成為企業(yè)的競爭要素之一。飛速增長的數(shù)據(jù)規(guī)模自然也需要新的數(shù)據(jù)存儲策略,數(shù)據(jù)湖的特殊之處在于:

所有數(shù)據(jù)可以一直保存,不管是實(shí)時(shí)使用的,還是可能永遠(yuǎn)不會(huì)被使用的,不僅讓單位存儲成本更低,也讓任意時(shí)間點(diǎn)的數(shù)據(jù)回溯與分析成為可能;

所有類型可以全部容納。無論是定量指標(biāo)的結(jié)構(gòu)化數(shù)據(jù),還是傳感器、社交網(wǎng)絡(luò)、圖像視頻等等多樣化數(shù)據(jù)源的非結(jié)構(gòu)化數(shù)據(jù);

所有用戶可以得到支持。在數(shù)據(jù)湖中,所有數(shù)據(jù)都以原始形式存儲,需要使用數(shù)據(jù)的人可以快速找到數(shù)據(jù)源的單一位置,避免了數(shù)據(jù)孤島、數(shù)據(jù)重復(fù)、協(xié)作困難等問題。

此外,數(shù)據(jù)湖也易于適應(yīng)變化。數(shù)據(jù)倉庫的開發(fā)和更改都需要花費(fèi)大量的時(shí)間,消耗開發(fā)人員資源。而在云端部署的數(shù)據(jù)湖,可以根據(jù)企業(yè)業(yè)務(wù)需求靈活擴(kuò)展,比傳統(tǒng)方案具有更大的靈活性,最大限度地減少雇傭?qū)I(yè)數(shù)據(jù)運(yùn)維團(tuán)隊(duì)的支出。

Aberdeen 的一項(xiàng)調(diào)查表明,實(shí)施數(shù)據(jù)湖的組織比同類公司在收入增長方面高出 9%。

看到這里,是不是已經(jīng)心動(dòng)想要拿起電話訂購了?別急!并不是將所有數(shù)據(jù)一股腦丟進(jìn)湖中就大功告成了。

正如Gartner分析師尼克·休德克所說,將數(shù)據(jù)湖看做是大數(shù)據(jù)項(xiàng)目的靈丹妙藥,是一個(gè)謬論,數(shù)據(jù)湖是一個(gè)概念,而不是一種技術(shù)。

也就是說,企業(yè)在引入數(shù)據(jù)湖時(shí),要注重從搭建、效益到應(yīng)用的整體平衡。

比如,如果沒有適當(dāng)?shù)墓ぞ撸瑪?shù)據(jù)湖可能會(huì)遭遇數(shù)據(jù)可靠性的問題,出現(xiàn)數(shù)據(jù)損壞、臟數(shù)據(jù)等等,讓數(shù)據(jù)科學(xué)家、AI工程師難以利用數(shù)據(jù)進(jìn)行推理,或是訓(xùn)練出不準(zhǔn)確的業(yè)務(wù)模型;

再比如,一直往數(shù)據(jù)湖里面存儲數(shù)據(jù),而缺乏數(shù)據(jù)治理及應(yīng)用輸出,就會(huì)形成“數(shù)據(jù)沼澤”,隨著時(shí)間的推移變得混亂、低質(zhì)量;

最關(guān)鍵的是,目前市場上大多數(shù)數(shù)據(jù)湖產(chǎn)品都在強(qiáng)調(diào)對數(shù)據(jù)的存儲及計(jì)算,在具體業(yè)務(wù)場景之中究竟該怎樣去應(yīng)用數(shù)據(jù)湖,并沒有清晰一致的答案。不解決技術(shù)的致用問題,就會(huì)讓很多企業(yè)望而卻步。

這種局面該怎么辦?中國人的智慧早有提示,流水不腐戶樞不蠹,比起挖坑引水的“單向湖”,從山川河流的源頭、湖泊的常規(guī)治理,再到流向產(chǎn)業(yè)田野的應(yīng)用,這樣的一整套數(shù)據(jù)湖解決方案,顯然更符合產(chǎn)業(yè)用戶的期待。

開啟紀(jì)元,騰訊云的多米諾骨牌

技術(shù)產(chǎn)業(yè)周期的開啟,從來不是一蹴而就的。云原生的數(shù)據(jù)湖,需要在存儲、計(jì)算、應(yīng)用等層面解決諸多挑戰(zhàn)才能完成。

而騰訊云首次披露的云端數(shù)據(jù)湖產(chǎn)品矩陣,就是這樣一套組合式的產(chǎn)品,包括了數(shù)據(jù)湖存儲、數(shù)據(jù)湖算力調(diào)度、數(shù)據(jù)湖大數(shù)據(jù)分析、數(shù)據(jù)湖AI能力、數(shù)據(jù)湖應(yīng)用、云上基礎(chǔ)服務(wù)等六個(gè)層面,如同一副多米諾骨牌,將企業(yè)應(yīng)用數(shù)據(jù)湖過程中可能遇到的階段性問題一一推倒。

我們可以從三個(gè)層面來看騰訊云數(shù)據(jù)湖的新紀(jì)元打開:

1.數(shù)據(jù)底座。

數(shù)據(jù)湖的本質(zhì)是為企業(yè)乃至全社會(huì)的數(shù)字化轉(zhuǎn)型提供堅(jiān)實(shí)可靠的數(shù)據(jù)基礎(chǔ)設(shè)施架構(gòu),對高性能、高安全、高可靠、低成本等綜合實(shí)力提出了高要求。

對此,騰訊云數(shù)據(jù)湖在整個(gè)數(shù)據(jù)生命周期都進(jìn)行了周全的設(shè)計(jì)。在存儲層,以對象存儲COS服務(wù)為核心,理論上可以存儲任意規(guī)模的異構(gòu)數(shù)據(jù),也支持將其他云端數(shù)據(jù)設(shè)施,為企業(yè)打消后顧之憂;

(騰訊云原生智能數(shù)據(jù)湖產(chǎn)品圖譜)

在數(shù)據(jù)分析層,既提供半托管的泛Hadoop服務(wù),滿足用戶自定義需求,也提供全托管的數(shù)據(jù)服務(wù),便于用戶獲取海量數(shù)據(jù)的洞察力。

此外,用戶還可利用騰訊云提供的數(shù)據(jù)協(xié)作工具對計(jì)算服務(wù)進(jìn)行編排和調(diào)用,提升企業(yè)數(shù)據(jù)的便捷性和敏捷度。

2.智能源頭。

今天,企業(yè)選擇數(shù)據(jù)湖的考量與上云有著異曲同工之處,那就是為業(yè)務(wù)增長引入AI能力,達(dá)到提質(zhì)增效的目的。騰訊云也沒有令人失望,給出了一系列助力數(shù)據(jù)智能的解決方案。

比如在算力調(diào)度上,基于騰訊云彈性容器服務(wù)EKS,開放的容器化的分析架構(gòu)讓數(shù)據(jù)分析功能可組合性更強(qiáng),擴(kuò)展性更強(qiáng),降低企業(yè)訓(xùn)練AI、應(yīng)用AI的綜合成本;

此外,騰訊云數(shù)據(jù)湖也提供豐富的AI服務(wù),為圖像處理、音頻處理、自然語言處理、視頻處理等提供有力的數(shù)據(jù)支撐,當(dāng)企業(yè)想要引入這些音視頻能力時(shí),更加簡單快捷。

3.致用工具。

和所有新技術(shù)一樣,數(shù)據(jù)湖的最終評價(jià)標(biāo)準(zhǔn)是要落進(jìn)現(xiàn)實(shí)。這就需要降低企業(yè)應(yīng)用門檻,讓技術(shù)價(jià)值能夠從真實(shí)業(yè)務(wù)場景中生長出來。

為此,騰訊云在數(shù)據(jù)湖產(chǎn)品圖譜中,推出了企業(yè)畫像、聯(lián)邦計(jì)算、商業(yè)智能分析等數(shù)據(jù)應(yīng)用服務(wù),企業(yè)直接選擇自身所需要的能力,就可以把數(shù)據(jù)湖應(yīng)用構(gòu)建起來。

同時(shí),通過數(shù)據(jù)湖計(jì)算(Data Lake Compute,簡稱DLC)和數(shù)據(jù)湖構(gòu)建(Data Lake Formation ,簡稱DLF)這樣“開箱即用”的產(chǎn)品,降低企業(yè)應(yīng)用數(shù)據(jù)湖的難度。相比于本地自建大數(shù)據(jù)集群,基于這兩款產(chǎn)品,數(shù)據(jù)湖構(gòu)建時(shí)間減少了60%,數(shù)據(jù)分析計(jì)算性能提升35.5%。

這樣一步步推導(dǎo),也就連成了“從入湖到出湖”端到端的完整鏈路,也清晰地指出了騰訊云數(shù)據(jù)湖所帶來的差異化價(jià)值:希望借數(shù)據(jù)湖產(chǎn)品圖譜,引領(lǐng)數(shù)據(jù)湖進(jìn)入“致用紀(jì)元”,與數(shù)字山河相映照。

向文明進(jìn)發(fā):數(shù)據(jù)能源的里程碑

1964年,蘇聯(lián)天文學(xué)家尼古拉·卡爾達(dá)肖夫提出理論,根據(jù)一個(gè)文明所能夠利用的能源量級,來量度文明層次及技術(shù)先進(jìn)程度。

按照等級劃分,地球目前正處于0.73級左右,還沒有達(dá)到利用行星本身所擁有的能量規(guī)模。

換個(gè)角度思考,大數(shù)據(jù),何嘗不也是這顆藍(lán)色星球上的新興能源,讓智能更快、產(chǎn)業(yè)更優(yōu)、經(jīng)濟(jì)動(dòng)力更強(qiáng),對數(shù)據(jù)的利用與開發(fā)也將助推一國數(shù)字文明的加速發(fā)展。

正如同“祝融號”標(biāo)志著中國人開始走出地球“搖籃”,騰訊云數(shù)據(jù)湖產(chǎn)品圖譜也為智能時(shí)代的大數(shù)據(jù)管存用提供了一個(gè)全新的選擇:在業(yè)內(nèi)首先提出了“圖譜式數(shù)據(jù)湖產(chǎn)品”,從數(shù)據(jù)入湖時(shí)怎樣存、算,到在湖中如何分析與應(yīng)用,滿足用戶的所有需求。這不正是產(chǎn)業(yè)一直在期待的數(shù)據(jù)“能源開采裝置”嗎?

這時(shí)候我們會(huì)想問,為什么率先打出連招的中國云廠商會(huì)是騰訊云?有三個(gè)背景是不可忽略的。

首先,騰訊自身龐大且多元的業(yè)務(wù)體系,無時(shí)無刻不在產(chǎn)生著大量的非結(jié)構(gòu)化信息,這時(shí)就需要數(shù)據(jù)湖技術(shù)去解決數(shù)據(jù)分散、重復(fù)數(shù)據(jù)等問題,正是在騰訊新聞等諸多內(nèi)部場景中孵化,打磨到一定程度之后,將相應(yīng)能力開放給產(chǎn)業(yè)客戶,可謂是恰逢其時(shí)。

第二,來自騰訊云的基礎(chǔ)服務(wù)與技術(shù)積累,比如前文提到的能幫助用戶快速構(gòu)建企業(yè)數(shù)據(jù)湖技術(shù)架構(gòu)的數(shù)據(jù)湖構(gòu)建(DLF)產(chǎn)品,所提供的統(tǒng)一元數(shù)據(jù)管理與湖構(gòu)建能力,就需要在數(shù)據(jù)規(guī)模很大的時(shí)候也能實(shí)現(xiàn)高性能的訪問,來讓數(shù)據(jù)存儲、計(jì)算等速度更快,這就依賴于騰訊云在云服務(wù)領(lǐng)域的技術(shù)壁壘,為數(shù)據(jù)湖體系提供了保障。

最后,正如騰訊云大數(shù)據(jù)專家所說,要深入業(yè)務(wù)場景才會(huì)發(fā)現(xiàn)鮮活的痛點(diǎn),方案要落在各行各業(yè)、不同企業(yè)客戶的實(shí)際場景中去。

事實(shí)上,成功的數(shù)據(jù)湖采用者大都是使用“業(yè)務(wù)回頭”的方法,即先確定業(yè)務(wù)可以從數(shù)據(jù)湖中獲得的最大價(jià)值情境,然后將這些場景納入到解決方案中,再逐步填充數(shù)據(jù)。這就需要做大量定制開發(fā)工作,考驗(yàn)著云廠商的企業(yè)服務(wù)能力與意識,也是今天數(shù)字化轉(zhuǎn)型中最難的一道關(guān)卡。

在這方面,我們看到騰訊云直指現(xiàn)實(shí)需求和應(yīng)用場景,將采用決定權(quán)交給業(yè)務(wù),與客戶的技術(shù)人員一起梳理核心需求,最終選擇更適合自己的方案。騰訊云數(shù)據(jù)湖產(chǎn)品之所以率先選擇向“技術(shù)致用”延伸,或許正來自于這一份對業(yè)務(wù)的尊重。

范仲淹曾形容洞庭湖“浩浩蕩蕩,橫無際涯”,也是今天企業(yè)面對數(shù)據(jù)洪潮的現(xiàn)實(shí)寫照。

對于數(shù)據(jù)湖這類新技術(shù)的出現(xiàn),也容易出現(xiàn)了兩種截然相反的情緒:過度質(zhì)疑,會(huì)令企業(yè)躊躇不前,錯(cuò)過超越競爭者的機(jī)遇;過于樂觀,又會(huì)導(dǎo)致對困難缺乏充足的估計(jì)。

或許更理性的態(tài)度應(yīng)該是,和科技企業(yè)攜手,一起去探索并撬動(dòng)未知,駛向氣象萬千的數(shù)字文明。

騰訊

騰訊

騰訊于1998年11月成立,是一家互聯(lián)網(wǎng)公司,通過技術(shù)豐富互聯(lián)網(wǎng)用戶的生活,助力企業(yè)數(shù)字化升級。我們的使命是“用戶為本 科技向善”。Founded in 1998, Tencent is an Internet-based platform company using technology to enrich the lives of Internet users and assist the digital upgrade of enterprises. Our mission is "Value for Users, Tech for Good".

騰訊于1998年11月成立,是一家互聯(lián)網(wǎng)公司,通過技術(shù)豐富互聯(lián)網(wǎng)用戶的生活,助力企業(yè)數(shù)字化升級。我們的使命是“用戶為本 科技向善”。Founded in 1998, Tencent is an Internet-based platform company using technology to enrich the lives of Internet users and assist the digital upgrade of enterprises. Our mission is "Value for Users, Tech for Good".收起

查看更多

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計(jì)資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄