亚洲在线日韩伦理片,96精品国产AⅤ一区二区,青鸟影视网,yy黄色频道,国内精品久久久精品AV电影院

湖倉一體:揭秘數據湖架構現代化之道

IBM China
2023-07-17 16:14 3974

作(zuo)者:Hebert W. Pereyra,IBM 杰出工程師,Hybrid Data Management首(shou)席架構師

譯(yi)者:劉俊 ,IBM watsonx.data開發架構師

北京2023年7月(yue)17日 /美通社(she)/ -- 數(shu)據(ju)(ju)(ju)(ju)湖誕生(sheng)至今已有十多年的歷史,為全球(qiu)一(yi)些最大(da)(da)(da)的企業提(ti)供了數(shu)據(ju)(ju)(ju)(ju)分析的支持。然(ran)而,也有人認為,絕大(da)(da)(da)多數(shu)數(shu)據(ju)(ju)(ju)(ju)湖部署已經演變(bian)成(cheng)為"數(shu)據(ju)(ju)(ju)(ju)沼澤"。不論(lun)你站在(zai)哪一(yi)邊(bian),現(xian)實情況是(shi),這些系(xi)統中仍然(ran)承載著大(da)(da)(da)量的數(shu)據(ju)(ju)(ju)(ju)。這些數(shu)據(ju)(ju)(ju)(ju)規模龐大(da)(da)(da),使得(de)移(yi)動、遷移(yi)或對其(qi)進行現(xian)代(dai)化都變(bian)得(de)異常(chang)困(kun)難。

數據湖的巨大挑戰:單一結構的架構問題

從(cong)較高層次來看,是一個大(da)規模(mo)的單一數據存儲庫。數據可以以原(yuan)始形式(shi)存儲,也可以經(jing)過優化(hua),采用適合專(zhuan)用引擎使用的不同格(ge)式(shi)。

就Hadoop而言,它是最受歡迎的(de)數據(ju)(ju)(ju)湖之一,通(tong)過(guo)(guo)使用(yong)開源軟(ruan)件(jian)實現該存(cun)儲(chu)庫,并在(zai)通(tong)用(yong)硬件(jian)上運行,可以(yi)以(yi)非常(chang)低的(de)成本在(zai)系統(tong)中存(cun)儲(chu)大量數據(ju)(ju)(ju)。數據(ju)(ju)(ju)可以(yi)以(yi)開放的(de)數據(ju)(ju)(ju)格式進行持久(jiu)化(hua),從(cong)而實現了數據(ju)(ju)(ju)消(xiao)費的(de)民主化(hua),并通(tong)過(guo)(guo)自動(dong)復(fu)(fu)制(zhi)提供(gong)了高(gao)可用(yong)性的(de)支持。默認(ren)的(de)處(chu)理框架具備從(cong)故(gu)障中恢復(fu)(fu)的(de)能(neng)力。這無疑是與傳統(tong)分(fen)析(xi)環境(jing)有(you)著(zhu)顯(xian)著(zhu)差異的(de)重要轉變(bian),傳統(tong)數據(ju)(ju)(ju)分(fen)析(xi)環境(jing)往往意味著(zhu)供(gong)應(ying)商鎖定以(yi)及無法處(chu)理大規模(mo)數據(ju)(ju)(ju)。

另一個出(chu)乎(hu)意料(liao)的(de)挑戰是將(jiang)Spark引入作為(wei)大數(shu)(shu)據處(chu)理框(kuang)架。由于其支持數(shu)(shu)據轉換、流式處(chu)理和SQL,它(ta)迅速獲得了廣泛的(de)認可。然(ran)而,它(ta)并未能與現有的(de)數(shu)(shu)據湖環境友好共存(cun),因(yin)此通(tong)常需要額外的(de)專用計算集群才能運行Spark。

我們將時(shi)間前移(yi)15年回到(dao)當下,現實(shi)已(yi)經清楚地表明了這(zhe)(zhe)項(xiang)技術所涉及(ji)的(de)(de)(de)權衡和(he)妥協。其快速的(de)(de)(de)采(cai)用(yong)意味著(zhu)(zhu)客戶很快失去了對數據(ju)(ju)(ju)湖中(zhong)數據(ju)(ju)(ju)的(de)(de)(de)追蹤。同樣具有挑(tiao)戰的(de)(de)(de)是,他們無法確定數據(ju)(ju)(ju)的(de)(de)(de)來(lai)源(yuan)、獲取方(fang)(fang)式(shi)以及(ji)在處(chu)理過程中(zhong)的(de)(de)(de)轉換(huan)(huan)方(fang)(fang)式(shi)。仍然是這(zhe)(zhe)項(xiang)技術中(zhong)尚(shang)未探索的(de)(de)(de)領域。雖(sui)然軟件可能是開(kai)源(yuan)的(de)(de)(de),但需要(yao)有人(ren)學習(xi)如何使(shi)用(yong)、維護和(he)支(zhi)持(chi)它。僅依賴社區支(zhi)持(chi)并(bing)不能持(chi)續滿足(zu)業務運(yun)營(ying)所需的(de)(de)(de)響應時(shi)間。高可用(yong)性(xing)通過復(fu)制實(shi)現則(ze)意味著(zhu)(zhu)需要(yao)更多磁盤(pan)上(shang)的(de)(de)(de)數據(ju)(ju)(ju)副本(ben),增(zeng)加存儲成本(ben),并(bing)導致故障更加頻繁。而高可用(yong)的(de)(de)(de)分布式(shi)處(chu)理框架(jia)則(ze)意味著(zhu)(zhu)不得不在性(xing)能方(fang)(fang)面做出妥協,以換(huan)(huan)取彈(dan)性(xing)(這(zhe)(zhe)將導致交互(hu)式(shi)分析和(he)商業智能的(de)(de)(de)性(xing)能嚴重下降)。

為何要對數據湖進行現代化?

數據(ju)湖(hu)在(zai)特定的(de)(de)使用場景中已經被證(zheng)明是成(cheng)功的(de)(de)。然而清(qing)楚的(de)(de)是,企業迫切需(xu)要(yao)對這些部署進行現代化,保護基(ji)礎設(she)施、技能和存儲在(zai)這些系統中的(de)(de)數據(ju)的(de)(de)投資。

在尋找答案的(de)(de)過程(cheng)中(zhong),行業研(yan)究(jiu)了現(xian)有(you)的(de)(de)數(shu)據(ju)平臺技術及(ji)其優(you)(you)勢。很明顯,有(you)效的(de)(de)方法是將傳統的(de)(de)(或者說是遺留(liu)的(de)(de))數(shu)據(ju)倉(cang)庫或數(shu)據(ju)集市的(de)(de)關鍵特性與數(shu)據(ju)湖的(de)(de)優(you)(you)勢結合起來。以下幾個關鍵要素(su)迅速浮出(chu)水面:

  • 具備彈性和可擴展的存儲,能夠滿足日益增長的數據規模需求。
  • 采用開放的數據格式,使數據對所有人都可訪問,同時針對高性能進行優化,并具備良好定義的結構。
  • 開放的元數據(可共享),能夠支持多個消費引擎或框架。
  • 支持數據更新(ACID特性)和事務并發處理。
  • 綜合的數據安全和數據治理(如數據血緣、完整的數據訪問策略定義和執行,包括地理分布)。

上述要素導致了的出現。湖倉一體是一種數據平臺,是將數據倉庫和數據湖的優點融合在一起,形成統一、協調的數據管理解決方案

利用watsonx.data來現代化數據湖的好處


站在當下數據分析的十字路(lu)口,IBM的回應是為企(qi)業提供watsonx.data解決(jue)方案。

站在當(dang)下數(shu)據(ju)分(fen)析(xi)的十字路口,IBM的回應是(shi)為企業提供(gong)解(jie)決方案,這(zhe)是(shi)一(yi)個用于(yu)大規模(mo)數(shu)據(ju)管理(li)的新(xin)型開放式數(shu)據(ju)存(cun)儲(chu),允許(xu)企業在無需遷移的情況下圍繞、增強和(he)(he)現代化其(qi)現有(you)的數(shu)據(ju)湖(hu)和(he)(he)數(shu)據(ju)倉庫。它(ta)支(zhi)持開放式的多云(yun)(yun)與混(hun)合云(yun)(yun),可以在客戶管理(li)的基礎設(she)施(shi)(本地或者私有(you)云(yun)(yun))和(he)(he)公有(you)云(yun)(yun)上(shang)運行(xing)。它(ta)建立在湖(hu)倉一(yi)體(ti)架構(gou)之上(shang),并嵌入了一(yi)整(zheng)套解(jie)決方案(以及通用軟件堆(dui)棧(zhan)),適用于(yu)所有(you)形(xing)態(tai)。

與市場上的競品相比,IBM的方(fang)法基于(yu)開源(yuan)堆(dui)棧和架構(gou)。這些組(zu)(zu)件(jian)并不是新的,而是業界(jie)已經(jing)廣泛(fan)使(shi)(shi)用(yong)的成熟(shu)組(zu)(zu)件(jian)。IBM關注它們的互操作性、共存性和元數據(ju)交換。用(yong)戶可以快(kuai)速(su)入門(men),從(cong)而大(da)大(da)降低了入門(men)和使(shi)(shi)用(yong)的成本,因為(wei)其(qi)上層架構(gou)和基礎概念是大(da)家熟(shu)悉且直觀的:

  • 通過對象存儲實現開放的數據(和表格格式)
  • 通過S3進行數據訪問
  • 使用Presto和Spark進行查詢計算(SQL、數據科學、轉換和流處理)
  • 通過Hive和兼容結構實現開放的元數據共享

Watsonx.data為企(qi)業提供(gong)了一種保護(hu)他們在數據湖和數據倉(cang)庫(ku)數十(shi)年投資的(de)方式,使(shi)企(qi)業可(ke)立即(ji)擴展并逐步現代化其安裝(zhuang),將每個組件專注于對企(qi)業最(zui)重要的(de)使(shi)用場景(jing)。

一個關鍵的差異化因素是多引擎 策略,允許用戶在(zai)統一的(de)數(shu)據平臺上根據實(shi)際情況選(xuan)擇適合(he)的(de)技術。watsonx.data使客戶能夠實(shi)現完全(quan)動(dong)態(tai)的(de)分層存儲(以及(ji)相(xiang)關(guan)的(de)計算)。隨著(zhu)時間(jian)的(de)推移,這可以帶(dai)來非常顯著(zhu)的(de)數(shu)據管理和(he)處理的(de)成本節省。

如果最終企業的目標是通過湖倉一體架構來現代化現有的數據湖部署,那么watsonx.data則通過(guo)選擇計算方式來最小化數據遷移和應用遷移,從而簡(jian)化了任務。

接下來可以做什么?

在過去的幾年(nian)里,數(shu)據(ju)湖在大多數(shu)企業的數(shu)據(ju)管理策略中發揮了重(zhong)要作(zuo)用。如(ru)果企業的目(mu)標(biao)是(shi)對(dui)其數(shu)據(ju)管理策略進行(xing)演進并現代(dai)化為(wei)真正的混合分析云(yun)架(jia)構(gou)(gou),那么IBM基于湖倉一(yi)體架(jia)構(gou)(gou)構(gou)(gou)建(jian)的新型數(shu)據(ju)存儲watsonx.data,則是(shi)值得企業考慮的技(ji)術選(xuan)擇。

相關資料:

  1. 點擊下載電子書:《為 AI而設的數據存儲》:
  2. 點擊閱讀 IBM watsonx.data 解決方案簡介:
  3. 瀏覽 watsonx.data 的產品頁面了解更多:

關于IBM
IBM 是(shi)全球領先的(de)(de)混(hun)合云(yun)(yun)、人(ren)工智(zhi)能及企(qi)業(ye)服(fu)務(wu)(wu)提供(gong)商,幫助超過 175 個(ge)國家(jia)和(he)(he)地區的(de)(de)客戶,從(cong)其(qi)擁(yong)有的(de)(de)數據中獲取商業(ye)洞察,簡(jian)化業(ye)務(wu)(wu)流程(cheng),降(jiang)低成本(ben),并獲得行業(ye)競(jing)爭(zheng)優勢。金融(rong)服(fu)務(wu)(wu)、電(dian)信和(he)(he)醫(yi)療健康等(deng)關鍵(jian)基礎設施領域的(de)(de)超過 4000 家(jia)政(zheng)府和(he)(he)企(qi)業(ye)實體依靠 IBM 混(hun)合云(yun)(yun)平臺和(he)(he) Red Hat OpenShift 快速、高效、安(an)全地實現數字(zi)化轉(zhuan)型。IBM 在(zai)人(ren)工智(zhi)能、量子計算、行業(ye)云(yun)(yun)解決方案和(he)(he)企(qi)業(ye)服(fu)務(wu)(wu)方面的(de)(de)突破性(xing)創新為我們(men)的(de)(de)客戶提供(gong)了開放和(he)(he)靈活的(de)(de)選擇。對企(qi)業(ye)誠信、透明治理、社會責任(ren)、包(bao)容文化和(he)(he)服(fu)務(wu)(wu)精神的(de)(de)長期承諾是(shi) IBM 業(ye)務(wu)(wu)發展的(de)(de)基石。了解更多信息,請(qing)訪問:

媒體聯絡人:
郭韜 

 

消息來源:IBM China
全球TMT
微信公眾號“全球TMT”發布全球互聯網、科技、媒體、通訊企業的經營動態、財報信息、企業并購消息。掃描二維碼,立即訂閱!
collection