組織數(shù)字化轉(zhuǎn)型的第一步是將其數(shù)據(jù)生態(tài)系統(tǒng)和企業(yè)數(shù)據(jù)從傳統(tǒng)的本地數(shù)據(jù)中心或倉庫遷移到云端。云數(shù)據(jù)平臺就是這些資源遷移到的地方,允許企業(yè)創(chuàng)建一個可以隨時隨地訪問的數(shù)據(jù)湖。借助這種“民主化”數(shù)據(jù),可以快速攝取結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)以增強分析能力。該平臺還可以隨著數(shù)據(jù)和分析需求的變化而快速擴展。

企業(yè)為什么要使用云數(shù)據(jù)平臺?
通過使用云數(shù)據(jù)平臺,企業(yè)可以更輕松地利用其數(shù)據(jù)。它允許從遠程和本地的任何位置管理、保護和查看數(shù)據(jù)。這些虛擬數(shù)據(jù)平臺提供本地數(shù)據(jù)倉庫的可靠性和物理硬件無法比擬的經(jīng)濟性。組織使用這些平臺來獲得更加靈活的數(shù)據(jù)交換,從而實現(xiàn)更明智的業(yè)務(wù)決策。
云數(shù)據(jù)平臺彈性
云數(shù)據(jù)平臺比本地數(shù)據(jù)平臺更具彈性,并提供對平臺上托管數(shù)據(jù)的集成視圖。這些平臺可以全面觀察在其上運行的所有內(nèi)容,包括 CPU 和內(nèi)存利用率,以及洞察正在運行的查詢以及如何優(yōu)化它們。數(shù)據(jù)存儲在集群中,通過觀察實際工作負載行為,企業(yè)可以擴大或縮小集群以避免容量未充??分利用。
遷移到云數(shù)據(jù)平臺
CIO 經(jīng)常發(fā)現(xiàn)很難預(yù)測其企業(yè)的峰值使用量,因此他們很可能會過度配置數(shù)據(jù)倉庫以避免性能問題。因此,對數(shù)據(jù)資源進行現(xiàn)代化改造并將其轉(zhuǎn)移到可以快速擴展的云數(shù)據(jù)平臺的案例顯然是有益的。然而,許多 CIO 不愿放棄六年來在本地運行和維護工作負載的經(jīng)驗。為了掌握數(shù)據(jù),企業(yè)需要對可能切換到云數(shù)據(jù)平臺的情況進行成本效益分析。從根本上說,他們需要決定遷移和新許可證的成本是否超過過度配置和長期運營的成本。

云數(shù)據(jù)平臺的架構(gòu)是怎樣的?
典型的數(shù)據(jù)平臺由處理數(shù)據(jù)管理不同方面的多個組件組成。該架構(gòu)分為:
- 數(shù)據(jù)沿襲
- 數(shù)據(jù)安全和審計日志記錄
- 元數(shù)據(jù)、業(yè)務(wù)詞匯表、數(shù)據(jù)目錄和數(shù)據(jù)搜索
- 存儲和計算
- 數(shù)據(jù)治理
- 數(shù)據(jù)質(zhì)量和數(shù)據(jù)信任
云本身允許用戶解耦數(shù)據(jù)平臺的所有組件,這有助于企業(yè)擴展應(yīng)用程序并避免受限于任何供應(yīng)商的專有工具。大多數(shù)云數(shù)據(jù)平臺提供商將計算和存儲分開,以實現(xiàn)更好的數(shù)據(jù)控制和敏捷性。
數(shù)據(jù)首先導入,然后在數(shù)據(jù)管道中清理。在存儲方面,云數(shù)據(jù)平臺將數(shù)據(jù)分為兩層:一層用于“熱”數(shù)據(jù),另一層用于“冷”數(shù)據(jù)。第一層是內(nèi)存,存放數(shù)據(jù)索引和最常訪問的數(shù)據(jù)。第二層是本地磁盤,或持久化磁盤(通常是固態(tài)磁盤),通常是基本的云 對象存儲。該層通常提供較慢的性能。
為了存儲數(shù)據(jù),云數(shù)據(jù)平臺首先將更新寫入最快的內(nèi)存層,然后復制到云對象存儲層,以幫助提高整體性能。熱數(shù)據(jù)層在查詢時從冷數(shù)據(jù)層拉取數(shù)據(jù),并在非常深的粒度級別查看數(shù)據(jù),從而簡化了獲得關(guān)鍵業(yè)務(wù)洞察力的途徑。
云數(shù)據(jù)平臺的優(yōu)點和缺點是什么?
隨著工作負載的波動和非結(jié)構(gòu)化數(shù)據(jù)量的持續(xù)增加,實現(xiàn) IT 現(xiàn)代化的壓力越來越大。然而,組織需要仔細考慮是否以及如何將云基礎(chǔ)設(shè)施(例如云數(shù)據(jù)平臺)納入其 IT 生態(tài)系統(tǒng)。

優(yōu)點
- 靈活性:隨著數(shù)據(jù)和分析需求的發(fā)展,云數(shù)據(jù)平臺可以快速輕松地擴展容量。
- 可見性:云數(shù)據(jù)平臺快速攝取結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),從而實現(xiàn)更快的分析。
- 訪問:將資源移動到云端有助于創(chuàng)建數(shù)據(jù)湖,使數(shù)據(jù)民主化并隨時隨地共享。
- 適當規(guī)模的成本:與其為過度配置的系統(tǒng)付費,使用云數(shù)據(jù)平臺及其基于消費的模型允許企業(yè)只為他們使用的東西付費,因為他們使用它。
缺點
- 利用率:隨著工作負載轉(zhuǎn)移到云端,數(shù)據(jù)中心的利用率可以從滿負荷迅速變?yōu)槿种h除單個服務(wù)器刷新周期將創(chuàng)建該場景。
- 復雜性:轉(zhuǎn)移工作負載會增加 IT 運營的復雜性——由于業(yè)務(wù)優(yōu)先級或投資組合和工作負載轉(zhuǎn)移的變化,根據(jù)具體情況做出增加/減少的決定。
- 合規(guī)壓力增加:數(shù)據(jù)隱私和數(shù)據(jù)駐留法規(guī)不斷發(fā)展,使得移動工作負載的需求不斷變化。
云數(shù)據(jù)平臺如何使用?
云數(shù)據(jù)平臺的彈性特性使其成為響應(yīng)不斷變化的工作負載、業(yè)務(wù)目標和市場的理想工具。但企業(yè)究竟如何使用它們呢?閱讀下面的一些用例:
- 數(shù)據(jù)整合:分析師不使用多個電子表格和其他平面文件數(shù)據(jù)源,而是使用云數(shù)據(jù)平臺來構(gòu)建“數(shù)據(jù)集市”。他們可以在那里輕松加載和優(yōu)化來自多個來源的數(shù)據(jù),以進行分析和獲得可操作的見解。
- 運營洞察力:云數(shù)據(jù)平臺上的數(shù)據(jù)可以輕松地與業(yè)務(wù)關(guān)鍵型應(yīng)用程序集成,提供一種簡單的方法來將結(jié)果進行運營并反饋到應(yīng)用程序中,以實現(xiàn)數(shù)據(jù)驅(qū)動的決策。
- 多功能分析:數(shù)據(jù)分析師都有自己喜歡的工具,尤其 是與固定數(shù)據(jù)平臺不兼容的開源工具。云數(shù)據(jù)平臺提供全面的互操作性,使訂閱者能夠插入自己的工具并在平臺內(nèi)使用它們。這樣,他們可以在需要時將洞察力遷移到另一個工具,并防止供應(yīng)商鎖定。
- 流數(shù)據(jù)處理:云數(shù)據(jù)平臺結(jié)合了數(shù)據(jù)湖和數(shù)據(jù)倉庫的能力來處理流數(shù)據(jù)和其他非結(jié)構(gòu)化企業(yè)數(shù)據(jù),從而實現(xiàn) 機器學習(ML)。






