什么是大數(shù)據(jù)?為大數(shù)據(jù)分析優(yōu)化服務(wù)器

      世界上 90% 的數(shù)據(jù)是自 2016 年以來(lái)生成的。企業(yè)、政府機(jī)構(gòu)和消費(fèi)者生成的數(shù)據(jù)量繼續(xù)呈指數(shù)級(jí)增長(zhǎng)。根據(jù)市場(chǎng)情報(bào)公司 IDC的數(shù)據(jù),到 2020 年,全球存儲(chǔ)了超過(guò) 40 萬(wàn)億千兆字節(jié)的數(shù)據(jù)。

      企業(yè)及其客戶生成的大部分?jǐn)?shù)據(jù)都包含有價(jià)值的信息。但只有擁有分析大量數(shù)據(jù)的基礎(chǔ)設(shè)施、軟件和專業(yè)知識(shí)的公司才能提取該價(jià)值。在本文中,我們將了解什么是大數(shù)據(jù)以及企業(yè)用來(lái)從中提取有價(jià)值見(jiàn)解的軟件和硬件。

      什么是大數(shù)據(jù)?為大數(shù)據(jù)分析優(yōu)化服務(wù)器-南華中天

      什么是大數(shù)據(jù)?

      大數(shù)據(jù)沒(méi)有精確的技術(shù)定義。我們可能會(huì)將大數(shù)據(jù)視為超出企業(yè)在消費(fèi)者計(jì)算機(jī)和小型服務(wù)器上存儲(chǔ)和處理內(nèi)部能力的任何數(shù)據(jù)集合。對(duì)于小型企業(yè)來(lái)說(shuō)可能是幾 TB,對(duì)于大型企業(yè)組織來(lái)說(shuō)可能是很多 PB(1 PB 是 1,024 TB)。

      一種可能的定義是根據(jù)“五個(gè) V”對(duì)大數(shù)據(jù)進(jìn)行分類。它們是速度、數(shù)量、價(jià)值、多樣性和準(zhǔn)確性。容量是指有多少數(shù)據(jù)。速度是指數(shù)據(jù)生成的速度;大型企業(yè)每天可能產(chǎn)生數(shù) TB 的數(shù)據(jù)。多樣性是指大數(shù)據(jù)可能包含多種類型的數(shù)據(jù),通常是非結(jié)構(gòu)化的。

      企業(yè)收集盡可能多的數(shù)據(jù),希望對(duì)其進(jìn)行分析以獲得有用的見(jiàn)解。例如,他們可能希望對(duì)銷(xiāo)售數(shù)據(jù)執(zhí)行同期群分析,以發(fā)現(xiàn)哪些客戶群體具有最高的生命周期價(jià)值。為此,他們需要收集、轉(zhuǎn)換和分析盡可能多的銷(xiāo)售數(shù)據(jù)。

      什么是大數(shù)據(jù)分析的最佳工具?

      有許多專為加速大數(shù)據(jù)分析而設(shè)計(jì)的專業(yè)工具。他們高效地存儲(chǔ)數(shù)據(jù)并使用優(yōu)化算法(如 MapReduce)快速處理大量數(shù)據(jù)。它們經(jīng)過(guò)精心設(shè)計(jì),可以充分利用可用的硬件。

      最受歡迎的大數(shù)據(jù)工具包括:

      • Hadoop,一個(gè)分布式存儲(chǔ)和處理大量數(shù)據(jù)的框架。
      • Cassandra,最初由 Facebook 開(kāi)發(fā)的分布式 NoSQL 數(shù)據(jù)庫(kù)。
      • Apache Spark是一種分布式大數(shù)據(jù)處理框架,被金融機(jī)構(gòu)、電信公司、政府以及 Facebook 和 Google 等科技企業(yè)廣泛使用。
      • ElasticSearch,一種分布式搜索和分析引擎,用于從企業(yè)搜索引擎到基礎(chǔ)設(shè)施監(jiān)控和安全分析的一切。
      • Knime,一個(gè)包含機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘工具的數(shù)據(jù)分析平臺(tái)。

      也可以使用主流的關(guān)系數(shù)據(jù)庫(kù)工具,如 MySQL 和 PostgreSQL 進(jìn)行大數(shù)據(jù)分析,這取決于所涉及的數(shù)據(jù)量和類型。

      什么是大數(shù)據(jù)?為大數(shù)據(jù)分析優(yōu)化服務(wù)器-南華中天

      大數(shù)據(jù)集群與單服務(wù)器

      您可能已經(jīng)注意到,上一節(jié)中的工具描述通常包含“分布式”一詞。那是因?yàn)榇髷?shù)據(jù)工具期望部署在不止一臺(tái)服務(wù)器上。他們可以管理許多服務(wù)器的資源以快速處理大量數(shù)據(jù)。例如,Hadoop 明確設(shè)計(jì)為在數(shù)十個(gè)或數(shù)百個(gè)連接在一起的集群中的單獨(dú)服務(wù)器上運(yùn)行。

      但是,不會(huì)強(qiáng)制用戶在多個(gè)服務(wù)器上進(jìn)行部署。對(duì)于較小的大數(shù)據(jù)分析目的,一個(gè)功能強(qiáng)大的專用服務(wù)器可能就足夠了。還可以啟動(dòng)虛擬機(jī)集群以充當(dāng)高規(guī)格專用服務(wù)器上的 Hadoop 或 Cassandra 節(jié)點(diǎn)。許多企業(yè)將專用服務(wù)器集群匯集在一起??,作為私有云中的資源池。然后,他們可以有效地管理和分配基礎(chǔ)架構(gòu)資源,以在其私有云上啟動(dòng)多個(gè)大數(shù)據(jù)分析項(xiàng)目。企業(yè)大數(shù)據(jù)基礎(chǔ)架構(gòu)的最佳架構(gòu)取決于所涉及的數(shù)據(jù)量、可擴(kuò)展性和冗余性要求以及您將運(yùn)行的軟件。

      為大數(shù)據(jù)分析優(yōu)化服務(wù)器

      在為大數(shù)據(jù)分析選擇和優(yōu)化服務(wù)器時(shí),需要牢記幾個(gè)因素。

      • 您會(huì)將大量數(shù)據(jù)傳輸?shù)椒?wù)器進(jìn)行處理。
      • 如果您使用集群,則背板(服務(wù)器之間的連接)必須能夠處理大量數(shù)據(jù)。
      • 大數(shù)據(jù)工具針對(duì)并行執(zhí)行進(jìn)行了優(yōu)化,在每個(gè)服務(wù)器上使用多個(gè)線程并在多個(gè)服務(wù)器之間分配工作。
      • 許多大數(shù)據(jù)工具(盡管不是全部)都針對(duì)內(nèi)存處理進(jìn)行了優(yōu)化,這通常比基于磁盤(pán)的處理要快得多。

      沒(méi)有適用于大數(shù)據(jù)的通用服務(wù)器托管解決方案。成本和能力的理想交集取決于每個(gè)項(xiàng)目的具體情況。但是我們可以在這里給出一些一般性的指導(dǎo)。

      什么是大數(shù)據(jù)?為大數(shù)據(jù)分析優(yōu)化服務(wù)器-南華中天

      網(wǎng)絡(luò)

      您將向服務(wù)器寫(xiě)入大量數(shù)據(jù),通常來(lái)自第三方服務(wù)或數(shù)據(jù)中心。如果網(wǎng)絡(luò)接口沒(méi)有足夠的容量,網(wǎng)絡(luò)可能成為瓶頸。如果您希望定期向服務(wù)器發(fā)送大量數(shù)據(jù),我們建議至少使用 1 Gbps 或更多。

      為了最大限度地降低數(shù)據(jù)成本,請(qǐng)選擇提供接近您期望傳輸?shù)臄?shù)據(jù)量的自定義帶寬包的提供商。我們提供從每月 20 TB 到每月 1000 TB 不等的套餐,為具有大量數(shù)據(jù)傳輸需求的客戶提供不限帶寬。

      貯存

      您的服務(wù)器應(yīng)該有足夠的存儲(chǔ)空間來(lái)存儲(chǔ)您打算分析的數(shù)據(jù),并有足夠的緩沖區(qū)來(lái)存儲(chǔ)分析過(guò)程中生成的中間數(shù)據(jù)??焖俅鎯?chǔ)是更可取的,但通常不需要為服務(wù)器配備數(shù) TB 的 SSD 存儲(chǔ)。旋轉(zhuǎn)硬盤(pán)驅(qū)動(dòng)器速度較慢且價(jià)格較低,但可能足以滿足您的目的。

      您選擇哪種取決于您的數(shù)據(jù)的特定要求,但您必須能夠存儲(chǔ)您希望在每個(gè)時(shí)期分析的所有數(shù)據(jù)。Spark 和 Hadoop 都適用于多個(gè)驅(qū)動(dòng)器。

      記憶

      就 RAM 而言,越多越好。大數(shù)據(jù)分析應(yīng)用程序?qū)⑾谋M可能多的 RAM。Spark 和 Couchbase 等工具更喜歡在內(nèi)存中進(jìn)行計(jì)算,如果它們不必因?yàn)閮?nèi)存不足而讀寫(xiě)存儲(chǔ),那么處理速度會(huì)快得多。

      對(duì)于生產(chǎn)工作負(fù)載,最好使用 64 GB 或更多的服務(wù)器,盡管沒(méi)有通用公式。考慮到您的預(yù)期工作量和預(yù)算,我們的顧問(wèn)可以為您提供適當(dāng)數(shù)量的 RAM 的建議。

      什么是大數(shù)據(jù)?為大數(shù)據(jù)分析優(yōu)化服務(wù)器-南華中天

      處理器

      Spark 等大數(shù)據(jù)分析工具將處理劃分到多個(gè)線程,這些線程在機(jī)器的可用內(nèi)核中并行執(zhí)行。例如,Spark 建議每臺(tái)服務(wù)器至少有 8-16 個(gè)核心,并且根據(jù)負(fù)載可能需要更多。針對(duì)更多核心進(jìn)行優(yōu)化比針對(duì)數(shù)量較少但功能更強(qiáng)大的核心進(jìn)行優(yōu)化會(huì)帶來(lái)更好的性能。

      總之

      大數(shù)據(jù)分析服務(wù)器的理想規(guī)格取決于您的業(yè)務(wù)需要分析的數(shù)據(jù)量和速度。我們的服務(wù)器托管平臺(tái)提供范圍廣泛的自定義選項(xiàng),因此您可以選擇最適合您的需求和預(yù)算的服務(wù)器或服務(wù)器集群。要與我們的服務(wù)器托管專家討論哪種服務(wù)器托管適合您的大數(shù)據(jù)分析項(xiàng)目,請(qǐng)?jiān)诖隧?yè)面的聊天窗口中開(kāi)始對(duì)話,或通過(guò)電話或電子郵件聯(lián)系我們進(jìn)行免費(fèi)的初步咨詢。