最近,公司、機(jī)構(gòu)、政府和消費(fèi)者在很大程度上已經(jīng)接受了收集交易細(xì)節(jié)并將其存儲(chǔ)為數(shù)據(jù)的需求。隨著更多事務(wù)的發(fā)生,存儲(chǔ)數(shù)據(jù)的大小也隨之增加。這些數(shù)據(jù)大多數(shù)時(shí)候累積到超出公司正常存儲(chǔ)容量的大小,使得處理和使用變得困難,但是,這個(gè)挑戰(zhàn)是在大數(shù)據(jù)優(yōu)化中處理的。怎么看。

什么是大數(shù)據(jù)?
盡管“大數(shù)據(jù)”一詞是相對(duì)的,因此沒有直接定義“大數(shù)據(jù)”一詞,但大數(shù)據(jù)可以指任何超過消費(fèi)端和小型服務(wù)器的存儲(chǔ)和處理能力的數(shù)據(jù)集合。對(duì)于小型企業(yè)來說,少量的 TB 可以稱為“大數(shù)據(jù)”,而對(duì)于大型企業(yè)來說,大數(shù)據(jù)的定義可能超過 1 PB,1 PB 是 1024 TB 的數(shù)據(jù)。
大數(shù)據(jù)也可以根據(jù)以下五個(gè)標(biāo)準(zhǔn)來考慮:
- 速度;在此標(biāo)準(zhǔn)中,數(shù)據(jù)按收集速度進(jìn)行分類。多年來網(wǎng)絡(luò)和硬件的技術(shù)進(jìn)步確保了企業(yè)同時(shí)收集數(shù)據(jù)的速度提高。
- 值得; 價(jià)值是指收集到的數(shù)據(jù)中的價(jià)值。企業(yè)可能會(huì)存儲(chǔ)大量信息,這些信息可能有助于決策。雖然收集所有相關(guān)信息更安全,但應(yīng)進(jìn)行審查以確定收集哪些數(shù)據(jù),以及收集的數(shù)據(jù)是否有助于分析后的決策。
- 種類; 多樣性是指收集的數(shù)據(jù)的不同形式。多樣化的大數(shù)據(jù)可以是結(jié)構(gòu)化的,也可以是非結(jié)構(gòu)化的。結(jié)構(gòu)化數(shù)據(jù)包括電話號(hào)碼、客戶的電子郵件地址等信息,而非結(jié)構(gòu)化數(shù)據(jù)可能采用評(píng)論產(chǎn)品的文章形式。
- 可信度;這是指對(duì)數(shù)據(jù)的真實(shí)性/可信度的質(zhì)量,收集大數(shù)據(jù)是徒勞的,經(jīng)過分析后無法依賴。
- 尺寸; 大小處理收集的信息量。大數(shù)據(jù)的大小因所收集數(shù)據(jù)的性質(zhì)而異。例如,從電影托管網(wǎng)絡(luò)服務(wù)器收集的大數(shù)據(jù)很可能比從小型企業(yè)收集的大數(shù)據(jù)。

什么是大數(shù)據(jù)分析的最佳工具?
借助為此目的制造的某些工具,可以高效、快速地完成大數(shù)據(jù)分析。這些工具利用高效的存儲(chǔ)系統(tǒng)和特定算法在短時(shí)間內(nèi)分析大量數(shù)據(jù)。分析大數(shù)據(jù)的一些最佳工具是:
- 阿帕奇星火;主要由基于技術(shù)的企業(yè)、政府、電信公司和金融機(jī)構(gòu)使用。它是一個(gè)分布式處理大數(shù)據(jù)的框架。
- 卡桑德拉;最初由社交媒體巨頭 Facebook 開發(fā),它是一個(gè) NoSQL 分布式數(shù)據(jù)庫。
- 彈性搜索;它具有廣泛的用途,從監(jiān)控基礎(chǔ)設(shè)施到企業(yè)的搜索引擎。它作為一個(gè)搜索和分析引擎,也是分布式的。
- 刀;它包括使用數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)工具的數(shù)據(jù)分析機(jī)制。
從數(shù)據(jù)的類型和數(shù)量來看,可以使用流行的關(guān)系數(shù)據(jù)庫工具,如 PostgreSQL 和 MySQL 來分析大數(shù)據(jù)。
大數(shù)據(jù)集群與單服務(wù)器
實(shí)際上,用于分析大數(shù)據(jù)的工具有望在多臺(tái)服務(wù)器上共享。他們利用多臺(tái)服務(wù)器中的資源立即處理大量數(shù)據(jù)。例如,Hadoop 旨在利用集群中鏈接的數(shù)十或數(shù)百個(gè)單一服務(wù)器。然而,用戶不會(huì)被迫使用多個(gè)專用服務(wù)器。在為小型企業(yè)分析大數(shù)據(jù)時(shí),一臺(tái)可靠且功能強(qiáng)大的專用服務(wù)器就足夠了。

在高規(guī)格的專用服務(wù)器上,可以使用虛擬機(jī)集群來替換 Hadoop 節(jié)點(diǎn)等工具。許多公司將單獨(dú)的專用服務(wù)器集群連接起來,以生成他們的私有云,將所有資源集中到一個(gè)點(diǎn)上。這有助于他們有效地組織和分配資源,以在私有云上進(jìn)行多項(xiàng)大數(shù)據(jù)分析。在集群和單機(jī)之間,最適合您企業(yè)的大數(shù)據(jù)結(jié)構(gòu)取決于相關(guān)數(shù)據(jù)量,大小是否可調(diào),是否有冗余組件,以及要使用的軟件。
為分析優(yōu)化服務(wù)器大數(shù)據(jù)
在為分析大數(shù)據(jù)選擇和優(yōu)化專用服務(wù)器時(shí),有一些因素需要考慮:將要處理的大量數(shù)據(jù)傳輸?shù)椒?wù)器的前景,如果要使用集群,作為服務(wù)器之間鏈接的背板必須能夠持久地保存大量數(shù)據(jù),通常用于直接執(zhí)行優(yōu)化的工具采用每臺(tái)服務(wù)器上有許多線程并在許多服務(wù)器之間共享工作,一些大數(shù)據(jù)工具經(jīng)過優(yōu)化以處理“內(nèi)存中”數(shù)據(jù),這恰好比基于磁盤的數(shù)據(jù)處理速度更快。
盡管在處理大數(shù)據(jù)時(shí),專用服務(wù)器托管不存在一個(gè)足夠的解決方案。但是,以下指南將幫助您規(guī)劃大數(shù)據(jù)管理系統(tǒng)。
網(wǎng)絡(luò):大多數(shù)時(shí)候,您的服務(wù)器會(huì)從數(shù)據(jù)中心或第三方接收大量數(shù)據(jù)。如果服務(wù)器沒有足夠的容量來保存數(shù)據(jù),則可能會(huì)出現(xiàn)網(wǎng)絡(luò)不穩(wěn)定的情況。如果要頻繁向服務(wù)器發(fā)送大量數(shù)據(jù),則建議最低級(jí)別為 1 Gbps。
為了減少高額支出,請(qǐng)光顧一個(gè)專門的服務(wù)器主機(jī)提供商,它可以為您提供可以承載您將要傳輸?shù)臄?shù)據(jù)負(fù)載的帶寬包。實(shí)際上有您需要解決我們不同的專用服務(wù)器容量供您使用。

記憶:大 RAM 容量總是有益的。像 Couchbase 這樣的工具將在內(nèi)存中進(jìn)行處理,如果它們由于 RAM 不足而無法讀取和寫入存儲(chǔ),這將很快。分析大數(shù)據(jù)的應(yīng)用程序?qū)⑹冀K使用盡可能多的 RAM 和可用空間。在處理生產(chǎn)任務(wù)時(shí),首選具有 64 GB 或更多 RAM 容量的專用服務(wù)器,但這不是一個(gè)靜態(tài)規(guī)則。
存儲(chǔ):最好您的服務(wù)器有足夠的空間來分析您的數(shù)據(jù)。理想的空間是足夠的,以便占用分析過程中創(chuàng)建的額外數(shù)據(jù)。最好擁有快速存儲(chǔ),但并不總是需要使用 SSD 存儲(chǔ)為您的專用服務(wù)器存儲(chǔ) TB。還建議使用旋轉(zhuǎn)硬盤驅(qū)動(dòng)器,雖然速度慢且成本不高,但它們?nèi)匀豢梢詽M足您的存儲(chǔ)需求。
處理器:Spark 等工具將處理任務(wù)分散到多個(gè)線程中。這些任務(wù)在機(jī)器的核心上并行執(zhí)行。Spark 將使用至少具有 8 到 16 個(gè)內(nèi)核的服務(wù)器,但這可能會(huì)根據(jù)它正在處理的負(fù)載大小而增加。使用多個(gè)內(nèi)核將比使用少量更強(qiáng)大的內(nèi)核更好地提高性能。






