Sunday, Apr 12, 2026

23個適合Java開發者的大數據工具和框架

2017/02/17 來源：前端交流

目前，編程人員面對的最大挑戰就是複雜性，硬體越來越複雜，OS越來越複雜，程式語言和API越來越複雜，我們構建的應用也越來越複雜。根據外媒的一項調查報告，以下列出了Java程式設計師在過去12個月內一直使用的一些工具或框架，或許會對你有意義。

👁 Image
...

先來看看大數據的概念。根據維基百科，大數據是龐大或複雜的數據集的廣義術語，因此傳統的數據處理程序不足以支持如此龐大的體量。

在許多情況下，使用SQL資料庫存儲/檢索數據都是很好的選擇。而現如今的很多情況下，它都不再能滿足我們的目的，這一切都取決於用例的變化。

現在來討論一些不同的非SQL存儲/處理數據工具，例如，NoSQL資料庫，全文搜尋引擎，實時流式處理，圖形資料庫等。

1、MongoDB--最受歡迎的，跨平台的，面向文檔的資料庫。

MongoDB是一個基於分布式文件存儲的資料庫，使用C++語言編寫。旨在為Web應用提供可擴展的高性能數據存儲解決方案。應用性能高低依賴於資料庫性能，MongoDB則是非關係資料庫中功能最豐富，最像關係資料庫的，隨著MongDB 3.4版本發布，其應用場景適用能力得到了進一步拓展。

👁 Image
...

MongoDB的核心優勢就是靈活的文檔模型、高可用複製集、可擴展分片集群。你可以試著從幾大方面了解MongoDB，如實時監控MongoDB工具、內存使用量和頁面錯誤、連接數、資料庫操作、複製集等。

2、Elasticsearch --為雲構建的分布式RESTful搜尋引擎。

ElasticSearch是基於Lucene的搜索伺服器。它提供了分布式多用戶能力的全文搜尋引擎，基於RESTful web接口。Elasticsearch是用Java開發的，並作為Apache許可條款下的開放源碼發布，是比較流行的企業級搜尋引擎。

👁 Image
...

ElasticSearch不僅是一個全文本搜尋引擎，還是一個分布式實時文檔存儲，其中每個field均是被索引的數據且可被搜索;也是一個帶實時分析功能的分布式搜尋引擎，並且能夠擴展至數以百計的伺服器存儲及處理PB級的數據。ElasticSearch在底層利用Lucene完成其索引功能，因此其許多基本概念源於Lucene。

3、Cassandra--開源分布式資料庫管理系統，最初是由Facebook開發的，旨在處理許多商品伺服器上的大量數據，提供高可用性，沒有單點故障。

Apache Cassandra是一套開源分布式NoSQL資料庫系統。集Google BigTable的數據模型與Amazon Dynamo的完全分布式架構於一身。於2008開源，此後，由於Cassandra良好的可擴展性，被Digg、Twitter等Web 2.0網站所採納，成為了一種流行的分布式結構化數據存儲方案。

👁 Image
...

因Cassandra是用Java編寫的，所以理論上在具有JDK6及以上版本的機器中都可以運行，官方測試的JDK還有OpenJDK 及Sun的JDK。 Cassandra的操作命令，類似於我們平時操作的關係資料庫，對於熟悉MySQL的朋友來說，操作會很容易上手。

4、Redis --開源(BSD許可)內存數據結構存儲，用作資料庫，緩存和消息代理。

👁 Image
...

Redis是一個開源的使用ANSI C語言編寫的、支持網絡、可基於內存亦可持久化的日誌型、Key-Value資料庫，並提供多種語言的API。Redis 有三個主要使其有別於其它很多競爭對手的特點：Redis是完全在內存中保存數據的資料庫，使用磁碟只是為了持久性目的; Redis相比許多鍵值數據存儲系統有相對豐富的數據類型; Redis可以將數據複製到任意數量的從伺服器中。

5、Hazelcast --基於Java的開源內存數據網格。

Hazelcast 是一種內存數據網格 in-memory data grid，提供Java程式設計師關鍵任務交易和萬億級內存應用。雖然Hazelcast沒有所謂的『Master』，但是仍然有一個Leader節點(the oldest member)，這個概念與ZooKeeper中的Leader類似，但是實現原理卻完全不同。同時，Hazelcast中的數據是分布式的，每一個member持有部分數據和相應的backup數據，這點也與ZooKeeper不同。

👁 Image
...

Hazelcast的應用便捷性深受開發者喜歡，但如果要投入使用，還需要慎重考慮。

6、EHCache--廣泛使用的開源Java分布式緩存。主要面向通用緩存、Java EE和輕量級容器。

EhCache 是一個純Java的進程內緩存框架，具有快速、精幹等特點，是Hibernate中默認的CacheProvider。主要特性有：快速簡單，具有多種緩存策略;緩存數據有兩級，內存和磁碟，因此無需擔心容量問題;緩存數據會在虛擬機重啟的過程中寫入磁碟;可以通過RMI、可插入API等方式進行分布式緩存;具有緩存和緩存管理器的偵聽接口;支持多緩存管理器實例，以及一個實例的多個緩存區域;提供Hibernate的緩存實現。

7、Hadoop --用Java編寫的開源軟體框架，用於分布式存儲，並對非常大的數據集進行分布式處理。

👁 Image
...

用戶可以在不了解分布式底層細節的情況下，開發分布式程序。充分利用集群進行高速運算和存儲。Hadoop實現了一個分布式文件系統(Hadoop Distributed File System)，簡稱HDFS。Hadoop的框架最核心的設計就是：HDFS和MapReduce。HDFS為海量的數據提供了存儲，MapReduce則為海量的數據提供了計算。

8、Solr --開源企業搜索平台，用Java編寫，來自Apache Lucene項目。

Solr是一個獨立的企業級搜索應用伺服器，它對外提供類似於Web-service的API接口。用戶可以通過http請求，向搜尋引擎伺服器提交一定格式的XML文件，生成索引;也可以通過Http Get操作提出查找請求，並得到XML格式的返回結果。

與ElasticSearch一樣，同樣是基於Lucene，但它對其進行了擴展，提供了比Lucene更為豐富的查詢語言，同時實現了可配置、可擴展並對查詢性能進行了優化。

9、Spark --Apache Software Foundation中最活躍的項目，是一個開源集群計算框架。

Spark 是一種與 Hadoop 相似的開源集群計算環境，但是兩者之間還存在一些不同之處，這些不同之處使 Spark 在某些工作負載方面表現得更加優越，換句話說，Spark 啟用了內存分布數據集，除了能夠提供交互式查詢外，它還可以優化疊代工作負載。

👁 Image
...

Spark 是在 Scala 語言中實現的，它將 Scala 用作其應用程式框架。與 Hadoop 不同，Spark 和 Scala 能夠緊密集成，其中的 Scala 可以像操作本地集合對象一樣輕鬆地操作分布式數據集。

10、Memcached --通用分布式內存緩存系統。

Memcached是一套分布式快取系統，當初是Danga Interactive為了LiveJournal所發展的，但被許多軟體(如MediaWiki)所使用。Memcached作為高速運行的分布式緩存伺服器，具有以下的特點：協議簡單，基於libevent的事件處理，內置內存存儲方式。

11、Apache Hive --在Hadoop之上提供類似SQL的層。

👁 Image
...

Hive是一個基於Hadoop的數據倉庫平台。通過hive，可以方便地進行ETL工作。hive定義了一個類似於SQL的查詢語言，能夠將用戶編寫的SQL轉化為相應的Mapreduce程序基於Hadoop執行。目前，已經發布了Apache Hive 2.1.1 版本。

12、Apache Kafka --最初是由LinkedIn開發的高吞吐量，分布式訂閱消息系統。

👁 Image
...

Apache Kafka是一個開源消息系統項目，由Scala寫成。該項目的目標是為處理實時數據提供一個統一、高通量、低等待的平台。Kafka維護按類區分的消息，稱為主題(topic)。生產者(producer)向kafka的主題發布消息，消費者(consumer)向主題註冊，並且接收發布到這些主題的消息。kafka以一個擁有一台或多台伺服器的集群運行著，每一台伺服器稱為broker。

13、Akka --用於在JVM上構建高並發，分布式和彈性消息驅動應用程式的工具包。

👁 Image
...

Akka 是一個用 Scala 編寫的庫，用於簡化編寫容錯的、高可伸縮性的 Java 和 Scala 的 Actor 模型應用。它已經成功運用在電信行業，系統幾乎不會宕機。

14、HBase --開放原始碼，非關係型，分布式資料庫，採用Google的BigTable建模，用Java編寫，並在HDFS上運行。

👁 Image
...

與FUJITSU Cliq等商用大數據產品不同，HBase是Google Bigtable的開源實現，類似Google Bigtable利用GFS作為其文件存儲系統，HBase利用Hadoop HDFS作為其文件存儲系統;Google運行MapReduce來處理Bigtable中的海量數據，HBase同樣利用Hadoop MapReduce來處理HBase中的海量數據;Google Bigtable利用 Chubby作為協同服務，HBase利用Zookeeper作為對應。

15、Neo4j --在Java中實現的開源圖形資料庫。

👁 Image
...

Neo4j是一個高性能的NOSQL圖形資料庫，它將結構化數據存儲在網絡上而不是表中。它是一個嵌入式的、基於磁碟的、具備完全事務特性的Java持久化引擎。

16、CouchBase --開源分布式的NoSQL面向文檔資料庫，針對交互式應用程式進行了優化。

如果以前沒有NoSQL的使用經驗，那麼理解couchbase的時候關鍵有兩點：延後寫入和鬆散存儲。該產品基於Apache CouchDB，並整合了GeoCouch(一個基於Erlang、緊密集成的地理空間索引系統，可支持LBS應用)。

17、Apache Storm--開源分布式實時計算系統。

Apache Storm 是一個能近實時地在數據之上運行用戶代碼片段的流式數據處理框架。它實際上是一系列連在一起的管道。通常用於簡單的分析任務，諸如計算，以及清洗，使其常規化，並且準備攝入用於長期存儲的數據。

18、CouchDB--開源的面向文檔的NoSQL資料庫，使用JSON存儲數據。

CouchDB 是一個開源的面向文檔的資料庫管理系統，可以通過 RESTful JavaScript Object Notation (JSON) API 訪問。CouchDB落實到最底層的數據結構就是兩類B+Tree 。

19、Oracle Coherence--內存數據網格解決方案，通過提供對常用數據的快速訪問，使企業能夠可預測地擴展關鍵任務應用程式。

簡單來說，Coherence僅支持Java，.NET和C++ API三個版本，這三個都是面向對象的語言，這也說明Coherence和應用開發的親和性。

20、Titan--可擴展的圖形資料庫，優化用於存儲和查詢包含分布在多機集群上的數百億個頂點和邊的圖形。

👁 Image
...

支持不同的分布式存儲層：Cassandra 1.1和HBase 0.92。原生實現 Blueprints graph API，Gremlin graph traversal language，Frames graph-to-object mapper，Rexster graph server。

21、Amazon DynamoDB--快速，靈活的全面管理NoSQL的資料庫服務，適用於任何規模的要求一致性，單位毫秒延遲的應用程式。

Amazon DynamoDB 是一種完全託管的 NoSQL 資料庫服務，提供快速而可預測的性能，能夠實現無縫擴展。

22、Amazon Kinesis--AWS上的實時流式傳輸數據平台。

Web 應用程式、行動裝置、可穿戴設備、行業傳感器和許多軟體應用程式和服務都可能生成大量的流數據(有時達到每小時數 TB)，需要對其進行連續地收集、存儲和處理。Amazon Kinesis 就是針對這種需求產生的。

23、Datomic--完全事務，雲就緒，分布式資料庫，用Clojure編寫。

Datomic 是一個靈活的、基於時間因子的資料庫，支持聯合查詢，具有彈性的可擴展性以及支持ACID事務性。Datomic 提供高可用的、分布式存儲服務。

。

學習Java的同學注意了！！！

學習過程中遇到什麼問題或者想獲取學習資源的話，歡迎加入Java學習交流群，群號碼：392216227我們一起學Java！

喜歡這篇文章嗎？快分享吧

您可能感興趣

免責聲明：本文內容來源于前端交流，文章觀點不代表壹讀立場，如若侵犯到您的權益，或涉不實謠言，敬請向我們提出檢舉。

台灣正體

URL: https://read01.com/AAmPM0.html

⇱ 23個適合Java開發者的大數據工具和框架 - 壹讀

23個適合Java開發者的大數據工具和框架