![]() |
VOOZH | about |
在當下紅紅火火的經濟中,作為一個優秀的程序猿有8個大數據處理程式語言你不得不知道。當需要對巨大的數據集中進行篩選時,你們都知道最好的工具是什麼。魔據推薦8個程序猿必備的大數據處理程式語言。
1.JavaJava,以及基於Java的框架,被發現儼然成為了矽谷最大的那些高科技公司的骨骼支架。你會發現,Java是所有數據工程基礎設施的基礎語言。如果你移動到過去的原型製作並需要建立大型系統,那麼Java往往是你的最佳選擇。
2.R語言在語言名單中,R語言的地位相當之高,自1997年以來,作為昂貴的統計軟體,如Matlab和SAS的免費替代品,它漸漸風靡全球。在過去的幾年時間中,R語言已經成為了數據科學的寵兒——數據科學現在不僅僅在統計學家中人盡皆知,而且也為華爾街交易員、生物學家、矽谷開發者所家喻戶曉。
3.Python可以說Python是R語言的兄弟。作為一種結合了R語言快速對複雜數據進行挖掘並構建產品的更實用語言,Python迅速得到了主流的吸引力。Python是直觀的,並且比R語言更易於學習,以及它的生態系統近年來急劇增長,使得它更能夠用於先前為R語言保留的統計分析。在數據處理中,在規模和複雜性之間往往會有一個權衡,於是Python成為了一種折中方案。豐富的數據社區,也是Python的優勢,因為可以提供了大量的工具包和功能。
4.Hadoop一群基於Java的工具被開發出來以滿足數據處理的巨大需求。Hadoop作為首選的基於Java的框架用於批處理數據已經點燃了大家的熱情。Hadoop比其他一些處理工具慢,但它出奇地準確,因此被廣泛用於後端分析。
5.HiveHive,一個基於查詢並且運行在頂部的框架,可以和Hadoop很好地結對工作。
6.ScalaScala是另一種基於Java的語言,並且和Java相同的是,它正日益成為大規模機器學習或構建高層次算法的工具。它富有表現力,並且還能夠構建健壯的系統。「Java就像是建造時的鋼鐵,而Scala則像黏土,因為你可以將之放入窯內轉變成鋼鐵。」Driscoll說。
7.Kafka那麼,當你需要快速實時地分析時又該怎麼辦呢?Kafka會成為你的好朋友。它大概5年前就已經出現了,但是直到最近才成為流處理的流行框架。Kafka,誕生於LinkedIn內部,是一個超快速的查詢消息系統。8.StormStorm是用Scala編寫的另一個框架,它在矽谷中因為流處理而受到了大量的青睞。它被Twitter納入其中,勿庸置疑的,這樣一來,Twitter就能在快速事件處理中得到巨大的裨益。