當前位置:趣味科普網>經驗>

大資料為什麼要選擇Spark

經驗 閱讀(5.58K)

大資料為什麼要選擇Spark

Spark是一個基於記憶體計算的開源叢集計算系統,目的是更快速的進行資料分析。Spark由加州伯克利大學AMP實驗室Matei為主的小團隊使用Scala開發,其核心部分的程式碼只有63個Scala檔案,非常輕量級。Spark提供了與 Hadoop相似的開源叢集計算環境,但基於記憶體和迭代優化的設計,Spark在某些工作負載表現更優秀。SPARK是一種安全的、經正式定義的程式設計語言,它被設計用來支援一些安全或商業整合為關鍵因素的應用軟體的設計。從高的層面來看,其實每一個Spark的應用,都是一個Driver類,通過執行使用者定義的main函式,在叢集上執行各種併發操作和計算Spark提供的最主要的抽象,是一個彈性分散式資料集,它是一種特殊集合,可以分佈在叢集的節點上,以函數語言程式設計操作集合的方式,進行各種各樣的併發操作。