丁香婷婷深情五月亚洲_日本一区二区三区在线播放_91精品国产综合久久精品图片_久久精品不卡

百科創建
13.6K
3940

Spark計算引擎

為大規模數據處理而設計的快速通用的計算引擎。

Spark計算引擎是美國加利福尼亞大學伯克利分校的算法、機器和人(algorithms machines and people,AMP)實驗室所開源的Hadoop映射-化簡(MapReduce)的通用并行框架。Spark擁有MapReduce所具有的優點,不同于MapReduce的是其工作中間輸出結果可以保存在內存中,從而不再需要讀寫Hadoop分布式文件系統(Hadoop distributed file system,HDFS),因此Spark能更好地適用于數據挖掘與機器學習等需要迭代的MapReduce的算法。

Spark的核心概念是彈性分布式數據集(resilient distributed datasets,RDD)。從本質上來說,RDD是分布式內存的一個抽象概念,RDD提供了一種高度受限的共享內存模型,即RDD是只讀的記錄分區的集合,只能通過在其他RDD執行確定的轉換操作而創建,然而這些限制使得實現容錯的開銷很低。對開發者而言,RDD可以看作是Spark的一個對象,它本身運行于內存中,如讀文件是一個RDD,對文件計算是一個RDD,結果集也是一個RDD,不同的分片、數據之間的依賴、鍵值類型的映射數據都可以看作RDD。

Spark已經形成了較為完整的生態圈,其中包括:Spark Core是Spark的核心應用程序接口(application program interface,API),實現了很多基本的RDD轉換操作;Spark SQL是Spark針對結構化數據的API,能夠使SQL對結構化數據進行標準分析;Spark Streaming是Spark針對流數據的API,可以實現對大規模數據流以元組為單位低延遲的處理;Spark MLib是Spark針對機器學習任務的API,可以有效地進行大規模迭代計算;Spark GraphX是Spark針對圖數據的API。

3940

免責聲明:本站詞條系由網友創建、編輯和維護,內容僅供參考。

以上內容均為商業內容展示,僅供參考,不具備專業問題解決服務,

如果您需要解決具體問題(尤其在法律、醫學等領域),建議您咨詢相關領域的專業人士。

如您發現詞條內容涉嫌侵權,請通過 948026894@qq.com 與我們聯系進行刪除處理!

一秒推
主站蜘蛛池模板: 龙井市| 仁化县| 盐边县| 石景山区| 普洱| 泸州市| 怀远县| 竹北市| 石首市| 临邑县| 新兴县| 凤台县| 仪陇县| 海门市| 三原县| 台东县| 建湖县| 伊川县| 左贡县| 台山市| 长子县| 册亨县| 寿光市| 石景山区| 新邵县| 灯塔市| 环江| 星子县| 墨玉县| 时尚| 通州区| 荥阳市| 平乐县| 辉县市| 平乐县| 利津县| 阳城县| 益阳市| 全南县| 华坪县| 高唐县|