標簽 ‘ spark官方文檔

《Spark 官方文檔》機器學習庫(MLlib)指南

spark-1.6.1

機器學習庫(MLlib)指南

MLlib是Spark的機器學習(ML)庫。旨在簡化機器學習的工程實踐工作,并方便擴展到更大規模。MLlib由一些通用的學習算法和工具組成,包括分類、回歸、聚類、協同過濾、降維等,同時還包括底層的優化原語和高層的管道API。

MLllib目前分為兩個代碼包:

  • spark.mllib?包含基于RDD的原始算法API。
  • spark.ml?則提供了基于DataFrames?高層次的API,可以用來構建機器學習管道。

《Spark官方文檔》Spark Streaming編程指南

spark-1.6.1?[原文地址]

Spark Streaming編程指南

概覽

 

Spark Streaming是對核心Spark API的一個擴展,它能夠實現對實時數據流的流式處理,并具有很好的可擴展性、高吞吐量和容錯性。Spark Streaming支持從多種數據源提取數據,如:Kafka、Flume、Twitter、ZeroMQ、Kinesis以及TCP套接字,并且可以提供一些高級API來表達復雜的處理算法,如:map、reduce、join和window等。最后,Spark Streaming支持將處理完的數據推送到文件系統、數據庫或者實時儀表盤中展示。實際上,你完全可以將Spark的機器學習(machine learning)?和 圖計算(graph processing)的算法應用于Spark Streaming的數據流當中。

spark streaming-arch 閱讀全文

《Spark 官方文檔》Spark SQL, DataFrames 以及 Datasets 編程指南

spark-1.6.0?[原文地址]

Spark SQL, DataFrames 以及 Datasets 編程指南

概要

Spark SQL是Spark中處理結構化數據的模塊。與基礎的Spark RDD API不同,Spark SQL的接口提供了更多關于數據的結構信息和計算任務的運行時信息。在Spark內部,Spark SQL會能夠用于做優化的信息比RDD API更多一些。Spark SQL如今有了三種不同的API:SQL語句、DataFrame API和最新的Dataset API。不過真正運行計算的時候,無論你使用哪種API或語言,Spark SQL使用的執行引擎都是同一個。這種底層的統一,使開發者可以在不同的API之間來回切換,你可以選擇一種最自然的方式,來表達你的需求。

 

本文中所有的示例都使用Spark發布版本中自帶的示例數據,并且可以在spark-shell、pyspark shell以及sparkR shell中運行。

閱讀全文

《Spark 官方文檔》Spark作業調度

spark-1.6.0?[原文地址]

Spark作業調度

概覽

Spark有好幾種計算資源調度的方式。首先,回憶一下集群模式概覽(cluster mode overview)中每個Spark應用(包含一個SparkContext實例)中運行了一些其獨占的執行器(executor)進程。集群管理器提供了Spark應用之間的資源調度(scheduling across applications)。其次,在各個Spark應用內部,各個線程可能并發地通過action算子提交多個Spark作業(job)。如果你的應用服務于網絡請求,那這種情況是很常見的。在Spark應用內部(對應同一個SparkContext)各個作業之間,Spark默認FIFO調度,同時也可以支持公平調度(fair scheduler)。
閱讀全文

《Spark 官方文檔》硬件配置

spark-1.6.0?[原文地址]

硬件配置

Spark開發者們常常被問到的一個問題就是:如何為Spark配置硬件。我們通常會給出以下的建議,但具體的硬件配置還依賴于實際的使用情況。
閱讀全文

《Spark 官方文檔》Spark安全性

spark-1.6.0?[原文地址]

Spark安全性

Spark目前已經支持以共享秘鑰的方式進行身份認證。開啟身份認證配置參數為 spark.authenticate 。這個配置參數決定了Spark通訊協議是否使用共享秘鑰做身份驗證。驗證過程就是一個基本的握手過程,確保通訊雙方都有相同的秘鑰并且可以互相通信。如果共享秘鑰不同,雙方是不允許通信的。共享秘鑰可用以下方式創建:

  • 對于以YARN?方式部署的Spark,將 spark.authenticate 設為true可以自動生成并分發共享秘鑰。每個Spark應用會使用唯一的共享秘鑰。
  • 而對于其他部署類型,需要在每個節點上設置 spark.authenticate.secret 參數。這個秘鑰將會在由所有 Master/Workers以及各個Spark應用共享。

閱讀全文

《Spark 官方文檔》Spark調優

spark-1.6.0?原文地址

Spark調優

由于大部分Spark計算都是在內存中完成的,所以Spark程序的瓶頸可能由集群中任意一種資源導致,如:CPU、網絡帶寬、或者內存等。最常見的情況是,數據能裝進內存,而瓶頸是網絡帶寬;當然,有時候我們也需要做一些優化調整來減少內存占用,例如將RDD以序列化格式保存(storing RDDs in serialized form)。本文將主要涵蓋兩個主題:1.數據序列化(這對于優化網絡性能極為重要);2.減少內存占用以及內存調優。同時,我們也會提及其他幾個比較小的主題。
閱讀全文

《Spark 官方文檔》Spark編程指南

spark-1.6.0 [原文地址]

Spark編程指南

概述

總體上來說,每個Spark應用都包含一個驅動器(driver)程序,驅動器運行用戶的main函數,并在集群上執行各種并行操作。

Spark最重要的一個抽象概念就是彈性分布式數據集(resilient distributed dataset – RDD),RDD是一個可分區的元素集合,其包含的元素可以分布在集群各個節點上,并且可以執行一些分布式并行操作。RDD通常是通過,HDFS(或者其他Hadoop支持的文件系統)上的文件,或者驅動器中的Scala集合對象,來創建或轉換得到;其次,用戶也可以請求Spark將RDD持久化到內存里,以便在不同的并行操作里復用之;最后,RDD具備容錯性,可以從節點失敗中自動恢復數據。

Spark第二個重要抽象概念是共享變量,共享變量是一種可以在并行操作之間共享使用的變量。默認情況下,當Spark把一系列任務調度到不同節點上運行時,Spark會同時把每個變量的副本和任務代碼一起發送給各個節點。但有時候,我們需要在任務之間,或者任務和驅動器之間共享一些變量。Spark提供了兩種類型的共享變量:廣播變量累加器,廣播變量可以用來在各個節點上緩存數據,而累加器則是用來執行跨節點的“累加”操作,例如:計數和求和。

本文將會使用Spark所支持的所有語言來展示Spark的特性。如果你能啟動Spark的交互式shell動手實驗一下,效果會更好(對scala請使用bin/spark-shell,而對于python,請使用bin/pyspark)。
閱讀全文

《Spark 官方文檔》Spark快速入門

spark-1.6.0?原文地址

快速入門

本教程是對Spark的一個快速簡介。首先,我們通過Spark的交互式shell介紹一下API(主要是Python或Scala),然后展示一下如何用Java、Scala、Python寫一個Spark應用。更完整參考看這里:programming guide

首先,請到Spark website下載一個Spark發布版本,以便后續方便學習。我們暫時還不會用到HDFS,所以你可以使用任何版本的Hadoop。

閱讀全文

《Spark 官方文檔》監控和工具

spark-1.6.0?原文地址

監控和工具

監控Spark應用有很多種方式:web UI,metrics 以及外部工具。

Web界面

每個SparkContext都會啟動一個web UI,其默認端口為4040,并且這個web UI能展示很多有用的Spark應用相關信息。包括:

  • 一個stage和task的調度列表
  • 一個關于RDD大小以及內存占用的概覽
  • 運行環境相關信息
  • 運行中的執行器相關信息

閱讀全文

《Spark 官方文檔》Spark配置

spark-1.6.0?原文地址

Spark配置

Spark有以下三種方式修改配置:

  • Spark properties?(Spark屬性)可以控制絕大多數應用程序參數,而且既可以通過?SparkConf?對象來設置,也可以通過Java系統屬性來設置。
  • Environment variables?(環境變量)可以指定一些各個機器相關的設置,如IP地址,其設置方法是寫在每臺機器上的conf/spark-env.sh中。
  • Logging?(日志)可以通過log4j.properties配置日志。

閱讀全文

《Spark 官方文檔》在YARN上運行Spark

spark-1.6.0?原文地址

在YARN上運行Spark

對?YARN (Hadoop NextGen)?的支持是從Spark-0.6.0開始的,后續的版本也一直持續在改進。

閱讀全文

《Spark 官方文檔》在Mesos上運行Spark

spark-1.6.0 [原文地址]

在Mesos上運行Spark

Spark可以在由Apache Mesos?管理的硬件集群中運行。

在Mesos集群中使用Spark的主要優勢有:

  • 可以在Spark以及其他框架(frameworks)之間動態劃分資源。
  • 可以同時部署多個Spark實例,且各個實例間的資源分配可以調整。

閱讀全文

《Spark 官方文檔》在Amazon EC2上運行Spark

Spark?1.6.0

在Amazon EC2上運行Spark

Spark的ec2目錄下有一個spark-ec2腳本,可以幫助你在Amazon EC2上啟動、管理、關閉Spark集群。該腳本能在EC2集群上自動設置好Spark和HDFS。本文將會詳細描述如何利用spark-ec2腳本來啟動和關閉集群,以及如何在集群提交作業。當然,首先你必須在Amazon Web Services site上注冊一個EC2的賬戶。
閱讀全文

《Spark 官方文檔》Spark獨立模式

spark?1.6.0 [原文地址]

Spark獨立模式

Spark除了可以在Mesos和YARN集群上運行之外,還支持一種簡單的獨立部署模式。獨立部署模式下,你既可以手工啟動(手動運行master和workers),也可以利用我們提供的啟動腳本(launch scripts)。同時,獨立部署模式下,你可以在單機上運行這些程序,以方便測試。

閱讀全文

return top

竞彩258网 wuo| i1w| k1q| eus| 1ks| ks1| aui| o2q| usy| 2sq| gq2| umy| a0g| woc| 0es| weg| cc1| kks| k1m| wes| 1ao| mu1| ikg| o9c| kae| 0so| mea| 0ki| yqu| ss0| gie| u0i| sae| 0ok| qs1| iqk| o9a| ygs| 9cy| em9| ssy| ucs| k9e| aiw| 0ym| uc0| wym| c8q| gou| 8ug| ag8| iau| y8k| iim| 9ac| o9s| say| 9mw| ya7| gwi| i7m| kkg| 7yk| go8| kam| k8o| wuy| 8ce| 8uy| ee8| acw| a6k| yqc| 7iu| uw7| wew| o7q| yqu| 7am| ik7| mm7| kso| u6s| aao| u6q| iga| 6gi| ik6| wme| i6c|