Amarengo

Articles and news

Konfigurieren der Spark-Einstellungen für Jupyter-Notebooks¶

Standardmäßig werden die clusterweiten Spark-Konfigurationen für Jupyter-Notebooks verwendet.Sie können die erforderlichen Spark-Einstellungen angeben, um die Spark-Anwendung für ein Jupyter-Notebook mithilfe der %%configure -Magie zu konfigurieren.

Hinweis

Sie können Spark-Einstellungen nur für Jupyter-Notebooks mit Spark-Kerneln konfigurieren.

Sie sollten die erforderliche Konfiguration am Anfang des Notizbuchs angeben, bevor Sie Ihre erste Spark-gebundene Codezelle ausführen.

Wenn Sie die erforderliche Konfiguration nach dem Ausführen eines Spark-gebundenen Befehls angeben möchten, sollten Sie die Option -f mit der Magie %%configure verwenden.Wenn Sie die Option -f verwenden, gehen alle in den vorherigen Spark-Jobs erzielten Fortschritte verloren.

Die folgenden Beispielcodes zeigen, wie Spark-Konfigurationen angegeben werden.

%%configure -f{"executorMemory": "3072M", "executorCores": 4, "numExecutors":10}
%%configure -f{ "driverMemory" : "20G", "conf" : { "spark.sql.files.ignoreMissingFiles": "true","spark.jars.packages": "graphframes:graphframes:0.7.0-spark2.4-s_2.11"}}

Hinweis

Die Spark-Treiber werden standardmäßig auf den Cluster-Worker-Knoten erstellt, um die Last besser zu verteilen und die Clusterressourcen besser zu nutzen. Wenn Sie den Spark-Treiber auf dem Koordinatorknoten ausführen möchten, wenden Sie sich an den Qubole-Support.

In der folgenden Tabelle sind die Spark-Konfigurationsparameter mit ihren Werten aufgeführt.

Parameter Beschreibung Werte
jars In der Sitzung zu verwendende Jars Liste der Zeichenfolgen
pyFiles Python-Dateien, die in der Sitzung verwendet werden sollen Liste der Zeichenfolgen
dateien In der Sitzung zu verwendende Dateien Liste der Zeichenfolgen
driverMemory Menge des für den Treiberprozess zu verwendenden Speichers string
driverCores Anzahl der Kerne für den Treiberprozess zu verwenden int
executorMemory Menge des für den Executor-Prozess zu verwendenden Speichers string
executorCores Anzahl der für den Executor-Prozess zu verwendenden Kerne int
numExecutors Anzahl der Executoren, die für die Sitzung gestartet werden sollen int
archive In der Sitzung zu verwendende Archive Liste der Zeichenfolgen
warteschlange Name der Garnwarteschlange Zeichenkette
name Name der Sitzung (Name muss in Kleinbuchstaben sein) string
conf

Spark-Konfigurationseigenschaften

Hinweis

Sie können alle anderen Sparkconfigurationen angeben.

Karte von key=val

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.