Azure Databricks:如何在 Databricks 群集中添加 Spark 配置

     2023-02-19     264

关键词:

【中文标题】Azure Databricks:如何在 Databricks 群集中添加 Spark 配置【英文标题】:Azure Databricks: How to add Spark configuration in Databricks cluster 【发布时间】:2020-02-29 11:33:02 【问题描述】:

我正在使用 Spark Databricks 集群并希望添加自定义的 Spark 配置。 有一个关于此的 Databricks 文档,但我不知道应该如何以及应该进行哪些更改。有人可以分享配置 Databricks 集群的示例吗。 有什么方法可以查看 Databricks 集群中 Spark 的默认配置。

【问题讨论】:

【参考方案1】:

要微调 Spark 作业,您可以在集群配置中提供自定义 Spark configuration 属性。

    在集群配置页面上,点击高级选项开关。 单击 Spark 选项卡。

[OR]

当您使用集群 API 配置集群时,请在创建集群请求或编辑集群请求的 spark_conf 字段中设置 Spark 属性。

要为所有集群设置 Spark 属性,请创建一个全局初始化脚本:

%scala
dbutils.fs.put("dbfs:/databricks/init/set_spark_params.sh","""
  |#!/bin/bash
  |
  |cat << 'EOF' > /databricks/driver/conf/00-custom-spark-driver-defaults.conf
  |[driver] 
  |  "spark.sql.sources.partitionOverwriteMode" = "DYNAMIC"
  |
  |EOF
  """.stripMargin, true)

参考:Databricks - Spark Configuration

示例:你可以选择任何你想测试的spark配置,这里我要指定“spark.executor.memory 4g”,自定义配置看起来像这个。

集群创建完成后,可以查看自定义配置的结果。

希望这会有所帮助。

【讨论】:

这就是我在“有一个 Databricks 文档”的问题中提到的。但我想知道我们添加了什么以及如何添加 spark 配置。 嘿@Stark,您可以查看答案中提供的示例。如果需要任何帮助,请告诉我。 我正面临 OOM 问题,所以我认为我应该对集群配置进行一些更改。在运行 10 次或更多次后执行 Spark 作业后出现 OOM。我正在对相同的数据执行管道。但有时它会失败。 ***.com/questions/58640218/… 知道我应该怎么做才能解决这个问题。 嗨@Stark 你试过上面的例子“spark.executor.memory 4g”并执行火花作业。

Azure Databricks:如何在 Databricks 群集中添加 Spark 配置

】AzureDatabricks:如何在Databricks群集中添加Spark配置【英文标题】:AzureDatabricks:HowtoaddSparkconfigurationinDatabrickscluster【发布时间】:2020-02-2911:33:02【问题描述】:我正在使用SparkDatabricks集群并希望添加自定义的Spark配置。有一个关于... 查看详情

使用 Databricks 中的原始 SQL 直接查询存储在 Azure Data Lake 中的 avro 数据文件

】使用Databricks中的原始SQL直接查询存储在AzureDataLake中的avro数据文件【英文标题】:QueryingavrodatafilesstoredinAzureDataLakedirectlywithrawSQLfromDatabricks【发布时间】:2020-06-1822:13:19【问题描述】:我正在使用DatabricksNotebooks读取存储在AzureD... 查看详情

如何在 Azure 数据工厂的 Databricks 上运行 .Net spark 作业?

】如何在Azure数据工厂的Databricks上运行.Netspark作业?【英文标题】:Howtorun.NetsparkjobsonDatabricksfromAzureDataFactory?【发布时间】:2020-08-0508:06:59【问题描述】:在Azure数据工厂中,您有一个DatabricksAcvitiy。此活动支持运行python、jar和no... 查看详情

如何在 Python 中从 Azure Databricks 插入 Azure SQL 数据库

】如何在Python中从AzureDatabricks插入AzureSQL数据库【英文标题】:HowtoINSERTINTOAzureSQLdatabasefromAzureDatabricksinPython【发布时间】:2019-04-0109:19:34【问题描述】:由于pyodbc无法安装到Azuredatabricks,我正在尝试使用jdbc通过Python将数据插入Az... 查看详情

如何在 Azure Databricks PySpark 中执行存储过程?

】如何在AzureDatabricksPySpark中执行存储过程?【英文标题】:HowtoexecuteastoredprocedureinAzureDatabricksPySpark?【发布时间】:2020-06-0619:28:45【问题描述】:我能够在AzureDatabricks中使用PySpark执行简单的SQL语句,但我想改为执行存储过程。... 查看详情

Azure Databricks 通过服务主体访问 Azure Data Lake Storage Gen2

】AzureDatabricks通过服务主体访问AzureDataLakeStorageGen2【英文标题】:AzureDatabricksaccessingAzureDataLakeStorageGen2viaServiceprincipal【发布时间】:2020-07-2103:56:54【问题描述】:我想通过服务主体从AzureDatabricks群集访问AzureDataLakeStorageGen2,以... 查看详情

如何使用 Azure Synapse 在 Databricks 上删除表或删除行?

】如何使用AzureSynapse在Databricks上删除表或删除行?【英文标题】:HowtodroptableordroprowonDatabrickswithAzureSynapse?【发布时间】:2021-08-2202:35:44【问题描述】:我想使用DROPTABLE删除我的表,但我的Databricks上出现错误JDBC,但如果我使用SE... 查看详情

如何在 Databricks 上将 Azure Synapse Dataframe 转换为 JSON?

】如何在Databricks上将AzureSynapseDataframe转换为JSON?【英文标题】:HowtoconvertAzureSynapseDataframeintoJSONonDatabricks?【发布时间】:2021-08-1812:24:04【问题描述】:我可以将我的AzureSynapseDataframe转换为JSON吗?因为当我尝试它时,它出错了。... 查看详情

如何从 Azure Databricks 在 Azure Blob 中创建一个空文件夹

】如何从AzureDatabricks在AzureBlob中创建一个空文件夹【英文标题】:HowtocreateaemptyfolderinAzureBlobfromAzuredatabricks【发布时间】:2020-10-1418:11:55【问题描述】:我有一个场景,我想列出AzureBlob目录中的所有文件夹。如果没有文件夹存在... 查看详情

为啥我不能从 azure data studio 或 databricks 查询突触无服务器视图?

】为啥我不能从azuredatastudio或databricks查询突触无服务器视图?【英文标题】:Whycan\'tiquerysynapseserverlessviewfromazuredatastudioordatabricks?为什么我不能从azuredatastudio或databricks查询突触无服务器视图?【发布时间】:2022-01-1019:51:33【问... 查看详情

如何在 Azure Databricks 中使用 JDBC 从 PostgreSQL 读取表数据?

】如何在AzureDatabricks中使用JDBC从PostgreSQL读取表数据?【英文标题】:HowtoreadtabledatafromPostgreSQLusingJDBCinAzureDatabricks?【发布时间】:2020-09-0503:03:32【问题描述】:我正在尝试使用pyspark读取Azure云订阅中可用的postgreSQL表,但出现以... 查看详情

如何在 Azure Databricks 中保存自定义 python 类对象?

】如何在AzureDatabricks中保存自定义python类对象?【英文标题】:HowdoyousaveacustompythonclassobjectinAzureDatabricks?【发布时间】:2021-12-1710:34:49【问题描述】:我已经编写了一个python类,用于在分类建模之前对数据进行预处理。我用sklear... 查看详情

使用 Azure EventHubs Capture 生成的 Azure Data Lake Gen1 中的 Databricks 读取 avro 数据失败

】使用AzureEventHubsCapture生成的AzureDataLakeGen1中的Databricks读取avro数据失败【英文标题】:ReadingavrodatawithDatabricksfromAzureDataLakeGen1generatedbyAzureEventHubsCapturefails【发布时间】:2019-12-0115:39:14【问题描述】:我正在尝试从AzureDataLakeGen1读... 查看详情

如何在 Azure Databricks SQL 中将字段值转换为逗号分隔

】如何在AzureDatabricksSQL中将字段值转换为逗号分隔【英文标题】:HowtoconvertfieldvaluesascommaseparatedinAzuredatabricksSQL【发布时间】:2019-10-0406:10:28【问题描述】:我正在尝试获取字段值作为每个ID的单个单元格中的逗号分隔值我在Azure... 查看详情

如何在 Azure Databricks 笔记本中调试长时间运行的 python 命令?

】如何在AzureDatabricks笔记本中调试长时间运行的python命令?【英文标题】:howtodebuglongrunningpythoncommandsinAzureDatabricksnotebook?【发布时间】:2019-12-1201:17:03【问题描述】:我正在关注本教程:https://docs.microsoft.com/en-us/academic-services/gr... 查看详情

如何获取 Azure Databricks 笔记本运行详细信息

】如何获取AzureDatabricks笔记本运行详细信息【英文标题】:HowtofetchAzureDatabricksnotebookrundetails【发布时间】:2020-10-0606:31:18【问题描述】:我正在使用Azure数据工厂运行我的databricks笔记本,它在运行时创建作业集群,现在我想知... 查看详情

更改同一单元格中的魔术标签 - Azure Databricks

】更改同一单元格中的魔术标签-AzureDatabricks【英文标题】:Changingthemagictagsinsamecell-AzureDatabricks【发布时间】:2021-09-1705:27:18【问题描述】:我正在使用AzureDatabricks并获取了Spark数据帧,需要将其转换为Rdata.frame。当我在同一个单... 查看详情

如何在 databricks 工作区中使用 python 获取 azure datalake 存储中存在的每个文件的最后修改时间?

】如何在databricks工作区中使用python获取azuredatalake存储中存在的每个文件的最后修改时间?【英文标题】:Howtogetthelastmodificationtimeofeachfilespresentinazuredatalakestorageusingpythonindatabricksworkspace?【发布时间】:2019-10-0413:24:07【问题描述... 查看详情