init 脚本在 databricks 笔记本中运行良好,但在附加到集群时失败

     2023-02-19     63

关键词:

【中文标题】init 脚本在 databricks 笔记本中运行良好,但在附加到集群时失败【英文标题】:The init script works fine in databricks notebook but fails when attached to cluster 【发布时间】:2020-11-19 00:45:12 【问题描述】:

我想将初始化脚本(具有所有库依赖项)与数据块中的交互式集群附加在一起。初始化脚本类似于下面的附件,在 databricks 笔记本中运行良好。

我希望这个 shell 脚本在集群启动时运行,但是当我将它配置为集群的初始化脚本时,它会返回一个错误。这是我将初始化脚本附加到集群的方式,

错误看起来像这样,

我发现url 讨论了同样的问题,但此处提供的解决方案(将文件的扩展名从 .sh 更改为 .bash)对我不起作用。请帮我解决这个问题。

【问题讨论】:

【参考方案1】:

请移除多余的 (") 以成功安装初始化脚本。

根据我的重现:我使用了与上面相同的代码。

结果:集群终止原因:初始化脚本失败

删除多余的引号后 (")。

结果: Init_Scripts 已成功安装。

【讨论】:

非常感谢!即使盯着这个 bash 脚本几个小时后,我也无法弄清楚这到底有什么问题。 很高兴知道它有帮助。【参考方案2】:

我遇到了同样的问题,但我的问题是我使用了sudo apt install something,一段时间后我意识到我需要添加-y 标志,因为该命令需要用户输入。所以尽量避免用户输入命令或添加如下标志:

sudo apt install -y package

【讨论】:

检查是不是在 databricks 笔记本或 ont 上工作

】检查是不是在databricks笔记本或ont上工作【英文标题】:Checkifworkingondatabricksnotebookoront检查是否在databricks笔记本或ont上工作【发布时间】:2020-05-2701:01:11【问题描述】:对于某些功能,我需要为具有大集群的数据块笔记本和本... 查看详情

Databricks 笔记本在内存作业中崩溃

】Databricks笔记本在内存作业中崩溃【英文标题】:Databricksnotebookscrashesonmemoryjob【发布时间】:2020-09-2804:38:33【问题描述】:我正在运行一些操作来在azuredatabricks上聚合大量数据(约600gb)。我最近注意到笔记本崩溃并且数据块... 查看详情

有没有办法在 Databricks 上测试我的 Pyspark 笔记本

】有没有办法在Databricks上测试我的Pyspark笔记本【英文标题】:IstherewaytotestmyPysparknotebooksonDatabricks【发布时间】:2020-11-2513:43:03【问题描述】:我正在开发数据块并想测试我在笔记本中定义的实用功能,最好的方法是什么?提前... 查看详情

如何在 Databricks 笔记本的 Python 单元中使 DataFrame 可见?

】如何在Databricks笔记本的Python单元中使DataFrame可见?【英文标题】:HowtomakeaDataFramevisibleinPythoncellinDatabricksnotebook?【发布时间】:2019-06-2022:21:58【问题描述】:我使用Databricks在Scala中创建了SparkDataFrame。在做了一些预处理之后,... 查看详情

如何在 python 中比较 Databricks 笔记本中的两个模式

】如何在python中比较Databricks笔记本中的两个模式【英文标题】:HowtocomparetwoschemainDatabricksnotebookinpython【发布时间】:2021-12-3116:45:00【问题描述】:我将使用databricks笔记本提取数据。我想根据我期望的这些数据的架构来验证摄取... 查看详情

使用 Databricks 连接

】使用Databricks连接【英文标题】:UsingDatabricksConnect【发布时间】:2019-07-2706:44:45【问题描述】:我想使用我最喜欢的编辑器在本地编辑Databricks笔记本,然后使用DatabricksConnect在我通常通过Web界面访问的Databricks集群上远程运行笔... 查看详情

如何使用 Python / Pyspark 在 Databricks 笔记本中合并数据帧

】如何使用Python/Pyspark在Databricks笔记本中合并数据帧【英文标题】:HowtomergedataframesinDatabricksnotebookusingPython/Pyspark【发布时间】:2021-02-1016:32:53【问题描述】:我正在使用Databricks笔记本来提取gz压缩的csv文件并加载到数据框对象... 查看详情

在 Databricks 笔记本中通过 pyspark 读取 url

】在Databricks笔记本中通过pyspark读取url【英文标题】:ReadingurlviapysparkinDatabricksnotebook【发布时间】:2021-10-2015:39:24【问题描述】:我无法通过DatabricksNotebooks(版本8.3,Spark3.1.1)中的pySpark读取URL的内容。我已经尝试了几乎所有的... 查看详情

如何在 Databricks 的 PySpark 中使用在 Scala 中创建的 DataFrame

】如何在Databricks的PySpark中使用在Scala中创建的DataFrame【英文标题】:HowtoUseDataFrameCreatedinScalainDatabricks\'PySpark【发布时间】:2019-11-1712:50:22【问题描述】:我的Databricks笔记本使用Python。笔记本中的一些代码是用Scala编写的(使用%... 查看详情

: java.sql.SQLException: 尝试使用 Databricks Connect 在 Databricks 集群上运行 Python 脚本时没有合适的驱动程序

】:java.sql.SQLException:尝试使用DatabricksConnect在Databricks集群上运行Python脚本时没有合适的驱动程序【英文标题】::java.sql.SQLException:NosuitabledriverwhentryingttorunaPythonScriptonDatabricksclusterusingDatabricksConnect【发布时间】:2021-06-1421:42:03 查看详情

在databricks+spark笔记本中使用curl(代码片段)

我正在使用Databricks运行Spark集群。我想使用curl从服务器传输数据。例如,curl-H"Content-Type:application/json"-H"auth:xxxx"-XGET"https://websites.net/Automation/Offline?startTimeInclusive=201609240100&endTimeExclusive=201609240200&dataFormat=json"-k>automation.json... 查看详情

基于在 DataBrick 中的笔记本顶部提取小部件值来动态检索/过滤 Spark 框架的最佳 PySpark 实践是啥?

】基于在DataBrick中的笔记本顶部提取小部件值来动态检索/过滤Spark框架的最佳PySpark实践是啥?【英文标题】:WhatisthebestPySparkpracticetodynamicallyretrieve/filtertheSparkframebasedonextractingwidgetvaluesontopofnotebookinDataBrick?基于在DataBrick中的笔记... 查看详情

如何在 Azure Databricks 笔记本中调试长时间运行的 python 命令?

】如何在AzureDatabricks笔记本中调试长时间运行的python命令?【英文标题】:howtodebuglongrunningpythoncommandsinAzureDatabricksnotebook?【发布时间】:2019-12-1201:17:03【问题描述】:我正在关注本教程:https://docs.microsoft.com/en-us/academic-services/gr... 查看详情

跨多个笔记本的 Databricks SQL Server 连接

】跨多个笔记本的DatabricksSQLServer连接【英文标题】:DatabricksSQLServerconnectionacrossmultiplenotebooks【发布时间】:2020-05-1917:57:10【问题描述】:我找到了一些resources,了解如何在pySparkdatabricks笔记本之间传递变量。我很好奇我们是否... 查看详情

Databricks getArgument 值不能在 Spark SQL IN 子句中使用

】DatabricksgetArgument值不能在SparkSQLIN子句中使用【英文标题】:DatabricksgetArgumentvaluecannotbeusedwithinSparkSQLINclause【发布时间】:2019-05-0821:31:03【问题描述】:我从databricks笔记本小部件中获取逗号分隔的字符串列表,但我无法在SparkSQ... 查看详情

如何获取 Azure Databricks 笔记本运行详细信息

】如何获取AzureDatabricks笔记本运行详细信息【英文标题】:HowtofetchAzureDatabricksnotebookrundetails【发布时间】:2020-10-0606:31:18【问题描述】:我正在使用Azure数据工厂运行我的databricks笔记本,它在运行时创建作业集群,现在我想知... 查看详情

什么是好的 Databricks 工作流程

】什么是好的Databricks工作流程【英文标题】:WhatisagoodDatabricksworkflow【发布时间】:2020-03-0809:08:10【问题描述】:我正在使用AzureDatabricks通过笔记本和管道进行数据处理。我对当前的工作流程不满意:生产中使用的笔记本不能在... 查看详情

无法在 Databricks 中使用 Pandas UDF

】无法在Databricks中使用PandasUDF【英文标题】:UnabletousePandasUDFinDatabricks【发布时间】:2021-04-1617:52:32【问题描述】:我必须运行一个脚本,该脚本将一些参数作为输入并返回一些结果作为输出,所以首先我在本地机器上开发了它... 查看详情