Azure Databricks 群集初始化脚本 - 从已安装的存储安装轮

     2023-02-19     61

关键词:

【中文标题】Azure Databricks 群集初始化脚本 - 从已安装的存储安装轮【英文标题】:Azure Databricks cluster init script - Install wheel from mounted storage 【发布时间】:2020-07-19 15:28:20 【问题描述】:

我有一个 python ***上传到安装在 databricks 服务中的 azure 存储帐户。我正在尝试使用数据块documentation 中描述的集群初始化脚本来安装***。

我的存储空间肯定已经挂载,而且我的文件路径对我来说看起来是正确的。在笔记本中运行命令display(dbutils.fs.ls("/mnt/package-source")) 会产生结果:

path: dbfs:/mnt/package-source/parser-3.0-py3-none-any.whl
name: parser-3.0-py3-none-any.whl

我尝试使用以下命令从集群初始化文件安装***:

/databricks/python/bin/pip install "dbfs:/mnt/package-source/parser-3.0-py3-none-any.whl"

但集群无法启动。它的日志给我一个错误,说它找不到文件:

WARNING: Requirement 'dbfs:/mnt/package-source/parser-3.0-py3-none-any.whl' looks like a filename, but the file does not exist
ERROR: Could not install packages due to an EnvironmentError: [Errno 2] No such file or directory: '/dbfs:/mnt/package-source/parser-3.0-py3-none-any.whl'

我也试过这样:

/databricks/python/bin/pip install /mnt/package-source/parser-3.0-py3-none-any.whl

但我收到类似的错误:

WARNING: Requirement '/mnt/package-source/parser-3.0-py3-none-any.whl' looks like a filename, but the file does not exist
ERROR: Could not install packages due to an EnvironmentError: [Errno 2] No such file or directory: '/mnt/package-source/parser-3.0-py3-none-any.whl'

我什至尝试过使用相对路径,例如../../mnt/package-source/...,但无济于事。谁能告诉我我做错了什么?

相关问题:Azure Databricks cluster init script - install python wheel

【问题讨论】:

【参考方案1】:

我使用相对路径让它工作。事实证明../../mnt/ 不是正确的路径。它使用../../../dbfs/mnt/ 工作。只需使用 bash ls 命令探索文件系统即可找到它。

对于遇到同样问题的其他人,我建议从笔记本中的类似内容开始:

%%sh
ls ../../../

【讨论】:

如果您想使用完整路径,请尝试在单元格中使用pwd,然后从那里找出挂载点的位置。就我而言,我一直在寻找/FileStore,它位于/dbfs/FileStore/,一旦我用我的cwd 解决了.. 路径部分以创建绝对路径。 (/dbfs/mnt/ 也在场。)

Azure Databricks:如何在 Databricks 群集中添加 Spark 配置

】AzureDatabricks:如何在Databricks群集中添加Spark配置【英文标题】:AzureDatabricks:HowtoaddSparkconfigurationinDatabrickscluster【发布时间】:2020-02-2911:33:02【问题描述】:我正在使用SparkDatabricks集群并希望添加自定义的Spark配置。有一个关于... 查看详情

Azure Databricks:此群集的运行时版本不支持

】AzureDatabricks:此群集的运行时版本不支持【英文标题】:AzureDatabricks:Thiscluster\'sruntimeversionisoutofsupport【发布时间】:2020-12-0308:14:02【问题描述】:其他人在AzureDatabricks集群上收到此错误消息:\'Thiscluster\'sruntimeversionisoutofsupport... 查看详情

火花作业中的 Azure databricks 群集错误:ExecutorLostFailure

】火花作业中的Azuredatabricks群集错误:ExecutorLostFailure【英文标题】:Azuredatabricksclustererrorinasparkjob:ExecutorLostFailure【发布时间】:2021-12-2806:30:21【问题描述】:我试图在AzureDatabricks上的pysaprk中训练一个xgboost模型,直到昨天这段... 查看详情

在 Azure Databricks Notebook 上检索群集不活动时间

】在AzureDatabricksNotebook上检索群集不活动时间【英文标题】:RetrieveClusterInactivityTimeonAzureDatabricksNotebook【发布时间】:2021-10-1221:25:07【问题描述】:我是AzureDatabricks的新手,我正在将它用于一个项目。正如here在Automatictermination的... 查看详情

当我们重新启动 Azure Databricks 群集时,内部会发生啥?

】当我们重新启动AzureDatabricks群集时,内部会发生啥?【英文标题】:WhathappensinternallywhenwerestartAzureDatabrickscluster?当我们重新启动AzureDatabricks群集时,内部会发生什么?【发布时间】:2021-01-2813:44:42【问题描述】:当我们遇到很... 查看详情

使用 Powershell 脚本生成 Azure Databricks 令牌

】使用Powershell脚本生成AzureDatabricks令牌【英文标题】:GenerateAzureDatabricksTokenusingPowershellscript【发布时间】:2019-06-0423:26:04【问题描述】:我需要。我已经完成了使用ARM模板创建AzureDatabricks的工作,现在我正在寻找使用powershell脚... 查看详情

在 Azure 中检查 Databricks 运行时的版本

】在Azure中检查Databricks运行时的版本【英文标题】:CheckingtheversionofDatabricksRuntimeinAzure【发布时间】:2019-05-1310:29:00【问题描述】:是否可以在Azure中检查DatabricksRuntime的版本?【问题讨论】:【参考方案1】:Databricks运行时是在A... 查看详情

Azure Databricks 通过服务主体访问 Azure Data Lake Storage Gen2

】AzureDatabricks通过服务主体访问AzureDataLakeStorageGen2【英文标题】:AzureDatabricksaccessingAzureDataLakeStorageGen2viaServiceprincipal【发布时间】:2020-07-2103:56:54【问题描述】:我想通过服务主体从AzureDatabricks群集访问AzureDataLakeStorageGen2,以... 查看详情

Azure Databricks 和 pyspark - 子字符串错误

】AzureDatabricks和pyspark-子字符串错误【英文标题】:AzureDatabricks&pyspark-substringerrors【发布时间】:2020-10-2308:23:18【问题描述】:我的DatabricksSpark脚本出现两个错误,代码如下:df=spark.createDataFrame(pdDf).withColumn(\'month\',substring(col(... 查看详情

如何在 Databricks 上将 Azure Synapse Dataframe 转换为 JSON?

】如何在Databricks上将AzureSynapseDataframe转换为JSON?【英文标题】:HowtoconvertAzureSynapseDataframeintoJSONonDatabricks?【发布时间】:2021-08-1812:24:04【问题描述】:我可以将我的AzureSynapseDataframe转换为JSON吗?因为当我尝试它时,它出错了。... 查看详情

init 脚本在 databricks 笔记本中运行良好,但在附加到集群时失败

】init脚本在databricks笔记本中运行良好,但在附加到集群时失败【英文标题】:Theinitscriptworksfineindatabricksnotebookbutfailswhenattachedtocluster【发布时间】:2020-11-1900:45:12【问题描述】:我想将初始化脚本(具有所有库依赖项)与数据... 查看详情

使用 azure databricks 读取 azure databricks 日志 json 文件

】使用azuredatabricks读取azuredatabricks日志json文件【英文标题】:Readingazuredatabrickslogsjsonfileusingazuredatabricks【发布时间】:2022-01-0122:00:58【问题描述】:我已通过启用诊断设置将数据块日志发送到存储帐户,现在我必须使用azure数据... 查看详情

Azure Databricks - 解释 databricks 中的安装语法

】AzureDatabricks-解释databricks中的安装语法【英文标题】:AzureDatabricks-Explainthemountingsyntaxindatabricks【发布时间】:2019-12-1206:55:43【问题描述】:我是azure和databricks的新手,我了解了如何安装blob和使用,但我有一些疑问,我还没有... 查看详情

Azure Databricks Scala:如何替换相应层次结构之后的行

】AzureDatabricksScala:如何替换相应层次结构之后的行【英文标题】:AzureDatabricksScala:Howtoreplacerowsfollowingarespectivehirarchy【发布时间】:2020-07-0518:22:55【问题描述】:记住以下数据集:我想获得如您所见,基本上这个想法是遵循ACTUA... 查看详情

Azure Databricks 的 Azure DevOps 管道

】AzureDatabricks的AzureDevOps管道【英文标题】:AzureDevOpspipelinesforAzureDatabricks【发布时间】:2019-11-2318:23:37【问题描述】:不知道Azure数据块中的所有内容都可以基于AzureDevOps管道。我们计划使用github作为存储库。就像Azure数据块可... 查看详情

从 Azure Databricks 将数据写入 Azure Blob 存储

】从AzureDatabricks将数据写入AzureBlob存储【英文标题】:WritingDatatoAzureBlobStoragefromAzureDatabricks【发布时间】:2020-11-1519:37:53【问题描述】:我能够将AzureBlob容器挂载到我的DatabricksDBFS并且还能够读取数据。在编写时,我能够从databri... 查看详情

Azure Databricks 到 Azure SQL DW:长文本列

】AzureDatabricks到AzureSQLDW:长文本列【英文标题】:AzureDatabrickstoAzureSQLDW:Longtextcolumns【发布时间】:2020-06-1616:52:23【问题描述】:我想从AzureDatabricks笔记本环境填充AzureSQLDW。我正在使用带有pyspark的内置连接器:sdf.write\\.format("com... 查看详情

使用 databricks-connect 的 Azure 数据块连接

】使用databricks-connect的Azure数据块连接【英文标题】:AzureDatabrickconnectionusingdatabricks-connect【发布时间】:2020-06-1803:44:47【问题描述】:我正在关注https://docs.databricks.com/dev-tools/databricks-connect.html以连接azuredatabricks#creatingenvironme 查看详情