在 Azure Databricks Notebook 上检索群集不活动时间

     2023-02-19     229

关键词:

【中文标题】在 Azure Databricks Notebook 上检索群集不活动时间【英文标题】:Retrieve Cluster Inactivity Time on Azure Databricks Notebook 【发布时间】:2021-10-12 21:25:07 【问题描述】:

我是 Azure Databricks 的新手,我正在将它用于一个项目。

正如here 在Automatic termination 的文档中提到的那样

您还可以为集群设置自动终止。 在集群创建过程中,您可以在几分钟内指定一个inactivity period,在此之后您希望集群终止。 如果集群上运行的current timelast command之间的差异超过了指定的不活动时间, Azure Databricks 会自动终止该集群。

是否有一种解决方法可以通过Cluster API 或任何其他方法在 Azure Databricks Notebooks 上获取集群的实时非活动期(当前时间与集群上运行的最后一个命令之间的差异)?

【问题讨论】:

【参考方案1】:
# Function to retrieve cluster inactivity time
from datetime import datetime
import time

def cluster_inactivity_time(log_file_path):
 
  # Open log4j-active.log and read last line
  with open(log_file_path, "r") as file:
    first_line = file.readline()
    for last_line in file:
        pass
      
  # Convert last lines' timestamp to milliseconds
  last_run_time = last_line[9:17]
  current_date = datetime.now().strftime('%Y-%m-%d')
  last_run_datetime = round(datetime.strptime(current_date + ' ' + last_run_time, "%Y-%m-%d %H:%M:%S").timestamp() * 1000)
  
  # Finding the difference between current time and last command run time
  current_time = round(time.time() * 1000)
  difference = current_time - last_run_datetime
  inactivity_time = datetime.fromtimestamp(difference / 1000.0)
  print(f'The Cluster has been Inactive for inactivity_time.hour:inactivity_time.minute:inactivity_time.second')


# Function Call
log_file_path = '/dbfs/cluster-logs/0809-101642-leap143/driver/log4j-active.log'
cluster_inactivity_time(log_file_path)

输出:

集群在 0:0:35 内处于非活动状态

【讨论】:

在 Azure Databricks 中编辑 Azure 存储帐户

】在AzureDatabricks中编辑Azure存储帐户【英文标题】:EditingtheAzureStorageAccountinAzureDatabricks【发布时间】:2020-07-2518:50:37【问题描述】:我有指向Azure中的存储帐户的数据块,但该区域不正确。现在我想更改它并将其指向不同的存储... 查看详情

为啥 Azure Databricks 需要将数据存储在 Azure 的临时存储中

】为啥AzureDatabricks需要将数据存储在Azure的临时存储中【英文标题】:WhyAzureDatabricksneedstostoredatainatempstorageinAzure为什么AzureDatabricks需要将数据存储在Azure的临时存储中【发布时间】:2020-11-2206:33:34【问题描述】:我正在关注有关... 查看详情

Azure Databricks 的 Azure DevOps 管道

】AzureDatabricks的AzureDevOps管道【英文标题】:AzureDevOpspipelinesforAzureDatabricks【发布时间】:2019-11-2318:23:37【问题描述】:不知道Azure数据块中的所有内容都可以基于AzureDevOps管道。我们计划使用github作为存储库。就像Azure数据块可... 查看详情

从 Azure Databricks 将数据写入 Azure Blob 存储

】从AzureDatabricks将数据写入AzureBlob存储【英文标题】:WritingDatatoAzureBlobStoragefromAzureDatabricks【发布时间】:2020-11-1519:37:53【问题描述】:我能够将AzureBlob容器挂载到我的DatabricksDBFS并且还能够读取数据。在编写时,我能够从databri... 查看详情

无法从 azure databricks 在 azure data Lake 中保存文件

】无法从azuredatabricks在azuredataLake中保存文件【英文标题】:Failedtosaveafileinazuredatalakefromazuredatabricks【发布时间】:2020-03-0515:44:00【问题描述】:我正在尝试将字符串内容作为XML内容保存到Azure数据湖中。一个字符串变量包含下面... 查看详情

如何在 Azure 数据工厂的 Databricks 上运行 .Net spark 作业?

】如何在Azure数据工厂的Databricks上运行.Netspark作业?【英文标题】:Howtorun.NetsparkjobsonDatabricksfromAzureDataFactory?【发布时间】:2020-08-0508:06:59【问题描述】:在Azure数据工厂中,您有一个DatabricksAcvitiy。此活动支持运行python、jar和no... 查看详情

如何在 Python 中从 Azure Databricks 插入 Azure SQL 数据库

】如何在Python中从AzureDatabricks插入AzureSQL数据库【英文标题】:HowtoINSERTINTOAzureSQLdatabasefromAzureDatabricksinPython【发布时间】:2019-04-0109:19:34【问题描述】:由于pyodbc无法安装到Azuredatabricks,我正在尝试使用jdbc通过Python将数据插入Az... 查看详情

在 Azure Key Vault 支持的 Databricks 中创建秘密范围失败

】在AzureKeyVault支持的Databricks中创建秘密范围失败【英文标题】:CreatingaSecretScopeinDatabricksbackedbyAzureKeyVaultfails【发布时间】:2019-10-2511:49:59【问题描述】:您可以在由AzureKeyvault支持的Databricks中创建范围,而不是使用DatabricksCLI。... 查看详情

如何在 Azure Databricks PySpark 中执行存储过程?

】如何在AzureDatabricksPySpark中执行存储过程?【英文标题】:HowtoexecuteastoredprocedureinAzureDatabricksPySpark?【发布时间】:2020-06-0619:28:45【问题描述】:我能够在AzureDatabricks中使用PySpark执行简单的SQL语句,但我想改为执行存储过程。... 查看详情

如何使用 Azure Synapse 在 Databricks 上删除表或删除行?

】如何使用AzureSynapse在Databricks上删除表或删除行?【英文标题】:HowtodroptableordroprowonDatabrickswithAzureSynapse?【发布时间】:2021-08-2202:35:44【问题描述】:我想使用DROPTABLE删除我的表,但我的Databricks上出现错误JDBC,但如果我使用SE... 查看详情

Databricks (Azure) SQL 中的 For/Loop/While

】Databricks(Azure)SQL中的For/Loop/While【英文标题】:For/Loop/WhileinDatabricks(Azure)SQL【发布时间】:2021-12-2408:58:19【问题描述】:有人知道我是否可以在Databricks中的SQL中进行迭代构造(如循环、while、for)吗?【问题讨论】:写下你想... 查看详情

在 Azure Databricks Notebook 上检索群集不活动时间

】在AzureDatabricksNotebook上检索群集不活动时间【英文标题】:RetrieveClusterInactivityTimeonAzureDatabricksNotebook【发布时间】:2021-10-1221:25:07【问题描述】:我是AzureDatabricks的新手,我正在将它用于一个项目。正如here在Automatictermination的... 查看详情

在 Azure Databricks 上设置 PostgreSQL 驱动程序

】在AzureDatabricks上设置PostgreSQL驱动程序【英文标题】:SettingupPostgreSQLdriveronAzureDatabricks【发布时间】:2021-09-0419:33:35【问题描述】:如何修改以下代码以安装PostgreSQLJDBC驱动程序而不是MSSQL?我的目标是使用pyodbc从AzureDatabricks连... 查看详情

如何在 Databricks 上将 Azure Synapse Dataframe 转换为 JSON?

】如何在Databricks上将AzureSynapseDataframe转换为JSON?【英文标题】:HowtoconvertAzureSynapseDataframeintoJSONonDatabricks?【发布时间】:2021-08-1812:24:04【问题描述】:我可以将我的AzureSynapseDataframe转换为JSON吗?因为当我尝试它时,它出错了。... 查看详情

如何从 Azure Databricks 在 Azure Blob 中创建一个空文件夹

】如何从AzureDatabricks在AzureBlob中创建一个空文件夹【英文标题】:HowtocreateaemptyfolderinAzureBlobfromAzuredatabricks【发布时间】:2020-10-1418:11:55【问题描述】:我有一个场景,我想列出AzureBlob目录中的所有文件夹。如果没有文件夹存在... 查看详情

Azure Databricks - 导出和导入 DBFS 文件系统

】AzureDatabricks-导出和导入DBFS文件系统【英文标题】:AzureDatabricks-ExportandImportDBFSfilesystem【发布时间】:2021-04-0201:59:26【问题描述】:我们刚刚在我们的资源组中创建了一个新的AzureDatabricks资源。在同一资源组中,有一个旧的Azur... 查看详情

在 Azure Databricks 中编写 spark 数据框

】在AzureDatabricks中编写spark数据框【英文标题】:WritingsparkdataframeinAzureDatabricks【发布时间】:2020-11-0915:45:46【问题描述】:我是AzureDatabricks的新手。我有两个输入文件和pythonAI模型,我正在清理输入文件并在输入文件上应用AI模... 查看详情

在作业执行的阈值时间后停止 azure databricks 集群

】在作业执行的阈值时间后停止azuredatabricks集群【英文标题】:Stopazuredatabricksclusterafterthresholdtimeofjobexecution【发布时间】:2020-08-3101:19:28【问题描述】:我需要知道,如何在azuredatabricks集群无限运行以执行作业时通过配置来停... 查看详情