如何在 spark scala 中为单列创建数据框

     2023-04-13     225

关键词:

【中文标题】如何在 spark scala 中为单列创建数据框【英文标题】:How to Create Dataframe in spark scala for single coumn 【发布时间】:2017-05-18 16:14:51 【问题描述】:

我是 spark scala 的新手。 我有包含 10 列的数据框,但我想为该数据框再添加一列,该列是日期格式,日期将由随机数生成。

import java.util.Date
import java.util.ArrayList
import java.text.SimpleDateFormat

object Datecolumn 
  def main(args: Array[String]) 



  val dateFormat = new SimpleDateFormat("yyyy/MM/dd HH:mm:ss");
val date = new Date();
//println(dateFormat.format(date));

  val li= new ArrayList[String]
  for(i<- 1 to 10)
  
    li.add(dateFormat.format(date))
  


 // val dateColumn =

 val Lii = li.listIterator()
 while(Lii.hasNext())
 
   println(Lii.next())
 

  li.toDF("Date") //.toDF is not a member of Java.util.ArrayList



【问题讨论】:

我没有看到任何火花代码? 是的,它只是一个 Scala 代码,如何为单个列创建 Dataframe 【参考方案1】:
 //Initialise Spark Session
  val spark = SparkSession
    .builder()
    .master("local")
    .appName("ParquetAppendMode")
    .getOrCreate()

  import spark.implicits._

//create a simple dataframe with one column
  val dataFrame = spark.sparkContext.parallelize(1 to 10).toDF("number")

  dataFrame.show

//add another column with current timestamp 
  dataFrame.withColumn("timestamp", unix_timestamp()).show()

如果我理解你的话,希望这会有所帮助!

【讨论】:

如何在 Scala/Spark 中为数据框中的每一行编写一个 Json 文件并重命名文件

】如何在Scala/Spark中为数据框中的每一行编写一个Json文件并重命名文件【英文标题】:HowtowriteoneJsonfileforeachrowfromthedataframeinScala/Sparkandrenamethefiles【发布时间】:2019-02-0721:24:15【问题描述】:需要为数据框中的每一行创建一个json... 查看详情

Scala Spark - 如何减少在单列中包含多列的数据帧?

】ScalaSpark-如何减少在单列中包含多列的数据帧?【英文标题】:ScalaSpark-Howreduceadataframewithmanycouplecolumnsinasinglecouplecolumns?【发布时间】:2017-03-3008:55:27【问题描述】:我有一个包含许多(计数和得分)列的数据框。这种情况不... 查看详情

如何在 Spark ML 中为分类创建正确的数据框

】如何在SparkML中为分类创建正确的数据框【英文标题】:HowtocreatecorrectdataframeforclassificationinSparkML【发布时间】:2015-09-1018:55:18【问题描述】:我正在尝试使用SparkMLapi运行随机森林分类,但在创建正确的数据框输入到管道时遇... 查看详情

如何在 Scala / Spark 中创建示例数据框

】如何在Scala/Spark中创建示例数据框【英文标题】:HowtocreateasampledataframeinScala/Spark【发布时间】:2016-02-1318:08:14【问题描述】:我正在尝试创建一个简单的DataFrame,如下所示:importsqlContext.implicits._vallookup=Array("one","two","three","four... 查看详情

在 spark scala 中为 withcolumn 编写通用函数

...帧df。我对其他数据帧也有以下withcolumn条件的相同用法。如何将这些所有withcolumn条件编写为通用函数并在所有数据帧中访问它。valdf 查看详情

Spark scala 从列表中选择多列和单列

】Sparkscala从列表中选择多列和单列【英文标题】:Sparkscalaselectingmultiplecolumnsfromalistandsinglecolumns【发布时间】:2020-11-2715:55:20【问题描述】:我正在尝试对数据框进行选择,但遇到了一些麻烦。我有这个初始数据框+----------+------... 查看详情

在 spark scala 中为数据帧中的每个组采样不同数量的随机行

】在sparkscala中为数据帧中的每个组采样不同数量的随机行【英文标题】:Sampleadifferentnumberofrandomrowsforeverygroupinadataframeinsparkscala【发布时间】:2018-03-0119:25:12【问题描述】:目标是为每个组在数据框中采样(不替换)不同数量的... 查看详情

如何在 Zeppelin/Spark/Scala 中漂亮地打印数据框?

】如何在Zeppelin/Spark/Scala中漂亮地打印数据框?【英文标题】:HowcanIprettyprintadataframeinZeppelin/Spark/Scala?【发布时间】:2017-12-1007:49:30【问题描述】:我在Zeppelin0.7笔记本中使用Spark2和Scala2.11。我有一个可以像这样打印的数据框:df... 查看详情

Scala和Spark,rdd从字典创建数据框

...【发布时间】:2017-08-2818:37:24【问题描述】:您能告诉我如何从以下代码创建数据框吗?valx=List(Map("col1"->"foo","col2"->"bar"))valRDD=sc.parallelize(x)输入如上图即RDD[Map 查看详情

Spark Scala - 如何为每个组创建新列,然后在 spark 数据框中分解列值

】SparkScala-如何为每个组创建新列,然后在spark数据框中分解列值【英文标题】:SparkScala-Howtocreatenewcolumnforeachgroupandthenexplodethecolumnvaluesinsparkdataframe【发布时间】:2017-04-0712:52:54【问题描述】:我的数据框如下所示列名索引,单... 查看详情

如何在 Scala/Spark 的数据框中扩展数组 [重复]

】如何在Scala/Spark的数据框中扩展数组[重复]【英文标题】:HowcanIexpandanArrayinaDataframeinScala/Spark[duplicate]【发布时间】:2017-06-2410:50:25【问题描述】:我使用Databricksspark-xml包将XML文件读入Spark。该文件具有以下数据结构:<lib>&... 查看详情

Spark:如何在 pyspark 或 scala spark 中分解数据并添加列名?

】Spark:如何在pyspark或scalaspark中分解数据并添加列名?【英文标题】:Spark:HowdoIexplodeddataandaddcolumnnamealsoinpysparkorscalaspark?【发布时间】:2018-02-1214:28:02【问题描述】:Spark:我想分解多列并合并为单列,列名作为单独的行。Inputd... 查看详情

如何使用 Apache Spark 和 Scala 创建嵌套 json

】如何使用ApacheSpark和Scala创建嵌套json【英文标题】:HowtocreatenestedjsonusingApacheSparkwithScala【发布时间】:2019-09-2510:33:32【问题描述】:我正在尝试从我的spark数据框创建一个嵌套JSON,该数据框具有以下结构的数据。Vendor_Name,count,... 查看详情

如何在 Spark SQL 中为每个组创建 z 分数

】如何在SparkSQL中为每个组创建z分数【英文标题】:Howtocreateaz-scoreinSparkSQLforeachgroup【发布时间】:2016-04-2307:23:49【问题描述】:我有一个看起来像这样的数据框dScTranAmount1:10002179.642:10002179.643:1000210.164:10002211.655:1000220.366:1000220.47... 查看详情

在 spark 和 scala 中,如何将数据框转换或映射到特定列信息?

】在spark和scala中,如何将数据框转换或映射到特定列信息?【英文标题】:Insparkandscala,howtoconvertormapadataframetospecificcolumnsinfo?【发布时间】:2016-11-1812:51:52【问题描述】:斯卡拉。火花。智能理念。我有一个来自CSV文件的数据框... 查看详情

如何在 Spark 中收集单列?

】如何在Spark中收集单列?【英文标题】:HowdoIcollectasinglecolumninSpark?【发布时间】:2016-02-1900:32:37【问题描述】:我想对单个列执行操作。不幸的是,在我转换该列之后,它现在不再是它来自的数据框的一部分,而是一个Column对... 查看详情

如何使用 scala 从数据框创建 XML 字符串

】如何使用scala从数据框创建XML字符串【英文标题】:HowtocreateanXMLstringfromdataframeusingscala【发布时间】:2020-08-0411:15:53【问题描述】:我有一个场景,我正在从我的配置单元表中读取数据并创建一个spark数据框。我想从数据帧的... 查看详情

在 Spark 的嵌套 XML 中为来自父数据框的子数据框添加额外的列

】在Spark的嵌套XML中为来自父数据框的子数据框添加额外的列【英文标题】:AddextracolumnforchilddataframefromparentdataframeinnestedXMLinSpark【发布时间】:2018-02-0714:27:05【问题描述】:我在加载许多XML文件后创建数据。每个xml文件都有一... 查看详情