SPARK 2.0:火花信息理论特征选择 java.lang.NoSuchMethodError:微风.linalg.DenseMatrix

     2023-03-23     101

关键词:

【中文标题】SPARK 2.0:火花信息理论特征选择 java.lang.NoSuchMethodError:微风.linalg.DenseMatrix【英文标题】:SPARK 2.0: spark-infotheoretic-feature-selection java.lang.NoSuchMethodError: breeze.linalg.DenseMatrix 【发布时间】:2018-09-07 19:20:59 【问题描述】:

我正在尝试使用 Spark 的 InfoGain 第三方 (https://github.com/sramirez/spark-infotheoretic-feature-selection) 包的 MRMR 功能。但是我的集群是 2.0,我得到了这个异常。即使我将所有必需的 Jar 文件添加到 spark 类路径。但它仍然无法正常工作。虽然它在本地机器上正常工作,但在集群上却不行。

例外:

18/03/29 01:16:43 WARN TaskSetManager: Lost task 3.0 in stage 14.0 (TID 47, EUREDWORKER3): java.lang.NoSuchMethodError: breeze.linalg.DenseMatrix$.canMapValues(Lscala/reflect/ClassTag;)Lbreeze/generic/UFunc$UImpl2;
at org.apache.spark.mllib.feature.InfoTheorySparse$$anonfun$15.apply(InfoTheory.scala:172)
at org.apache.spark.mllib.feature.InfoTheorySparse$$anonfun$15.apply(InfoTheory.scala:172)
at org.apache.spark.rdd.PairRDDFunctions$$anonfun$mapValues$1$$anonfun$apply$43$$anonfun$apply$44.apply(PairRDDFunctions.scala:759)
at org.apache.spark.rdd.PairRDDFunctions$$anonfun$mapValues$1$$anonfun$apply$43$$anonfun$apply$44.apply(PairRDDFunctions.scala:759)
at scala.collection.Iterator$$anon$11.next(Iterator.scala:409)
at org.apache.spark.storage.memory.MemoryStore.putIteratorAsValues(MemoryStore.scala:214)
at org.apache.spark.storage.BlockManager$$anonfun$doPutIterator$1.apply(BlockManager.scala:935)
at org.apache.spark.storage.BlockManager$$anonfun$doPutIterator$1.apply(BlockManager.scala:926)
at org.apache.spark.storage.BlockManager.doPut(BlockManager.scala:866)
at org.apache.spark.storage.BlockManager.doPutIterator(BlockManager.scala:926)
at org.apache.spark.storage.BlockManager.getOrElseUpdate(BlockManager.scala:670)
at org.apache.spark.rdd.RDD.getOrCompute(RDD.scala:330)
at org.apache.spark.rdd.RDD.iterator(RDD.scala:281)
at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)
at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:319)
at org.apache.spark.rdd.RDD$$anonfun$8.apply(RDD.scala:332)
at org.apache.spark.rdd.RDD$$anonfun$8.apply(RDD.scala:330)
at org.apache.spark.storage.BlockManager$$anonfun$doPutIterator$1.apply(BlockManager.scala:935)
at org.apache.spark.storage.BlockManager$$anonfun$doPutIterator$1.apply(BlockManager.scala:926)
at org.apache.spark.storage.BlockManager.doPut(BlockManager.scala:866)
at org.apache.spark.storage.BlockManager.doPutIterator(BlockManager.scala:926)
at org.apache.spark.storage.BlockManager.getOrElseUpdate(BlockManager.scala:670)
at org.apache.spark.rdd.RDD.getOrCompute(RDD.scala:330)
at org.apache.spark.rdd.RDD.iterator(RDD.scala:281)
at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)
at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:319)
at org.apache.spark.rdd.RDD.iterator(RDD.scala:283)
at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)
at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:319)
at org.apache.spark.rdd.RDD.iterator(RDD.scala:283)
at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:70)
at org.apache.spark.scheduler.Task.run(Task.scala:86)
at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:274)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
at java.lang.Thread.run(Thread.java:745)

Reference for Spark class path

【问题讨论】:

您是否有可能使用了某个 jar 文件的过期版本或不兼容版本? 是的,是微风版本的问题。我通过将旧版本微风_2.11_0.11 更改为 0.13.2 解决了这个问题。感谢您为我指明正确的方向。 【参考方案1】:

是微风版本的问题。我正在添加一个旧版本的breeze_2.11_0.11,并将其更改为breeze_2.11-0.13.2.jar 解决了这个问题。

【讨论】:

具有特征的 Spark 2.0 数据集编码器

】具有特征的Spark2.0数据集编码器【英文标题】:Spark2.0DatasetEncoderwithtrait【发布时间】:2017-02-2209:03:03【问题描述】:我正在构建一个数据集,其中每个记录都映射到一个案例类(例如CustomDataEntry与原始类型)。valdataset=spark.read... 查看详情

蜂巢上的火花 - 为啥不“选择*”产生火花应用程序/执行程序?

】蜂巢上的火花-为啥不“选择*”产生火花应用程序/执行程序?【英文标题】:hiveonspark-whydoesn\'t\'select*\'spawnsparkapp/executors?蜂巢上的火花-为什么不“选择*”产生火花应用程序/执行程序?【发布时间】:2019-03-2913:12:12【问题描... 查看详情

提交火花作业时获取 java.lang.NoSuchMethodError

】提交火花作业时获取java.lang.NoSuchMethodError【英文标题】:Gettingjava.lang.NoSuchMethodErrorwhilesubmittingsparkjob【发布时间】:2020-02-2603:50:44【问题描述】:我在提交Spark作业时遇到错误:这可能是什么原因?我通过以下方式提交Spark作... 查看详情

将火花数据帧写入固定宽度文件java spark

】将火花数据帧写入固定宽度文件javaspark【英文标题】:Writesparkdataframetofixedwidthfilejavaspark【发布时间】:2020-11-1915:36:36【问题描述】:我已经使用javaspark数据帧将CSV读入数据帧,现在我必须对每个列应用一些宽度并将该数据写... 查看详情

无法运行火花壳! java.lang.NoSuchMethodError:org.apache.spark.repl.SparkILoop.mumly

】无法运行火花壳!java.lang.NoSuchMethodError:org.apache.spark.repl.SparkILoop.mumly【英文标题】:Can\'trunsparkshell!java.lang.NoSuchMethodError:org.apache.spark.repl.SparkILoop.mumly【发布时间】:2019-05-0219:09:06【问题描述】:hadoop@youngv-Virtua 查看详情

带空格的突触火花选择列

】带空格的突触火花选择列【英文标题】:Synapsesparkselectcolumnwithspace【发布时间】:2021-12-0200:42:51【问题描述】:我正在尝试读取突触表,其中列名中有空格。读取表一直在工作,直到我选择没有空格或特殊字符的列:%%sparkvaldf... 查看详情

火花中的java8流开销

我不是Spark的专家,我正在使用Spark进行一些计算。//[userId,lastPurchaseLevel]JavaPairRDD<String,Integer>lastPurchaseLevels=levels.groupByKey().join(purchases.groupByKey()).mapValues(t->getLastPurchaseLevel(t));在 查看详情

Spark Cassandra 连接器基础简单程序获取火花记录错误

】SparkCassandra连接器基础简单程序获取火花记录错误【英文标题】:SparkCassandraconnectorbasesimpleprogramgettingsparkloggingerror【发布时间】:2018-06-2706:05:59【问题描述】:我正在为java+spark+cassandra尝试一个非常基本的helloworld程序。最初我... 查看详情

如何在 oozie 4.2.0 上运行火花动作(pyspark 脚本)?

】如何在oozie4.2.0上运行火花动作(pyspark脚本)?【英文标题】:Howtorunasparkaction(apysparkscript)onoozie4.2.0?【发布时间】:2017-05-2604:10:16【问题描述】:当我将python脚本作为jar提交以在oozie中触发操作时,我看到以下错误:Traceback(mos... 查看详情

如何在火花中处理这个

】如何在火花中处理这个【英文标题】:howtohandlethisinspark【发布时间】:2020-01-0310:41:27【问题描述】:我正在使用spark-sql2.4.x版本,datastax-spark-cassandra-connector用于Cassandra-3.x版本。和卡夫卡一起。我有一个来自kafka主题的财务数... 查看详情

机器学习基础理论学习笔记特征选择(featureselection)(代码片段)

...比较乱,请看目录再食用。后续会出文机器学习基础理论学习笔记(8)特征选择(featureselection)(二)将分类问题和回归问题分开总结。以及或将出文机器学习基础理论学习笔记(8)特征选择... 查看详情

火花流:java.lang.NoClassDefFoundError:kafka/api/TopicMetadataRequest

】火花流:java.lang.NoClassDefFoundError:kafka/api/TopicMetadataRequest【英文标题】:SparkStreaming:java.lang.NoClassDefFoundError:kafka/api/TopicMetadataRequest【发布时间】:2017-07-2010:43:15【问题描述】:我编写了一个从kafka读取数据的spark流应用程序。... 查看详情

spark2.0特征提取转换选择之二:特征选择文本处理,以中文自然语言处理(情感分类)为例

特征选择RFormulaRFormula是一个很方便,也很强大的Feature选择(自由组合的)工具。 输入string进行独热编码(见下面例子country) 输入数值型转换为double(见下面例子hour) label为string,也用StringIndexer进行编号RFormulaproduc... 查看详情

带有 spark.read.text 的 Spark 2.0 索引 3 处的预期方案特定部分:s3:错误

...spark2.0加载文本文件时遇到了一个奇怪的问题。目前我的火花配置看起来像:valsparkConf=newSpark 查看详情

spark是啥意思?

spark的意思是:1、n.火花;火星;电火花;(指品质或感情)一星,丝毫,一丁点2、v.引发;触发;冒火花;飞火星;产生电火花spark读法 英[spɑːk]  美[spɑːrk]  短语:1、sparkadvance 点火提前;火花提早2、electricspar... 查看详情

如何使用 Python 对 Spark 中的 LIBSVM 文件进行特征选择和缩减?

】如何使用Python对Spark中的LIBSVM文件进行特征选择和缩减?【英文标题】:HowtodofeatureselectionandreductiononaLIBSVMfileinSparkusingPython?【发布时间】:2015-07-0518:13:49【问题描述】:我有几个LIBSVM文件,我必须使用python在spark中实现集群。... 查看详情

spark是啥意思?

参考技术Aspark的意思是:1、n.火花;火星;电火花;(指品质或感情)一星,丝毫,一丁点2、v.引发;触发;冒火花;飞火星;产生电火花spark读法 英[spɑːk]  美[spɑːrk]  短语:1、sparkadvance 点火提前;火花提早2... 查看详情

Spark Java 错误:大小超过 Integer.MAX_VALUE

...的逻辑回归问题。我有120万条记录用于训练,我对记录的特征进行了哈希处理。当我将哈希特征数设置为1024 查看详情