正文

SPARK 2.0：火花信息理论特征选择 java.lang.NoSuchMethodError：微风.linalg.DenseMatrix

 2023-03-23  101

关键词：

【中文标题】SPARK 2.0：火花信息理论特征选择 java.lang.NoSuchMethodError：微风.linalg.DenseMatrix【英文标题】：SPARK 2.0: spark-infotheoretic-feature-selection java.lang.NoSuchMethodError: breeze.linalg.DenseMatrix 【发布时间】：2018-09-07 19:20:59 【问题描述】：

我正在尝试使用 Spark 的 InfoGain 第三方 (https://github.com/sramirez/spark-infotheoretic-feature-selection) 包的 MRMR 功能。但是我的集群是 2.0，我得到了这个异常。即使我将所有必需的 Jar 文件添加到 spark 类路径。但它仍然无法正常工作。虽然它在本地机器上正常工作，但在集群上却不行。

例外：

18/03/29 01:16:43 WARN TaskSetManager: Lost task 3.0 in stage 14.0 (TID 47, EUREDWORKER3): java.lang.NoSuchMethodError: breeze.linalg.DenseMatrix$.canMapValues(Lscala/reflect/ClassTag;)Lbreeze/generic/UFunc$UImpl2;
at org.apache.spark.mllib.feature.InfoTheorySparse$$anonfun$15.apply(InfoTheory.scala:172)
at org.apache.spark.mllib.feature.InfoTheorySparse$$anonfun$15.apply(InfoTheory.scala:172)
at org.apache.spark.rdd.PairRDDFunctions$$anonfun$mapValues$1$$anonfun$apply$43$$anonfun$apply$44.apply(PairRDDFunctions.scala:759)
at org.apache.spark.rdd.PairRDDFunctions$$anonfun$mapValues$1$$anonfun$apply$43$$anonfun$apply$44.apply(PairRDDFunctions.scala:759)
at scala.collection.Iterator$$anon$11.next(Iterator.scala:409)
at org.apache.spark.storage.memory.MemoryStore.putIteratorAsValues(MemoryStore.scala:214)
at org.apache.spark.storage.BlockManager$$anonfun$doPutIterator$1.apply(BlockManager.scala:935)
at org.apache.spark.storage.BlockManager$$anonfun$doPutIterator$1.apply(BlockManager.scala:926)
at org.apache.spark.storage.BlockManager.doPut(BlockManager.scala:866)
at org.apache.spark.storage.BlockManager.doPutIterator(BlockManager.scala:926)
at org.apache.spark.storage.BlockManager.getOrElseUpdate(BlockManager.scala:670)
at org.apache.spark.rdd.RDD.getOrCompute(RDD.scala:330)
at org.apache.spark.rdd.RDD.iterator(RDD.scala:281)
at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)
at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:319)
at org.apache.spark.rdd.RDD$$anonfun$8.apply(RDD.scala:332)
at org.apache.spark.rdd.RDD$$anonfun$8.apply(RDD.scala:330)
at org.apache.spark.storage.BlockManager$$anonfun$doPutIterator$1.apply(BlockManager.scala:935)
at org.apache.spark.storage.BlockManager$$anonfun$doPutIterator$1.apply(BlockManager.scala:926)
at org.apache.spark.storage.BlockManager.doPut(BlockManager.scala:866)
at org.apache.spark.storage.BlockManager.doPutIterator(BlockManager.scala:926)
at org.apache.spark.storage.BlockManager.getOrElseUpdate(BlockManager.scala:670)
at org.apache.spark.rdd.RDD.getOrCompute(RDD.scala:330)
at org.apache.spark.rdd.RDD.iterator(RDD.scala:281)
at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)
at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:319)
at org.apache.spark.rdd.RDD.iterator(RDD.scala:283)
at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)
at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:319)
at org.apache.spark.rdd.RDD.iterator(RDD.scala:283)
at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:70)
at org.apache.spark.scheduler.Task.run(Task.scala:86)
at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:274)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
at java.lang.Thread.run(Thread.java:745)

Reference for Spark class path

【问题讨论】：

您是否有可能使用了某个 jar 文件的过期版本或不兼容版本？是的，是微风版本的问题。我通过将旧版本微风_2.11_0.11 更改为 0.13.2 解决了这个问题。感谢您为我指明正确的方向。 【参考方案1】：

是微风版本的问题。我正在添加一个旧版本的breeze_2.11_0.11，并将其更改为breeze_2.11-0.13.2.jar 解决了这个问题。

【讨论】：

具有特征的 Spark 2.0 数据集编码器

】具有特征的Spark2.0数据集编码器【英文标题】：Spark2.0DatasetEncoderwithtrait【发布时间】：2017-02-2209:03:03【问题描述】：我正在构建一个数据集，其中每个记录都映射到一个案例类（例如CustomDataEntry与原始类型）。valdataset=spark.read... 查看详情

蜂巢上的火花 - 为啥不“选择*”产生火花应用程序/执行程序？

】蜂巢上的火花-为啥不“选择*”产生火花应用程序/执行程序？【英文标题】：hiveonspark-whydoesn\'t\'select*\'spawnsparkapp/executors?蜂巢上的火花-为什么不“选择*”产生火花应用程序/执行程序？【发布时间】：2019-03-2913:12:12【问题描... 查看详情

提交火花作业时获取 java.lang.NoSuchMethodError

】提交火花作业时获取java.lang.NoSuchMethodError【英文标题】：Gettingjava.lang.NoSuchMethodErrorwhilesubmittingsparkjob【发布时间】：2020-02-2603:50:44【问题描述】：我在提交Spark作业时遇到错误：这可能是什么原因？我通过以下方式提交Spark作... 查看详情

将火花数据帧写入固定宽度文件java spark

】将火花数据帧写入固定宽度文件javaspark【英文标题】：Writesparkdataframetofixedwidthfilejavaspark【发布时间】：2020-11-1915:36:36【问题描述】：我已经使用javaspark数据帧将CSV读入数据帧，现在我必须对每个列应用一些宽度并将该数据写... 查看详情

无法运行火花壳！ java.lang.NoSuchMethodError：org.apache.spark.repl.SparkILoop.mumly

】无法运行火花壳！java.lang.NoSuchMethodError：org.apache.spark.repl.SparkILoop.mumly【英文标题】：Can\'trunsparkshell!java.lang.NoSuchMethodError:org.apache.spark.repl.SparkILoop.mumly【发布时间】：2019-05-0219:09:06【问题描述】：hadoop@youngv-Virtua 查看详情

带空格的突触火花选择列

】带空格的突触火花选择列【英文标题】：Synapsesparkselectcolumnwithspace【发布时间】：2021-12-0200:42:51【问题描述】：我正在尝试读取突触表，其中列名中有空格。读取表一直在工作，直到我选择没有空格或特殊字符的列：%%sparkvaldf... 查看详情

火花中的java8流开销

我不是Spark的专家，我正在使用Spark进行一些计算。//[userId,lastPurchaseLevel]JavaPairRDD<String,Integer>lastPurchaseLevels=levels.groupByKey().join(purchases.groupByKey()).mapValues(t->getLastPurchaseLevel(t));在查看详情

Spark Cassandra 连接器基础简单程序获取火花记录错误

】SparkCassandra连接器基础简单程序获取火花记录错误【英文标题】：SparkCassandraconnectorbasesimpleprogramgettingsparkloggingerror【发布时间】：2018-06-2706:05:59【问题描述】：我正在为java+spark+cassandra尝试一个非常基本的helloworld程序。最初我... 查看详情

如何在 oozie 4.2.0 上运行火花动作（pyspark 脚本）？

】如何在oozie4.2.0上运行火花动作（pyspark脚本）？【英文标题】：Howtorunasparkaction(apysparkscript)onoozie4.2.0?【发布时间】：2017-05-2604:10:16【问题描述】：当我将python脚本作为jar提交以在oozie中触发操作时，我看到以下错误：Traceback(mos... 查看详情

如何在火花中处理这个

】如何在火花中处理这个【英文标题】：howtohandlethisinspark【发布时间】：2020-01-0310:41:27【问题描述】：我正在使用spark-sql2.4.x版本，datastax-spark-cassandra-connector用于Cassandra-3.x版本。和卡夫卡一起。我有一个来自kafka主题的财务数... 查看详情

机器学习基础理论学习笔记特征选择（featureselection）(代码片段)

...比较乱，请看目录再食用。后续会出文机器学习基础理论学习笔记（8）特征选择（featureselection）（二）将分类问题和回归问题分开总结。以及或将出文机器学习基础理论学习笔记（8）特征选择... 查看详情

火花流：java.lang.NoClassDefFoundError：kafka/api/TopicMetadataRequest

】火花流：java.lang.NoClassDefFoundError：kafka/api/TopicMetadataRequest【英文标题】：SparkStreaming:java.lang.NoClassDefFoundError:kafka/api/TopicMetadataRequest【发布时间】：2017-07-2010:43:15【问题描述】：我编写了一个从kafka读取数据的spark流应用程序。... 查看详情

spark2.0特征提取转换选择之二：特征选择文本处理，以中文自然语言处理(情感分类)为例

特征选择RFormulaRFormula是一个很方便，也很强大的Feature选择（自由组合的）工具。输入string进行独热编码（见下面例子country）输入数值型转换为double（见下面例子hour） label为string，也用StringIndexer进行编号RFormulaproduc... 查看详情

带有 spark.read.text 的 Spark 2.0 索引 3 处的预期方案特定部分：s3：错误

...spark2.0加载文本文件时遇到了一个奇怪的问题。目前我的火花配置看起来像：valsparkConf=newSpark 查看详情

spark是啥意思?

spark的意思是：1、n.火花;火星;电火花;(指品质或感情)一星，丝毫，一丁点2、v.引发;触发;冒火花;飞火星;产生电火花spark读法英[spɑːk] 美[spɑːrk] 短语：1、sparkadvance 点火提前；火花提早2、electricspar... 查看详情

如何使用 Python 对 Spark 中的 LIBSVM 文件进行特征选择和缩减？

】如何使用Python对Spark中的LIBSVM文件进行特征选择和缩减？【英文标题】：HowtodofeatureselectionandreductiononaLIBSVMfileinSparkusingPython?【发布时间】：2015-07-0518:13:49【问题描述】：我有几个LIBSVM文件，我必须使用python在spark中实现集群。... 查看详情

spark是啥意思?

参考技术Aspark的意思是：1、n.火花;火星;电火花;(指品质或感情)一星，丝毫，一丁点2、v.引发;触发;冒火花;飞火星;产生电火花spark读法英[spɑːk] 美[spɑːrk] 短语：1、sparkadvance 点火提前；火花提早2... 查看详情

Spark Java 错误：大小超过 Integer.MAX_VALUE

...的逻辑回归问题。我有120万条记录用于训练，我对记录的特征进行了哈希处理。当我将哈希特征数设置为1024 查看详情