[学习交流] 【上海校区】Spark学习之向量--索引变换（VectorIndexer）

VectorIndexer：

倘若所有特征都已经被组织在一个向量中，又想对其中某些单个分量进行处理时，Spark ML提供了VectorIndexer类来解决向量数据集中的类别性特征转换。

通过为其提供maxCategories超参数，它可以自动识别哪些特征是类别型的，并且将原始值转换为类别索引。它基于不同特征值的数量来识别哪些特征需要被类别化，那些取值可能性最多不超过maxCategories的特征需要会被认为是类别型的。

[url=][/url]

package Spark_MLlibimport org.apache.spark.ml.feature.VectorIndexerimport org.apache.spark.ml.linalg.Vectorsimport org.apache.spark.sql.SparkSessionobject 特征变换_VectorIndexer { val spark=SparkSession.builder().master("local[2]").appName("IndexToString").getOrCreate() import spark.implicits._ def main(args: Array[String]): Unit = { val data=Seq( Vectors.dense(-1,1,1,8,56), Vectors.dense(-1,3,-1,-9,88), Vectors.dense(0,5,1,10,96), Vectors.dense(0,5,1,11,589), Vectors.dense(0,5,1,11,688) ) val df=spark.createDataFrame(data.map(Tuple1.apply)).toDF("features") val indexer= new VectorIndexer().setInputCol("features").setOutputCol("indexed").setMaxCategories(4) //那些取值可能性最多不超过maxCategories的特征会被认为是类别型的,进而将原始值转换为类别索引 val indexer_model=indexer.fit(df) val categoricalFeatures= indexer_model.categoryMaps.keys.toSet println(s"Chose ${categoricalFeatures.size} categorical features: " + categoricalFeatures.mkString(", ")) val indexed=indexer_model.transform(df) indexed.show(false) }}

[url=][/url]

结果：

Chose 4 categorical features: 0, 1, 2, 3

+-------------------------+-----------------------+
|features                |indexed             |
+-------------------------+-----------------------+
|[-1.0,1.0,1.0,8.0,56.0]  |[1.0,0.0,1.0,1.0,56.0] |
|[-1.0,3.0,-1.0,-9.0,88.0]|[1.0,1.0,0.0,0.0,88.0] |
|[0.0,5.0,1.0,10.0,96.0]  |[0.0,2.0,1.0,2.0,96.0] |
|[0.0,5.0,1.0,11.0,589.0] |[0.0,2.0,1.0,3.0,589.0]|
|[0.0,5.0,1.0,11.0,688.0] |[0.0,2.0,1.0,3.0,688.0]|
+-------------------------+-----------------------+

【转载】https://blog.csdn.net/m0_37870649/article/details/81630574

不二晨 · 不二晨

奈斯

帐号		自动登录	找回密码
密码			加入黑马

[学习交流] 【上海校区】Spark学习之向量--索引变换（VectorIndexer）

2 个回复

浏览过的版块