Apache Spark 机器学习 数据源 2

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6

数据源

数据源作为机器学习的数据输入以供给Spark进行机器学习Spark技术框架除了支持Parquet、CSV、JSON以及JDBC这些常用的数据源还提供一些特殊数据源的支持例如图像或者LIBSVM。

Parquet数据源

该数据源是apache parquet技术框架提供的数据存储格式是面向列式存储结构其设计的目标是提供高效以及高性能的数据存储、数据获取、数据压缩以及数据编码。

图像数据源

图像数据源是用于从目录中加载图像Spark技术框架使用ImageIO的类库加载压缩的图像jpeg、png等等格式进行合法的展示其加载的数据框架DataFrame的数据结构类型StructType对应的列是image该图像数据结构存储图像数据其包含的图像属性如下所示

  •  origin字符类型StringType表示图像的文件路径

  • height整数类型IntegerType表示图像的像素高度

  • width整数类型IntegerType表示图像的像素宽度

  • nChannels整数类型IntegerType表示图像的通道数量

  • mode整数类型IntegerType表示图像的OpenCV的兼容性类型

  • data二进制类型BinaryType表示图像的字节码序列以OpenCV的兼容性顺序大多数的情况下是行式的BGR格式

如上所示是Spark的技术框架对应的ImageDataSource类从指定文件夹中加载图像列表形成一个DataFrame类型数据集合。

LIBSVM数据源

提供加载libsvm类型数据源的支持该类型数据源的数据框架DataFrame包括两列label列包括double类型的标签列表features列包括特征集合其数据框架描述如下所示

  •  labeldouble数据类型表述数据集的标签的列

  • featuresVectorUDT数据类型表示特征数据集

如上所示从指定文件夹中加载libsvm的数据源并显示数据框架的列表其中LIBSVM是支持向量机的类库以及对应的数据集应用于分类以及回归的机器学习领域。

未完待续

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6
标签: 机器学习