分析怎样在Spark Core之上扩建自己的模块

在轨迹图绘制项目数据计算中，我们考虑到hbase的rowkey的设计——尽量减少rowkey存储的开销。虽然hbase-rdd最终的rowkey默认都是采用字节数组，但这个地方我们希望按自己的方式组装rowkey。使用MD5(imei)+dateTime组成的字节数组作为rowkey。因此默认的hbase-rdd提供的方法是不满足我们存储需求的，需要对源代码进行修改。在toHbase方法中，有一个convert方法，该方法将对RDD中的每一行数据进行转化，使用RDD中的key生成Put(Bytes.toBytes(key))对象，该对象为之后存储Hbase提供rowkey。

在convert函数中，对其实现进行了改造，hbase-rdd默认使用stringToBytes隐式函数将RDD的String类型的key转换成字节数组，这里我们需要改造，不使stringToBytes隐式方法，而是直接生成字节数据。

protected def convert(id: String, values: Map[String, Map[String, A]], put: PutAdder[A]) = {
val strs = id.split(",")
val imei = strs {0}
val dateTime = strs {1}
val b1 = MD5Utils.computeMD5Hash(imei.getBytes())
val b2 = Bytes.toBytes(dateTime.toLong)
val key = b1.++(b2)
val p = new Put(key)//改造
var empty = true
for {
(family, content) <- values
(key, value) <- content
} {
empty = false
if (StrUtils.isNotEmpty(family) &&StrUtils.isNotEmpty(key)) {
put(p, family, key, value)
}
}
if (empty) None else Some(new ImmutableBytesWritable, p)
}

这样就实现了使用自己的方式构建rowkey，当然基于此思想我们可以使用任意的方式构建rowkey。

在使用hbase-rdd插件的过程中，我在思考，默认的RDD上是没有toHbase方法的，那为什么引入hbase-rdd包之后，RDD之上就有toHbase方法了?经过查看源码，发现hbase-rdd包中提供了两个隐式方法：

implicitdef toHBaseRDDSimple[A](rdd: RDD[(String, Map[String, A])])(implicit writer: Writes[A]): HBaseWriteRDDSimple[A] =new HBaseWriteRDDSimple(rdd, pa[A])
implicit def toHBaseRDDSimpleTS[A](rdd: RDD[(String, Map[String, (A, Long)])])(implicit writer: Writes[A]): HBaseWriteRDDSimple[(A, Long)] =new HBaseWriteRDDSimple(rdd, pa[A])

这两个方法在发现RDD上没有toHbase方法时会自动尝试调用，从隐式定义中尝试找到解决方案，尝试之后发现有定义toHBaseRDDSimple隐式方法，于是调用该隐式方法新建HBaseWriteRDDSimple类，返回hBaseWriteRDDSimple，而在hBaseWriteRDDSimple对象中是有toHbase方法的，因此在引入hbase-rdd之后，可以发现原本没有toHbase方法的RDD上有toHbase方法了。这一切都要归功于Scala强大的隐式转换功能。

那明白了原理，是否我们可以基于RDD写自己的模块，说干就干!

相关文章

常用的MongoDB使用技巧

有哪些MongoDB基础知识是需要掌握

MongoDB进行优化几个需要注意的地方

mongodb管道是什么？

MongoDB多表联查的方法步骤

MongoDB中findOne()方法使用介绍