spark批量写入redis

九指码农

3213人浏览 · 2019-11-26 10:13:23

九指码农 · 2019-11-26 10:13:23 发布

最近工作中，在融合数据的时候，需要将10亿+的记录push到redis中，运维的同学帮忙搭建好redis集群，100主 + 100 从（单节点8G），最开始打算第一次批量写入使用spark去写入到redis，因为数据存放在Hive表。
一、相关依赖的jar包

compile group: 'com.redislabs', name: 'spark-redis', version: '2.3.0'
compile group: 'redis.clients', name: 'jedis', version: '2.9.0'
compile group: 'org.apache.commons', name: 'commons-pool2', version: '2.0'

我用gradle管理依赖，如果用maven也可以去maven官网寻找。

二、测试用例
1、方法

sc.toRedisKV() 存储key、value字符串
具体实现：
def toRedisKV(kvs: RDD[(String, String)], ttl: Int = 0)
               (implicit redisConfig: RedisConfig = new RedisConfig(new RedisEndpoint(sc.getConf))) {
    kvs.foreachPartition(partition => setKVs(partition, ttl, redisConfig))
  }
 /**
    * @param arr k/vs which should be saved in the target host
    *            save all the k/vs to the target host
    * @param ttl time to live
    */
  def setKVs(arr: Iterator[(String, String)], ttl: Int, redisConfig: RedisConfig) {
    arr.map(kv => (redisConfig.getHost(kv._1), kv)).toArray.groupBy(_._1).
      mapValues(a => a.map(p => p._2)).foreach {
      x => {
        val conn = x._1.endpoint.connect()
        val pipeline = conn.pipelined
        if (ttl <= 0) {
          x._2.foreach(x => pipeline.set(x._1, x._2))
        }
        else {
          x._2.foreach(x => pipeline.setex(x._1, ttl, x._2))
        }
        pipeline.sync
        conn.close
      }
    }
  }


sc.toRedisHASH() 存储hash map
/**
    * @param kvs      Pair RDD of K/V
    * @param hashName target hash's name which hold all the kvs
    * @param ttl time to live
    */
  def toRedisHASH(kvs: RDD[(String, String)], hashName: String, ttl: Int = 0)
                 (implicit redisConfig: RedisConfig = new RedisConfig(new RedisEndpoint(sc.getConf))) {
    kvs.foreachPartition(partition => setHash(hashName, partition, ttl, redisConfig))
  }
 /**
    * @param hashName
    * @param arr k/vs which should be saved in the target host
    *            save all the k/vs to hashName(list type) to the target host
    * @param ttl time to live
    */
  def setHash(hashName: String, arr: Iterator[(String, String)], ttl: Int, redisConfig: RedisConfig) {
    val conn = redisConfig.connectionForKey(hashName)
    val pipeline = conn.pipelined
    arr.foreach(x => pipeline.hset(hashName, x._1, x._2))
    if (ttl > 0) pipeline.expire(hashName, ttl)
    pipeline.sync
    conn.close
  }
// 后续再补充
sc.toRedisFixedLIST()
sc.toRedisLIST()
sc.toRedisSET()
sc.toRedisZSET()

2、测试

val activeRiskTableName = "hm_service_risk.test_active_risk_base_db"
    val today = DateUtil.format(DateUtil.getDayBegin, "yyyyMMdd")
    val dataFrame = spark.read.table(activeRiskTableName).filter($"stat_date".equalTo(today)).
      select("id", "update_time", "risk").
      withColumn("update_time", to_timestamp($"update_time", "yyyy-MM-dd HH:mm:ss"))

    val redisHost = "localhost"
    val redisPort: Int = 6379
    val redisAuth: String = ""
    val redisDataRdd = dataFrame.map(row => {
      val id = row.getAs[String]("id")
      val updateTime = row.getAs[Int]("update_time")
      val risk = row.getAs[Int]("risk")
      val redisKey = prefix + AESUtils.aesEncrypt(id)
      val json = new JSONObject()
      json.put("update_time", updateTime)
      json.put("risk", risk)
      (redisKey, json.toJSONString)
    }).rdd

    val redisConfig = new RedisConfig(RedisEndpoint(redisHost, redisPort, redisAuth))
    sc.toRedisKV(redisDataRdd)(redisConfig)

临时工作没深入研究，后续有时间深入研究，再补充

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git