Spark – 芜湖站长网

腾讯游戏发布会SPARK 2022定档6月27日举行

数码 dawei 2022年6月17日

腾讯官方宣布，SPARK 2022腾讯游戏发布会将于 6 月 27 日 20：00 召开。腾讯表示，玩家将可看到关于游戏技术的新探索、游戏产品的新体验、和游戏应用的新能量。当游戏的数字力量来到现实生活，我们即将经历一场穿梭于数实之间的全新体验，一起探索游戏的升

报告发现云对将来增长极其重要

云计算 dawei 2022年6月16日

Spark 业务集团内的云专家 CCL 的最新研究表明，成本和缺乏专业知识和能力是企业采用云和拥抱数字化转型的主要障碍。这项对新西兰400多名技术和商业决策者的调查发现，五分之二的受访者(43%)认为云对其组织的未来战略和增长极为重要，同样比例的受访者希望

Spark SQL 字段血缘在 vivo 互联网的践行

大数据 dawei 2022年5月19日

字段血缘是在表处理的过程中将字段的处理过程保留下来。为什么会需要字段血缘呢? 有了字段间的血缘关系，便可以知道数据的来源去处，以及字段之间的转换关系，这样对数据的质量，治理有很大的帮助。 Spark SQL 相对于 Hive 来说通常情况下效率会比较高，对于

Spark的两种核心Shuffle详解

大数据 dawei 2022年5月19日

本文转载自微信公众号「五分钟学大数据」，作者园陌。转载本文请联系五分钟学大数据公众号。在 MapReduce 框架中， Shuffle 阶段是连接 Map 与 Reduce 之间的桥梁， Map 阶段通过 Shuffle 过程将数据输出到 Reduce 阶段中。由于 Shuffle 涉及磁盘的读写和网

大数据技术发展趋势分析

大数据 dawei 2021年6月10日

Apache Spark Apache Spark是一套卓越的开源处理引擎，专门面向复杂分析、高速处理与易用性需求而打造。蕻为程序员们提供立足于数据结构之上的应用程序编程接口，而这套数据结构则被称为弹性分布式数据集，其属于以容错方式分布于设备集群之上的多套只读数据

企业拥抱大数据，Hadoop 和Spark渐受青睐

大数据 dawei 2021年6月8日

来自中国信通院的数据显示：2016年中国大数据市场规模将达到16.8亿元人民币，增速为45%，预计未来3年（2017～2020年），增速将稳步保持在30%以上。市场风生水起，离不开政府层面的扶持。国家十三五规划纲要明确表示：实施国家大数据战略是十三五时期的重点

Spark SQL性能提升17.7倍是怎样实现的？

云计算 dawei 2021年5月31日

Spark在该公司的大数据平台中主要用于海量用户数据分析，每天支撑稳定运行的Spark SQL统计分析指标和SQL脚本有几千个。但是在将Spark SQL用于海量用户数据分析的过程中，仍然面临着一些痛点，这些都限制了该公司语音云的数据分析能力。 l Spark的性能不仅受

分析怎样在Spark Core之上扩建自己的模块

系统 dawei 2021年5月26日

在轨迹图绘制项目数据计算中，我们考虑到hbase的rowkey的设计尽量减少rowkey存储的开销。虽然hbase-rdd最终的rowkey默认都是采用字节数组，但这个地方我们希望按自己的方式组装rowkey。使用MD5(imei)+dateTime组成的字节数组作为rowkey。因此默认的hbase-rdd

30分钟，将你的Spark SQL模型变为在线办事

大数据 dawei 2021年5月18日

SparkSQL在机器学习场景中应用第四范式已经在很多行业落地了上万个AI应用，比如在金融行业的反欺诈，媒体行业的新闻推荐，能源行业管道检测，而SparkSQL在这些AI应用中快速实现特征变换发挥着重要的作用半小时，将你的Spark SQL模型变为在线服务 SparkSQL

Spark日臻完善之小文件是否需要合并?

大数据 dawei 2021年5月18日

我们知道，大部分Spark计算都是在内存中完成的，所以Spark的瓶颈一般来自于集群(standalone, yarn, mesos, k8s)的资源紧张，CPU，网络带宽，内存。Spark的性能，想要它快，就得充分利用好系统资源，尤其是内存和CPU。有时候我们也需要做一些优化调整来减少内