大数据处理技术spark

xiaofei
大数据处理
2024-05-23 03:24:32
102

文章阐述了关于大数据处理技术spark，以及大数据处理技术期末考试的信息，欢迎批评指正。

简述信息一览：

1、spark和hadoop的区别
2、应用Spark技术,SoData数据机器人实现快速、通用数据治理
3、大数据处理为何选择spark?

spark和hadoop的区别

它还可以优化迭代工作负载。Spark 是在 Scala 语言中实现的，它将 Scala 用作其应用程序框架。与 Hadoop 不同，Spark 和 Scala 能够紧密集成，其中的 Scala 可以像操作本地***对象一样轻松地操作分布式数据集。

实际流计算和批处理系统没有本质的区别，像storm的trident也有批概念，而mapreduce可以将每次运算的数据集缩小（比如几分钟启动一次），facebook的puma就是基于hadoop做的流计算系统。高性能并行计算引擎Storm和Spark比较 Spark基于这样的理念，当数据庞大时，把计算过程传递给数据要比把数据传递给计算过程要更富效率。

（图片来源网络，侵删）

稳定性方面，由于代码质量问题，Spark长时间运行会经常出错，在架构方面，由于大量数据被缓存在RAM中，Java回收垃圾缓慢的情况严重，导致Spark性能不稳定，在复杂场景中SQL的性能甚至不如现有的Map/Reduce。

Spark与Hadoop MapReduce在业界有两种说法：一是 Spark 将代替 Hadoop MapReduce，成为未来大数据处理发展的方向；二是 Spark 将会和 Hadoop 结合，形成更大的生态圈。其实 Spark 和 Hadoop MapReduce 的重点应用场合有所不同。

应用Spark技术,SoData数据机器人实现快速、通用数据治理

1、京东自主研发的无人仓***用大量智能物流机器人进行协同与配合，通过人工智能、深度学习、图像智能识别、大数据应用等技术，让工业机器人可以进行自主的判断和行为，完成各种复杂的任务，在商品分拣、运输、出库等环节实现自动化。

（图片来源网络，侵删）

2、年，蓝色光标实现总营收152亿元，其中数据科技业务收入占比接近90%，超过20%的创意已经实现由自主研发的智能服务机器人完成，智慧经营服务平台已经成形。DATA项目是以区块链为基础，以AI技术和P2P移动存储架构为驱动的去中心化终端数据信用协议。

3、在国内企业的实际应用中，一般将数据治理和数据管理综合考虑，认为数据治理是将数据作为组织资产而展开的一系列的集体化工作，包括从组织架构、管理制度、操作规范、信息技术应用、绩效考核支持等多个维度对组织的数据模型、数据架构、数据质量、数据安全、数据生命周期等方面进行全面的梳理、建设以及持续改进的过程。

4、智能语音：人工智能可以应用语音识别技术，实现语音转换成文字的功能，方便有听力障碍的人或者在特定场景下进行文本沟通。智能***识别：人工智能可以应用***识别技术，对社会治理相关的***数据进行分析和识别，比如监控***中出现的异常行为，自动报警或者进行后续处理。

5、“大数据应用也将社会治理、市场监管转变为实时监测。”李钰举例，工商部门治理“非法集资”一直是高成本任务。一方面，违法企业以各种名目遮掩违法行为；另一方面，注册企业数目快速攀升，数量巨大。大数据破解了这一难题。