请选择 进入手机版 | 继续访问电脑版

HTML5星空

Spark

[复制链接]
发表于 2020-6-28 18:24:56 | 显示全部楼层 |阅读模式

Apache Spark最初的定位是改进hadoop, 是为大规模数据处理而设计的快速通用的计算引擎能运行在Hadoop, Apache Mesos, Kubernetes, standalone或云端。它也能够连接各种各样的数据源,例如HDFSHBaseHive

 

特点:

  1. 高级 API 剥离了对集群本身的关注,应用开发者可以专注于应用所要做的计算。

  2. Spark 很快,支持交互式计算和复杂算法。

  3. Spark 是一个通用引擎,可用来完成各种的运算,包括 SQL 查询、文本处理、机器学习等。在 Spark 出现之前,一般需要学习各种引擎来分别处理这些需求。

 

Spark 提供了大量的库,开发者可以在同一个应用程序中无缝组合使用。

  1. Spark CoreRDDresilientdistributed dataset,弹性分布式数据集)是spark的基本数据结构,是不可变数据集。

  2. Spark SQL支持结构化数据的处理。

  3. Spark Streaming简化了大规模的容错的流式应用的构建。

  4. MLlibmachinelearning 机器学习库。

  5. GraphX是一个分布式图处理框架。


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

更多资源及Java+大数据个人原创视频,
可关注本站官方公众号观看:
快讯

     京ICP备14042305号

html5star team © 2012-2013 html5星空 Comsenz Inc.

GMT+8, 2020-7-12 04:05 , Processed in 0.200609 second(s), 36 queries .

快速回复 返回顶部 返回列表