为何选择 APACHE SPARK进行数据分析工作？

Apache Spark 继续了 Apache Hadoop 在 15 年前开始的大数据分析工作，并已成为大规模分布式数据处理的先进框架。

2010 年代初，大数据分析的流行促使 Hadoop 的使用量增长，而 Hadoop MapReduce 的性能限制成为了阻碍。MapReduce 的性能因其磁盘检查点结果模型而遭遇瓶颈。同时，MapReduce 的低级别编程模型也限制了 Hadoop 的采用。

Apache Spark 最初是加利福尼亚大学伯克利分校 AMPLab 的一个研究项目，其目标是维持 MapReduce 可扩展、分布式、容错处理框架的优势，同时促使该框架变得更高效、更易于使用。Spark 能够重复利用多线程轻量级任务（并非启动和终止进程），还能跨迭代将数据缓存于内存中，无需在各阶段间写入磁盘，因此 Spark 在数据流程和迭代算法方面比 MapReduce 更高效。Spark 使用容错分布式 DataFrame 来增强并行性能，并可实现 SQL 的易用性。

Spark 于 2014 年成为 Apache 软件基金会的高级项目，如今，遍及 16000 多家企业和组织的成千上万名数据工程师和科学家都在使用 Spark。Spark 在 Hadoop 的基础上继往开来的原因之一是，与 MapReduce 相比，其内存数据处理性能能够以快达 100 倍的速度完成某些任务。这些功能由 250 多家公司的 1000 多位贡献者在一个开放社区中创建。Databricks 的创始人率先进行了这项工作，仅仅是其平台每天就运行着 100 多万个虚拟机来分析数据。