• Introduction
  • SparkSQL介绍
    • SparkSQL的发展历程
    • SparkSQL的性能
  • SparkSQL的使用
    • SqlContext的使用
    • HiveContext的使用
    • SparkSQL的三种使用方式
    • 常用操作
    • Cache Table
    • 外部数据源
  • SparkSQL调优
  • SparkSQL的运行过程
    • SqlContext的运行过程
    • HiveContext的运行过程
  • Catalyst优化器
    • Catalyst介绍
    • TreeNode
    • Rule
    • Analyzer
    • Optimizer
    • 总结
  • SparkSQL组件解析
    • SqlParser
    • Physical Plan
    • UDF
    • In-Memory Columnar Storage
    • External Data Source
    • Code Generation
  • 推荐资料
  • Published with GitBook

推荐资料

推荐资料

官方资料

Databricks官网

Spark官网

Spark Github

Spark GIRA

Spark Submit

Spark博客

OopsOutOfMemory

mmicky的hadoop、Spark世界

徽沪一郎

baishuo491

赛赛的网络日志 Jerry Shao

JerryLead博客园

张包峰的博客

Spark深入研究

Spark Internals by JerryLead

Spark论文

Spark: Cluster Computing with Working Sets Matei Zaharia

Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing Matei Zaharia

Discretized Streams: An Efficient and Fault-Tolerant Model for Stream Processing on Large Clusters Matei Zaharia

Shark: SQL and Rich Analytics at Scale Reynold Shi Xin, Matei Zaharia

results matching ""

    No results matching ""