spark-学习目录 置顶 | 发表于 2020-01-16 分类于 大数据 阅读次数: Valine: spark基础、源码分析、杂谈 基础 窄、宽依赖和任务划分 DataFrame和DataSet Yarn流程解析 源码 RDD Partitioner dependency rdd 任务调度 shuffle ShuffleManager BypassMergeSortShuffleWriter UnsafeShuffleWriter SortShuffleWriter BlockStoreShuffleReader ShuffleBlockFetcherIterator 文件系统 MemoryManager 和 MemoryPool DiskBlockManager 和 DiskStore block BlockManager BlockManagerRPC 持久化和共享 cache 和 persist Broadcast 累加器 闭包 checkpoint RPC 杂谈 使用textFile读取HDFS的分区规则 指定文件在HDFS中的写入节点 本文作者: Zouxxyy 本文链接: https://zouxxyy.github.io/posts/4149240108/ 版权声明: 本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!