0%

版本: hexo v3.9.0,主题 NexT 的 Pisce v7.6.0

理念:拒绝花哨,实用优先;最小改动,内置优先。

阅读全文 »

简介

使用spark时,针对大的、只读、大家都要用的变量,可以使用 broadcast 提高性能:

  • 大的:对其切分后再传输
  • 只读:只有broadcast.value方法
  • 大家都要用:同一个executor的task共享
阅读全文 »

每台节点(driver and executors)的block的总管理者,主要功能就是在本地或者远程的store中(堆内内存、磁盘、堆外内存) put、get、 block。

作为总管理者,BlockManager 依赖众多对象。

阅读全文 »

首先明确spark有个自己文件系统,block就是里面的一个文件。如:缓存后的RDD的一个分区是一个block;计算产生的临时文件也是block任何你要存的东西都是block

因此既然它是文件,它就有文件名元信息数据,理解它们,你就理解了block!

阅读全文 »