Spark核心概念之间的关系: Spark Driver用于提交用户应用程序,实际可以看作Spark的客户端; Spark Driver的初始化始终围绕着SparkContext的初始化。SparkContext可以算得上是所有Spark应用程序的发动机引擎; SparkContext初始化完毕,才能向Spark集群提交任务执行。 Spark context 处理原理如下图: &nb......
最近定位一个问题, 发现读取的ZK中存储的数据 不符合预期, 后来发现该Znode节点有2个 服务会有写入操作, 所以造成了数据重入; 因此需要一个分布式环境下的同步机制, 方案有很多, 最终选择使用Zookeeper实现 分布式锁的功能 ; 原理是利用ZK的顺序节点+watcher机制实现: 在zookeeper指定节点下创建临时顺序节点node_lock_rsX 作为 对资源X访问...
为了方便监控 ES 的慢查询日志, 采用方案:flume+elasticsearch+kibana方式, 但是我们ES版本是6.*, 而Flume官方版本只兼容ES1.7… 所以需要自定义flume 对接ES的 Sink代码 Flume 原理&架构 flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集......
如何实现一个有并发多任务访问的阻塞队列? 使用synchronized ,object.wait(),object.notifyall() 1、当调用put()方法时,如果此时容器的长度等于限定的最大长度,那么该方法需要阻塞直到队列可以有空间容纳下添加的元素 2、当调用take()方法时,如果此时容器的长度等于最小长度0,那么该方法需要阻塞直到队列中有了元素能够取出 3、put() 和 t...
Java多线程定义方式可以通过继承Thead实现, 也可以通过实现Runable接口实现,它们之间关系如下图: Thead类实际上是Run able类的实现类,所以最后不管是使用哪种方式,最终都是通过Thread类从OS申请资源分配启动线程; 下面的3段代码中,前2个效果等价: class MyThread extends Thread { private int i = 0; @O......
MQ 是很常见的分布式中间件,被测系统和测试工具中也经常用到它们,使用它们的时候要遇到很多概念: JMS,AMQP , Producer,consumer等等,它们之间是神马关系? MQ的实现原理又是什么? 性能指标有哪些?可以通过哪些配置参数提升传输性能? MQ基础–协议 常见的MQ有 activemq, rabbitmq, rocketmq, kafka等,常用消息队列协议的基本原......
网络IO传输模式和编解码方案对系统的性能影响至关重要, 作为HTTP Server, 为什么Nginx 的网络IO性能很高, 而Tomcat 之类的Web Server 网络IO 性能相对较低 ? 系统选择的网络IO模型不同, Nginx使用的poll/epoll属于 多路复用型网络模型; Tomcat 6 之前的版本都是用的阻塞式IO模型 (6版本之后支持 NIO模式了,网络IO有所提升) , ......
使用activeMQ做消息异步传输, 消息从Agent端(Python)发送, springboot 端接受异步消息 需求: 需要支持创建多个Consumer 同时消费 多个Queue的场景. 本来考虑直接把consumer做成单例模式, 但对上面需求支持会比较困难; 有效的资源利用: 不能太频繁的做线程创建和 销毁操作,影响系统性能 使用全局线程池就比 局部线程池 更节约资源 ...
智能识别服务涉及调用zookeeper做分布式消息同步,使用curator 包(对zookeeper的简单封装)提供了一些集成的方法, 比zookeeper原生的Client好用很多,提供了很多功能包括: 自动化的连接管理: 重新建立到ZooKeeper的连接和重试机制存在一些潜在的错误case。 Curator帮助你处理这些事情,对你来说是透明的。 清理API: 简化了原生的ZooKeeper......
zk 分布式同步功能,可以由3个角色组成: zk config manager(消息生产) , zk config server(消息生产2), zk config client(消息消费) zk config manager: 任务部署在web server端,主要功能: 负责创建管理所有的“serverType” ,即一级节点,用于区分不同的配置内容, 可由 管理员通过前台界面......