
大数据 spark 有哪些组件?
master:管理集群和节点,不参与计算。worker:计算节点,进程本身不参与计算, 和 master 汇报。Driver:运行程序的 main 方法,创建 spark context 对象。spark context:控制整个 application 的生命周期,包括 dagsheduler 和 task scheduler 等组件。client:用户提交程序的入口。
阅读全文 → 2023-01-13
master:管理集群和节点,不参与计算。worker:计算节点,进程本身不参与计算, 和 master 汇报。Driver:运行程序的 main 方法,创建 spark context 对象。spark context:控制整个 application 的生命周期,包括 dagsheduler 和 task scheduler 等组件。client:用户提交程序的入口。
阅读全文 → 2023-01-13
Spark streaming 是 spark core API 的一种扩展,可以用于进行大规模、高吞吐量、容错的实时数据流的处理。
它支持从多种数据源读取数据,比如 Kafka、Flume、Twitter 和 TCP Socket,并且能够使用算子比如 map、reduce、join 和 window 等来处理数据,处理后的数据可以保存到文件系统、数据库等存储中。
Spark streaming 内部的基本工作原理是:接受实时输入数据流,然后将数据拆分成batch,比如每收集一秒的数据封装成
阅读全文 → 2023-01-13
适当增加 spark standby master
编写 shell 脚本,定期检测 master 状态,出现宕机后对 master 进行重启操作
阅读全文 → 2023-01-13
优点:Nginx 的日志格式是固定的,但是缺少 sessionid,通过 logger4j 采集的日志是带有 sessionid 的,而 session 可以通过 redis 共享,保证了集群日志中的同一 session 落到不同的 tomcat 时,sessionId 还是一样的,而且logger4j 的方式比较稳定,不会宕机。
缺点:不够灵活,logger4j 的方式和项目结合过于紧密,而 flume 的方式比较灵活,拔插式比较好,不会影响项目性能。
阅读全文 → 2023-01-12
单机 upd 的 flume source 的配置,100+M/s 数据量,10w qps flume 就开 始大量丢包,因此很多公司在搭建系统时,抛弃了 Flume,自己研发传输系统, 但是往往会参考 Flume 的 Source-Channel-Sink 模式。
一些公司在 Flume 工作过程中,会对业务日志进行监控,例如 Flume agent 中有多少条日志,Flume 到 Kafka 后有多少条日志等等,如果数据丢失保持在1%左右是没有问题的,当数据丢失达到 5%左右时就必须采取相应措施。
阅读全文 → 2023-01-12
线性分类器的设计就是利用训练样本集建立线性判别函数式,也就是寻找最优的权向量的过程。求解权重的过程就是训练过程,训练方法的共同点是,先给出准则函数,再寻找是准则函数趋于极值的优化方法。ABC方法都可以得到线性不可分情况下分类问题近似解。感知器可以解决线性可分的问题,但当样本线性不可分时,感知器算法不会收敛。
阅读全文 → 2023-01-12
蓝海大脑 京ICP备18017748号-1