大数据 spark 有哪些组件? master:管理集群和节点,不参与计算。worker:计算节点,进程本身不参与计算, 和 master 汇报。Driver:运行程序的 main 方法,创建 spark context 对象。spark context:控制整个 application 的生命周期,包括 dagsheduler 和 task scheduler 等组件。client:用户提交程序的入口。 阅读全文 → 2023-01-13
Spark streaming 以及基本工作原理? Spark streaming 是 spark core API 的一种扩展,可以用于进行大规模、高吞吐量、容错的实时数据流的处理。 它支持从多种数据源读取数据,比如 Kafka、Flume、Twitter 和 TCP Socket,并且能够使用算子比如 map、reduce、join 和 window 等来处理数据,处理后的数据可以保存到文件系统、数据库等存储中。 Spark streaming 内部的基本工作原理是:接受实时输入数据流,然后将数据拆分成batch,比如每收集一秒的数据封装成 阅读全文 → 2023-01-13
spark 如何保证宕机迅速恢复? 适当增加 spark standby master 编写 shell 脚本,定期检测 master 状态,出现宕机后对 master 进行重启操作 阅读全文 → 2023-01-13
flume 不采集 Nginx 日志,通过 Logger4j 采集日志,优缺点是什么? 优点:Nginx 的日志格式是固定的,但是缺少 sessionid,通过 logger4j 采集的日志是带有 sessionid 的,而 session 可以通过 redis 共享,保证了集群日志中的同一 session 落到不同的 tomcat 时,sessionId 还是一样的,而且logger4j 的方式比较稳定,不会宕机。 缺点:不够灵活,logger4j 的方式和项目结合过于紧密,而 flume 的方式比较灵活,拔插式比较好,不会影响项目性能。 阅读全文 → 2023-01-12
如何解决Flume 丢包问题? 单机 upd 的 flume source 的配置,100+M/s 数据量,10w qps flume 就开 始大量丢包,因此很多公司在搭建系统时,抛弃了 Flume,自己研发传输系统, 但是往往会参考 Flume 的 Source-Channel-Sink 模式。 一些公司在 Flume 工作过程中,会对业务日志进行监控,例如 Flume agent 中有多少条日志,Flume 到 Kafka 后有多少条日志等等,如果数据丢失保持在1%左右是没有问题的,当数据丢失达到 5%左右时就必须采取相应措施。 阅读全文 → 2023-01-12
类域界面方程法中,不能求线性不可分情况下分类问题近似或精确解的方法是什么? 线性分类器的设计就是利用训练样本集建立线性判别函数式,也就是寻找最优的权向量的过程。求解权重的过程就是训练过程,训练方法的共同点是,先给出准则函数,再寻找是准则函数趋于极值的优化方法。ABC方法都可以得到线性不可分情况下分类问题近似解。感知器可以解决线性可分的问题,但当样本线性不可分时,感知器算法不会收敛。 阅读全文 → 2023-01-12