大数据 spark 有哪些组件？

master：管理集群和节点，不参与计算。worker：计算节点，进程本身不参与计算，和 master 汇报。Driver：运行程序的 main 方法，创建 spark context 对象。spark context：控制整个 application 的生命周期，包括 dagsheduler 和 task scheduler 等组件。client：用户提交程序的入口。

阅读全文 → 2023-01-13

Spark streaming 以及基本工作原理？

Spark streaming 是 spark core API 的一种扩展，可以用于进行大规模、高吞吐量、容错的实时数据流的处理。

它支持从多种数据源读取数据，比如 Kafka、Flume、Twitter 和 TCP Socket，并且能够使用算子比如 map、reduce、join 和 window 等来处理数据，处理后的数据可以保存到文件系统、数据库等存储中。

Spark streaming 内部的基本工作原理是：接受实时输入数据流，然后将数据拆分成batch，比如每收集一秒的数据封装成

阅读全文 → 2023-01-13

spark 如何保证宕机迅速恢复?

适当增加 spark standby master
编写 shell 脚本，定期检测 master 状态，出现宕机后对 master 进行重启操作

阅读全文 → 2023-01-13

flume 不采集 Nginx 日志，通过 Logger4j 采集日志，优缺点是什么？

优点：Nginx 的日志格式是固定的，但是缺少 sessionid，通过 logger4j 采集的日志是带有 sessionid 的，而 session 可以通过 redis 共享，保证了集群日志中的同一 session 落到不同的 tomcat 时，sessionId 还是一样的，而且logger4j 的方式比较稳定，不会宕机。

缺点：不够灵活，logger4j 的方式和项目结合过于紧密，而 flume 的方式比较灵活，拔插式比较好，不会影响项目性能。

阅读全文 → 2023-01-12

如何解决Flume 丢包问题?

单机 upd 的 flume source 的配置，100+M/s 数据量，10w qps flume 就开始大量丢包，因此很多公司在搭建系统时，抛弃了 Flume，自己研发传输系统，但是往往会参考 Flume 的 Source-Channel-Sink 模式。
一些公司在 Flume 工作过程中，会对业务日志进行监控，例如 Flume agent 中有多少条日志，Flume 到 Kafka 后有多少条日志等等，如果数据丢失保持在1%左右是没有问题的，当数据丢失达到 5%左右时就必须采取相应措施。

阅读全文 → 2023-01-12

类域界面方程法中，不能求线性不可分情况下分类问题近似或精确解的方法是什么？

线性分类器的设计就是利用训练样本集建立线性判别函数式，也就是寻找最优的权向量的过程。求解权重的过程就是训练过程，训练方法的共同点是，先给出准则函数，再寻找是准则函数趋于极值的优化方法。ABC方法都可以得到线性不可分情况下分类问题近似解。感知器可以解决线性可分的问题，但当样本线性不可分时，感知器算法不会收敛。

阅读全文 → 2023-01-12

首页上一页 97 98 99 100 101 102 103 104 105 106 下一页尾页