flink hadoop有哪些最佳实践-117笔记问答

Apache Flink和Apache Hadoop都是大数据处理领域的重要组件，它们在数据处理的不同阶段（批处理和流处理）上有所分工，共同构成了企业级数据处理平台的一部分。以下是关于Flink与Hadoop的相关信息：

Flink对Hadoop3的支持：Flink自1.11版本之后就已经支持Hadoop3，具体做法是将HADOOP_CLASSPATH配置成运行机器上的hadoop3相关jar包即可。
Flink与Hadoop生态系统：Flink能够读取Hadoop HDFS上的数据作为输入源，同时，Hadoop MapReduce的结果也可以被Flink作为外部系统查询。此外，Flink还提供了将批处理作业转换为流处理作业的能力。

序列化优化：Flink自己实现了一套高效率的序列化方法，相比于Java原生序列化方式，可以大大提高计算效率和作业稳定性。
资源配置调优：为任务分配合适的资源，如增加JobManager的内存，TaskManager的数量和内存，每个TaskManager的slot数量，规划适当的CPU核数和内存大小。
状态管理和检查点优化：通过合理的状态后端选择和检查点间隔设置，可以提升容错性能，减少故障恢复时间。
持久化策略优化：通过使用持久化(或称为RDD的存储级别)，可以将数据缓存在内存中，避免重复计算和磁盘I/O，加快数据访问速度。
执行模式优化：Flink支持多种执行模式，选择合适的执行模式对系统资源的优化至关重要。
其他优化建议：包括提高CPU使用率同时减少额外性能开销，提高内存使用率，优化业务逻辑，减少计算量和IO操作等。

flink hadoop有哪些最佳实践