(2)flink的怎么和rocksDB交互的。画一个流程图。(这个我也不会)
(3)flink怎么实现Exactly-once?
(4)flink on yarn 的任务提交流程?

(5)rocksDB为什么可以存储那么大的数据量。
(6)使用eventtime+watermark的时候,如果数据到6点结束了。怎么保证最后一条数据能计算。
(7)你理解的什么样的数仓是一个好的数仓。
(8)你们有做过数据的结果的校验吗?怎么校验的(很重要,金融的业务不允许有误差,深圳的是金融业务部门。可以容忍慢,但是不能错。)
(9)要是能自己去看看flinksql就更好了。最新的flink已经支持sql的写法了。业务用的就是flinksql。
(10)公司是做数据中台。主要用的技术就是flink。多准备一下flink的技术。
面试通过者,薪资可以参考20
学长2(1)Flink topN的实现
(2)使用状态后端的时候与hdfs/rocksdb的交互(没懂,不是checkpoint检查点机制)
(3)窗口的触发机制、压力监控及处理、设置时间语意、连续处理
(4)jvm
(5)用原生api创建线程池和调用
(6)map和list的各实现类的用法与区别
(7)数仓各层的理解
(8)物流宽表和订单宽表为什么不做到一块儿
(9)怎么把hdfs上的数据导到hive,内外表
(10)星型模型和雪花模型,事实表维度表
(11)namenode的内存结构
(12)数据质量监控
(13)kafka的数据重复在数仓怎么处理的
(14)存储格式及对比
(15)项目中遇到的问题