1、自我介绍+项目介绍
2、hbase主键设计原则 为什么预分区
3、sparkstreaming 和flink 里checkpoint的区别

4、spark shuffle和mr shuffle区别
5、hive里面排序使用过什么
6、说一下udf、udtf、udaf的区别
7、sparkstreaming 怎么管理offest
8、对hadoop组件哪个比较熟 镜像文件和edits是干什么用的 HA和2nn有什么区别 搭HA引入了其他什么服务 journeynode是干什么的
9、小文件在nn上占用128m吗? 那一个块在nn上占用多少内存? 小文件的坏处是什么
10、kafka你用的什么版本 0.11有个bug你了解吗 offset不会自动回收你知道吗 怎么处理 kafka认证了解过吗
11、spark和mr为什么快
12、flume有没有自定义过 tail dir有没有什么问题 场景:有一个文件在做切换有什么问题