大数据面试是很多人的弱点,明明自身技术还可以,但总是面试关过不去,大数据面试分为笔试和面试两方面,笔试必须要做好充足的准备,因为这个没有投机取巧的方法。下面分享百度公司的大数据面试题附答案。
百度公司的大数据面试题附答案
1、数据库的三大范式?
原子性、一致性、唯一性
2、List与set的区别?
List特点:元素有放入顺序,元素可重复 ,Set特点:元素无放入顺序,元素不可重复。
3、Hbase中的metastore用来做什么的?
Hbase的metastore是用来保存数据的,其中保存数据的方式有有三种第一种于第二种是本地储存,第二种是远程储存这一种企业用的比较多
4、对象与引用对象的区别
对象就是好没有初始化的对象,引用对象即使对这个对象进行了初始化,这个初始化可以使自己的直接new的也可以是直接其他的赋值的,那么背new或者背其他赋值的我们叫做是引用对象,最大的区别于
5、谈谈你对反射机制的理解及其用途?
反射有三种获取的方式,分别是:forName/getClass /直接使用class方式,使用反射可以获取类的实例。
6、描述 HBase, zookeeper 搭建过程
Zookeeper 的问题楼上爬爬有步骤,hbase 主要的配置文件有hbase.env.sh 主要配置的是JDK的路径以及是否使用外部的ZK,hbase-site.xml主要配置的是与HDFS的链接的路径以及zk的信息,修改regionservers的链接其他机器的配置。
7、hive 如何调优?
在优化时要注意数据的问题,尽量减少数据倾斜的问题,减少job的数量,同事对小的文件进行成大的文件,如果优化的设计那就更好了,因为hive的运算就是mapReduce所以调节mapreduce的参数也会使性能提高,如调节task的数目。
8、hive的权限的设置
Hive的权限需要在hive-site.xml文件中设置才会起作用,配置默认的是false,需要把hive.security.authorization.enabled设置为true,并对不同的用户设置不同的权限,例如select ,drop等的操作。
9、hbase宕机了如何处理?
HBase的RegionServer宕机超过一定时间后,HMaster会将其所管理的region重新分布到其他活动的RegionServer上,由于数据和日志都持久在HDFS中,
该操作不会导致数据丢失。所以数据的一致性和安全性是有保障的。
但是重新分配的region需要根据日志恢复原RegionServer中的内存MemoryStore表,这会导致宕机的region在这段时间内无法对外提供服务。
而一旦重分布,宕机的节点重新启动后就相当于一个新的RegionServer加入集群,为了平衡,需要再次将某些region分布到该server。
因此,Region Server的内存表memstore如何在节点间做到更高的可用,是HBase的一个较大的挑战。