sort by 和 group by 的区别:当时她问完我Hadoop就问我,我就有点蒙,总觉得是在说Hadoop里面有这两个东西,但是我又想不起来哪里有,就说了不知道,他就说不应该啊~后来才反应过来是数据库的知识。。。额!!
order by 排序查询、asc升序、desc降序
order by 年龄,成绩 desc 按年龄升序排列后、再按成绩降序排列,缺省升序
group by 分组查询
having 只能用于group by子句、作用于组内,having条件子句可以直接跟函数表达式。使用group by 子句的查询语句需要使用聚合函数
select 学号,AVG(成绩) from 选课表
group by 学号
having AVG(成绩)>(select AVG(成绩) from 选课表 where 课程号='001')
order by AVG(成绩) desc
查询平均成绩大于001课程平均成绩的学号、并按平均成绩的降序排列
问了列举几个RDD的action算子
该算子通过SparkContext执行提交作业操作,出发RDD DAG的执行
1)foreach, 对RDD中每个元素进行操作,但是不返回RDD或者Array,只返回Unit
2)存入HDFS,saveAsTextFile,saveAsObjectFile
3)scala数据格式,collect,collectAsMap,reduceByKeyLocally, lookup, count, top, reduce, fold, aggregate
java的机制,原理,用mapreduce写wordcount的原理 ,解释map 解释reduce key value
JAVA机制:首先采用通用的java编译器将java源程序编译成为与平台无关的字节码文件(class文件)然后由java虚拟机(JVM)对字节码文件解释执行。
mr-wordcount:同一key会被收集到同一reduce中
map:双列集合 包含key和value
key 键 唯一
value 值,为键对应的值
Hive中都有哪些函数,hive中关于时间间隔的函数,时间格式化的函数,查询hive中的某条语句,存放到指定hdfs目录下
取整函数: round
向下取整函数: floor
取随机数函数: rand
自然指数函数: exp
幂运算函数: pow
获取当前UNIX时间戳函数:unix_timestamp
日期时间转日期函数:to_date
日期增加函数: date_add