项目数据的来源
1.越来越多的机器配备了连续测量和报告运行情况的装置。几年前,跟踪遥测发动机运行仅限于价值数百万美元的航天飞机。现在,汽车生产商在车辆中配置了监视器,连续提供车辆机械系统整体运行情况。一旦数据可得,公司将千方百计从中渔利。这些机器传感数据属于大数据的范围。
2.计算机产生的数据可能包含着关于因特网和其他使用者行动和行为的有趣信息,从而提供了对他们的愿望和需求潜在的有用认识。
3.使用者自身产生的数据/信息。人们通过电邮、短信、微博等产生的文本信息。
4.至今最大的数据是音频、视频和符号数据。这些数据结构松散,数量巨大,很难从中挖掘有意义的结论和有用的信息。
大型以Internet 为核心的公司,如Amazon, Google, eBay, Twitter 和Facebook 正使用后三类海量信息认识消费行为,预测特定需求和整体趋势。第一类数据可能产生较少的业务,但可以推动某些经营模式实质变革。例如,汽车传感数据用于评价司机行为会推动汽车保险业的深刻变革。
针对项目数据怎么处理的
首先对数据的来源进行分类并标记,经过MR清洗脏数据,对有残缺项的数据如果可以补全,则进行补全,如果无法补全则弃用,之后进行数据的算法分析整合并输出结果
处理的信息放到哪里 怎么返回数据库的
处理的信息放在了HDFS集群上,通过sqoop数据迁移工具进行hdfs集群到数据库的迁移工作
项目中编写的MR对数据做了怎样具体的处理
对数据来源进行标记,通过不同的文本增加数据来源的标记处理,对数据进行数据清洗,过滤掉缺项的数据,并进行指定算法的MR处理
提交MR时考虑yarn内存的问题
一,错误:
Diagnostic Messages for this Task:
Container [pid=7830,containerID=container_1397098636321_27548_01_000297] is running beyond physical memory limits. Current usage: 1.4 GB of 1 GB physical memory used; 2.7 GB of 4.2 GB virtual memory used. Killing container.
默认不设置的情况下,ResourceManager会给每个map、reduce任务分配1G大小的物理内存
解决:
mapred-site.xml:
mapreduce.map.memory.mb: 4096
mapreduce.reduce.memory.mb: 8192
Map容器和Reduce容器的内存大小。上面的数字是根据你机器的内存大小来设置的。reduce一般要比map大
mapreduce.map.java.opts: -Xmx3072m
mapreduce.reduce.java.opts: -Xmx6144m
Map和Reduce任务所允许的最大内存。分别比上面两个数字要小。因为还得分配给yarn内存
二, 错误:
running beyond virtual memory limits. Current usage: 32.1mb of 1.0gb physical memory used; 6.2gb of 2.1gb virtual memory used. Killing container。
原因:
该错误是YARN的虚拟内存计算方式导致,上例中用户程序申请的内存为1Gb,YARN根据此值乘以一个比例(默认为2.1)得出申请的虚拟内存的 值,当YARN计算的用户程序所需虚拟内存值大于计算出来的值时,就会报出以上错误。
解决:
调节比例值可以解决该问题。具体参数为:yarn-site.xml 中的yarn.nodemanager.vmem-pmem-ratio