在Python中,最基本的数据结构是序列(sequence)。
序列中的每个元素被分配一个序号——即元素的位置,也称为索引。第一个索引是 0,第二个则是 1,以此类推。序列中的最后一个元素标记为 -1,倒数第二个元素为 -2,以次类推。
python包含 6 种内建的序列,包括列表、元组、字符串、Unicode字符串、buffer对象和xrange对象。
所有序列类型都可以进行某些特定的操作。这些操作包括:索引(indexing)、分片(sliceing)、加(adding)、乘(multiplying)以及检查某个元素是否属于序列的成员(成员资格)。除此之外,Python还有计算序列长度、找出最大元素和最小元素的内建函数。
如果让你搭建两三个集群的大数据环境,多长时间。
搭集群是不算特别难的,两三个集群也就两天左右(算上测试集群是否搭好的时间---调试的时间)
说自己爬虫项目怎么做的,有没有遇到过坑,怎么解决的
很多时候都是爬取指定网页的内容,通过BeautifulSoup进行解析网页获得指定的内容,
经常性的会出现爬取几分钟之后获取不到内容,后查看分析发现是该网页服务端进行了流量监控,查看到异常流量信息,对本ip进行了访问验证,思索得出结果当请求数据的时候延时随机(1-3)秒数,使得爬取数据看起来更像人为的,以躲过网络的流量监控
做的单机的还是集群,用的什么数据库
做的hadoop集群,因为数据量的不是特别大,而且公司比较小,对MYSQL数据库比较熟悉,也易于使用,所以用的MYSQL数据库