python中的列表

发表于Python版块

在爬虫实战中，使用最多的就是列表数据结构，不论是构造出的多个 URL ，还是爬取到的数据，大多数都为列表数据结构。下面首先介绍列表最显著的特征

(1) 列表中的每个元素都是可变的。

(2）列表的元素都是有序的，也就是说每个元素都有对应的位置（类似字符串的切片和索引）。

(3）列表可以容纳所有的对象。列表中的每个元素都是可变的，这意味着可以对列表进行增、删、改操作，这些操作在爬虫中很少使用，因此这里不再给读者添加知识负担。

列表的每个元素都有对应的位置，这种用法与字符串的切片和索引很相似。

list = ['peter','lilei','wanghwu','xiaoming']
print(list[0])
print(list[2:])

输出信息如下

peter

['wanghwu', 'xiaoming']

列表可以容纳所有的对象

list = [
    1,
    1.1,
    'string',
    print(1),
    True,
    [1,2],
    (1,2),
    {'key','value'}
]

下面有两个列表

names = ['peter','lilei','wanghwu','xiaoming']
arges = [23,15,58]
for name,age in zip(names,arges):
    print(name,age)

输出：

peter 23
lilei 15
wanghwu 58
xiaoming 88

在爬虫中，经常请求多个网页，通常情况下会把网页存到列表中，然后循环依次取出井访问爬取数据。这些网页都有一定的规律，如果是手动将这些网页 URL 存入到列表中，不仅花费太多时间，也会造成代码冗余。这时可通过列表推导式，构造出这样的列表，例如某个网站每页的 URL 是这样的（一共 13 页）：

http://bj.xiaozhu.com/search-duanzufang-p1-0/
http://bj.xiaozhu.com/search-duanzufang-p2-0/
http://bj.xiaozhu.com/search-duanzufang-p3-0/

通过以下代码可以构造出13页URL的列表数据

urls = ['http://bj.xiaozhu.com/search-duanzufang-p{}-0/'.format(number)
for number in range(1,14)]
for url in urls:
    print(url)

通过for循环即可轻松打印出13页的数据了

2021-12-17 15:32

评论列表评论