痕夕软件 首页 软件教程 一键采集 查看内容

通过写规则采集文章

2019-12-2 14:23| 发布者: admin| 查看: 506| 评论: 0

摘要: 通过写规则采集文章一、简介通过写采集规则来采集指定网站的文章,这个方案优点是采集数据准确,缺点是普通人用起来有点困难。实际该功能操作很简单,主要是配置三个规则,获取列表地址的规则,获取标题的规则,获取 ...

通过写规则采集文章

 

一、 简介

通过写采集规则来采集指定网站的文章,这个方案优点是采集数据准确,缺点是普通人用起来有点困难。实际该功能操作很简单,主要是配置三个规则,获取列表地址的规则,获取标题的规则,获取内容的规则,如图:


配置介绍:

1、 规则名称:每条规则要写一个规则名称,可以随意写。

2、 列表地址:就是展现文章列表的地址,比如:

第一页:https://www.admin5.com/browse/186/list_1.shtml

第二页:https://www.admin5.com/browse/186/list_2.shtml

第三页:https://www.admin5.com/browse/186/list_3.shtml

可以观察到变化的数字就是代表页码,所以可以用通配符 [i] 来表示,所以最终配置为:https://www.admin5.com/browse/186/list_[i].shtml

3、 起始页:一般是从第一页开始采集。

4、 采集页数:表示最多采集多少页数据。

5、 每次递增:表示第一页到第二页递增几个数字,一般地址都是1,有的是10的倍数,比如百度搜索页面,这个递增数根据实际情况设置。

6、 列表页编码和文章页编码:就是页面编码,一般网页只按两种,GBKUTF8两种编码,这个查看网页源代码就能知道编码,

比如:<meta charset="UTF-8">

7、 请求协议:默认是GET方式,一般客户默认就好了,不用过多了解。

8、 采集引擎:默认就好了,也不用过多了解。

9、 文章保存目录:设置采集的文章要保存的文件夹路径。

10、 POST数据:有的网站是post请求才能获取数据,这个不用设置,为空即可,太复制的也不一定能采集到。

11、 过滤规则:通过写规则过滤一些不好的段落内容,这个设置具体情况具体分析,一般也不用管它。

12、 列表规则:通过采集规则获取文章页面地址,下面会详解。

13、 标题规则:通过采集规则获取文章标题,下面会详解。

14、 内容规则:通过采集规则获取文章内容,下面会详解。

 

二、 写列表规则教程

技巧:写规则的方法是,找到要获取的内容,然后找内容两边的唯一html标签,然后用通配符 [*] 把内容替换掉,保留两边唯一标签就可以了。

 

1、 我们以A5网站为例

列表地址:https://www.admin5.com/browse/186/list_1.shtml

打开如下(红框的就是要采集的文章地址,这个页面就是列表页面):


2、 打开源代码(右键查看源代码)

从内容判断这个就是文章地址,也就是我们要获取的目标对象。


把源代码复制到我们调试工具,开始调试

我考虑用这段代码来调试规则(选择什么代码没有规定,只要能获取文章地址就ok,调试是不断通过不同代码来做的)

然后最终规则写成:

总结:写规则没有太多技巧,讲的是反复尝试获取经验,写多了就熟悉了。

基本技巧就是:查看源代码,找到目标内容,找出目标内容两边的唯一html标签,然后目标内容用通配符 [*] 替换就可以了。

要判断规则是否正确,用正则调试工具调试即可,调试成功说明正确。


 三、 写标题规则

 

找到文章页面,比如:https://www.admin5.com/article/20190919/925498.shtml

查看源代码,找到标题,如图:

同理把源代码复制到正则调试工具里面被搜索内容的编辑框中,然后规则如图:


四、 写内容规则

 

同样用文章页面,比如:https://www.admin5.com/article/20190919/925498.shtml

查看源代码,找到内容,写内容的正则稍微麻烦点,需要多调试,多调试看看哪个是文章两边的唯一html标签,如图:


所以规则如下:


总结:写规则没有什么捷径,就是多尝试,写多了就熟悉了。

所以最终配置如图:



鲜花

握手

雷人

路过

鸡蛋

相关阅读

<