织梦仿站进阶:[13]织梦采集侠(一)
1、我们本次讲解的功能是,【绑定rrs】的办法。大家对采集要有个理念,所谓采集的过程实际上就是对【网页两头夹住,取出中间】,所谓的过滤替换规则 实际就是对采集过来的内容进行修补替换
![织梦仿站进阶:[13]织梦采集侠(一)](https://exp-picture.cdn.bcebos.com/e6ae36066b0192ddd9e08c401a87031c98c0f037.jpg)
2、我们先来复习下,如何织梦自带采集的办法,然后 【新建节点】,填上【列表页网址获取规则】,
![织梦仿站进阶:[13]织梦采集侠(一)](https://exp-picture.cdn.bcebos.com/4b626771fe1d96d8e3b95b932ccd0c6efaf2e137.jpg)
![织梦仿站进阶:[13]织梦采集侠(一)](https://exp-picture.cdn.bcebos.com/03f26bd7997bbbf4def948695549610f8a56d637.jpg)
3、【文章网址匹配规则】,在我们要采集的网页【右键】—【参看网页源代码】。有的时候,我们运气比较好,可以直接看到制作者在代码中直接把列表开始的网址标出来,如下图,为了方便取出网址,我们在【对区域网址进行再次筛选:】这里,填上一些取出网址的特征。
![织梦仿站进阶:[13]织梦采集侠(一)](https://exp-picture.cdn.bcebos.com/8a17b3042e6817e95d40344bd356d53da924ce37.jpg)
![织梦仿站进阶:[13]织梦采集侠(一)](https://exp-picture.cdn.bcebos.com/5917cb3da824d8e9de7381d5da598540112ac837.jpg)
![织梦仿站进阶:[13]织梦采集侠(一)](https://exp-picture.cdn.bcebos.com/84010e2a04e23ea223e39ac92b10bc33ed38c337.jpg)
4、点击测试,如下图,就是正常情况,如果失败或者你不懂,请给笔者的经验留言
![织梦仿站进阶:[13]织梦采集侠(一)](https://exp-picture.cdn.bcebos.com/3fe32442a07aa010a092d68bbfbb19efa35f3e34.jpg)
5、到了【新增采集节点:第二步设置内容字段获取规则】,我们直接往下看,到了【文章内容】这部分,我们再到要采集的网页文章的地方,右键【查看源码】,很明显,下面两处就是全文唯一的标识,我们填到采集处。我们先点【保存配置预览】,看下效果
![织梦仿站进阶:[13]织梦采集侠(一)](https://exp-picture.cdn.bcebos.com/b6f0f0f97fbd4c7c1e1206f2b8bad341027d3034.jpg)
![织梦仿站进阶:[13]织梦采集侠(一)](https://exp-picture.cdn.bcebos.com/32fbcd41037de137f9d7180ff6c5cf672a5f2a34.jpg)
6、采集回来的正文内容,有下面有几个细节:
1.不要有<div>存在,不然网站文章页就错位了,但是<br />这种符号是可以存在的
2.其次不要有其他网站链接,不让就给其他人做广告了
上面这两点,用过滤规则就可以解决
![织梦仿站进阶:[13]织梦采集侠(一)](https://exp-picture.cdn.bcebos.com/2a1ecb460596b814cc718fb043d246fe464e2234.jpg)
7、接下,正文内容正确后,我们就回头看下,文章的标题和文章的作者,时间之类的采集了,测试成功
![织梦仿站进阶:[13]织梦采集侠(一)](https://exp-picture.cdn.bcebos.com/340e4eb8b43ea8db13ebc081189c2cf7deb21634.jpg)
![织梦仿站进阶:[13]织梦采集侠(一)](https://exp-picture.cdn.bcebos.com/dd58d02c5b1b1edeb97d9a8a981fceecd2d90f34.jpg)
8、我们到【织梦采集侠】—【 绑定采集节点】—选择一个栏目绑定,不要更新的太多,设置每小时更新1篇就好,因为我们有ping插件,会自动提交的
![织梦仿站进阶:[13]织梦采集侠(一)](https://exp-picture.cdn.bcebos.com/a1780d1fceecd3d93bd4c8776799594305010834.jpg)
9、我们测试,【采集单个栏目】,PS:请将采集每小时设置为3(之后再改回去),自动采集时间设置为你现在采集的时间,
![织梦仿站进阶:[13]织梦采集侠(一)](https://exp-picture.cdn.bcebos.com/49bf00425d6b04d11288a03bb213e8e5edee0134.jpg)
![织梦仿站进阶:[13]织梦采集侠(一)](https://exp-picture.cdn.bcebos.com/e9a4f2eeadbcbe2f25d17cab54dae43b3a867834.jpg)
![织梦仿站进阶:[13]织梦采集侠(一)](https://exp-picture.cdn.bcebos.com/e57a258602214f57faf76908732064fb970b7334.jpg)
10、请把采集的代码放到模板上,因为织梦采集侠,说穿了就是靠触碰而不是准点采集的。这样做也是为了减少内存消耗
![织梦仿站进阶:[13]织梦采集侠(一)](https://exp-picture.cdn.bcebos.com/04201aa355e983ae9b76639968efe07815316934.jpg)
声明:本网站引用、摘录或转载内容仅供网站访问者交流或参考,不代表本站立场,如存在版权或非法内容,请联系站长删除,联系邮箱:site.kefu@qq.com。
阅读量:119
阅读量:85
阅读量:142
阅读量:118
阅读量:183