每个系统模型都有自己的采集,无论是内置的还是用户自定义的系统模型,新闻系统有新闻系统采集,下载系统有下载系统采集等等。
采集常用技巧:
1、过滤文章内容的链接:
广告过滤正则设置:“<a [!–ad–]>,</a>”
2、同上得出,过滤font之类的标签:
广告过滤正则:“<font[!–ad–]>,</font>”,其他依此类推。
3、同一链接的页面如何重复采集:
到“管理采集节点”那清空节点即可重复采集已入库的页面。
4、采集内容分页正则说明:
如果是全部列表式,则只需看第一页的页面HTML代码。
采集的一些特殊字段说明:
1、“下载地址正则”、“在线观看地址正则”、“图片集正则”。
说明:下面的两个正则是分开的,并且是用“[!empirecms!]”格开。
下载地址正则 | 格式:地址正则([!–ecmsdownpathurl–])[!empirecms!]名称正则([!–ecmsdownpathname–]) |
说明:名称正则可以不设置,由系统自己命名。 | |
在线观看地址正则 | 格式:地址正则([!–ecmsonlinepathurl–])[!empirecms!]名称正则([!–ecmsonlinepathname–]) |
说明:名称正则可以不设置,由系统自己命名。 | |
图片集正则 | 格式:缩略图([!–ecmsspicurl–])[!empirecms!]大图([!–ecmsbpicurl–])[!empirecms!]名称([!–ecmspicname–]) |
说明:大图与名称正则可以不设置。 |
2、只要字段“输入表单显示元素”是“图片(img)”、“FLASH文件”、“文件(file)”均支持远程保存文件到本地。
3、“newstext”字段才支持远程保存内容里的图片和FLASH到本地。
采集实例: |
以采集新浪体育的冠军联赛为例,如下图:
发布时间:2019-08-09
推荐阅读:
夫唯学院成立于2007年,11年来与数万学员共成长。创始人夫唯先生总结的四处一词、站内站、定向锚文本、聚合等多种核心优化策略,并在众多学员网站上得到验证。夫唯先生推崇“循序渐进,基业长青”的SEO运维思想,以SEOWHY为现实实战案例,历经5年零起步创造了网站品牌。
SEO培训报名联系方式:客服QQ86594013 客服微信:seowhy2021