189期B班报名时间4月15日-4月30日 4月30日开班仪式 加V咨询:seowhy2021 立即咨询

帝国采集正则怎么写?帝国cms采集正则的写法详解

帝国CMS的采集正则:

1、帝国CMS的采集正则是什么样的,下面我们用实例讲解:

(1)、假如我们要采集页面的内容页为如下页面:

图1:HTML页面

图2:查看页面源代码为如下:

(2)、由上图的源代码内容我们可以得出帝国CMS的采集正则:

新闻标题正则:<td>标题:<strong>[!–title–]</strong></td>

新闻内容正则:<td>内容:<font color=”#FF0000″>[!–newstext–]</font></td>

“[!–title–]”与“[!–newstext–]”分别为“标题”字段与“内容”字段的正则变量。用于指定我们要采集的内容位置。

(3)、由上面我们得出了,帝国CMS采集正则是把正则变量替换要采集内容后的代码内容。格式:

识别代码头部[!–变量名–]识别代码尾部

注意:上面的“识别代码头部”一定是要唯一的标记。

2、帝国CMS正则还有表示任意内容的字符:“*”

如果“识别代码头部”中有内容是变化的,那么我们可以用*代替它。如页面源代码为如下,我们要采集下面的链接地址:

<a title=”任意可变内容” href=”链接地址”>标题</a>

通过使用“*”任意内容表示字符,我们可以用下面的正则忽略可变内容,获得链接地址:

<a title=”*” href=”[!–newsurl–]”>

附加说明:[!–newsurl–]为页面链接地址的正则变量。

3、其他说明:

(1)、正则要找出唯一性的开头字符。有时候空格都会成为识别的依据。

(2)、对于特殊字符请在前面加上“”,当然直接将特殊字符改为“*”最合适了。特殊字符如下:

“ )”、“(”、“{”、“}”、“[”、“]”、“”、“?”等等。

发布时间:2019-08-10

推荐阅读:

  1. 常见的seo新手问题,例举10条
  2. 不会建站可以学习SEO吗?是否需要懂代码技术才可以?
  3. 网站排名波动,被K等,总结下是否触发算法惩罚
  4. SEO难学?其实找对学习方法,并不难!
  5. shopex怎么设置伪静态?apache空间站点伪静态方法(图文)

了解夫唯SEO特训营

夫唯学院成立于2007年,11年来与数万学员共成长。创始人夫唯先生总结的四处一词、站内站、定向锚文本、聚合等多种核心优化策略,并在众多学员网站上得到验证。夫唯先生推崇“循序渐进,基业长青”的SEO运维思想,以SEOWHY为现实实战案例,历经5年零起步创造了网站品牌。

SEO培训报名联系方式:客服QQ86594013 客服微信:seowhy2021

关于我们 / 联系我们 / 人文关怀 / 付款方式 / 教研室夫唯SEO特训营为您提供SEO培训SEO培训教程,实时搜索引擎算法更新。 © 2018 SEOWHY Inc.