当前位置:首页>行业动态> 正文

如何编写DEDECMS采集的过滤规则?

DEDECMS采集教程:过滤规则的编写涉及设置关键词、排除条件和正则表达式,确保精准抓取目标内容。

DEDECMS采集教程:过滤规则的编写

中空格

在采集文章时,经常会遇到标题中含有空格的情况,这些空格在采集回来后可能会对后续处理造成不便,需要在过滤处添加正则表达式来过滤掉标题中的空格,具体实现方法如下:

{dede:trim} {/dede:trim}

过滤来源作者中的链接

有时在采集文章时,来源或作者字段中会包含链接,如果不进行过滤,直接采集这些内容可能会导致采集失败或者采集到的内容不完整,需要使用正则表达式过滤掉这些链接:

如何编写DEDECMS采集的过滤规则?  第1张

{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}

过滤文章内容中的链接及其他广告代码

在采集文章内容时,经常会包含一些链接、广告代码等不需要的内容,可以使用以下正则表达式来过滤掉这些内容:

{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}

过滤特定广告代码(如GG广告)

对于一些特定的广告代码,例如Google的广告代码,可以使用专门的正则表达式进行过滤:

{dede:trim}<script([^>]*)>(.*)</script>{/dede:trim}

表格:常用过滤规则汇总

过滤类型正则表达式
标题中空格{dede:trim} {/dede:trim}
来源作者中的链接{dede:trim}]*)>([^<]*){/dede:trim}
文章内容中的链接及其他广告{dede:trim}]*)>([^<]*){/dede:trim}
特定广告代码(如GG广告){dede:trim}]*)>(.*){/dede:trim}
去除所有HTML标签{dede:trim}]*>{/dede:trim}
去除样式和脚本标签{dede:trim}]*)>(.*)

{/dede:trim}

,{dede:trim}]*)>(.*){/dede:trim}

相关问答FAQs

Q1: 如何过滤掉文章中的所有超链接?

A1: 要过滤掉文章中的所有超链接,可以使用以下正则表达式:

{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}

Q2: 如果我只想保留链接中的文字部分,应该如何修改过滤规则?

A2: 如果你只想保留链接中的文字部分,可以采用以下正则表达式:

{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}
序号参数名称说明示例
1类型选择采集内容的类型,如文章、图片、视频等。文章
2来源设置采集内容的来源,可以是网站地址、关键词或分类。http://www.example.com
3标题规则使用正则表达式或关键词过滤标题。^[u4e00u9fa5]{2,10}$为210个汉字)
4支持的关键字title,h1,h2,h3,h4,h5,h6
5内容规则使用正则表达式或关键词过滤内容。[u4e00u9fa5]{100,}至少100个汉字)
6支持的关键字content,article,text
7链接规则使用正则表达式或关键词过滤链接。http(s)?://.*?.example.com/.(链接包含example.com)
8支持的关键字href,url
9图片规则使用正则表达式或关键词过滤图片。src=".*?.jpg"(图片后缀为.jpg)
10支持的关键字img,src
11时间规则使用正则表达式或关键词过滤时间。d{4}d{2}d{2}(时间格式为年月日)
12支持的关键字date,time
13分类规则使用正则表达式或关键词过滤分类。分类1分类2分类3(包含分类1、分类2或分类3)
14支持的关键字category,class
15标签规则使用正则表达式或关键词过滤标签。标签1,标签2,标签3(包含标签1、标签2或标签3)
16支持的关键字tag,label
17作者规则使用正则表达式或关键词过滤作者。作者1作者2作者3(包含作者1、作者2或作者3)
18支持的关键字author