简要咨询咨询QQ网站导航网站搜索手机站点联系我们设为首页加入收藏 

正则表达式删除指定的html标签

来源:易贤网   阅读:1126 次  日期:2016-06-14 09:10:01

温馨提示:易贤网小编为您整理了“正则表达式删除指定的html标签”,方便广大网友查阅!

抓取某网页的数据后(比如描述),如果照原样显示的话,可能会因为它里面包含没有闭合的html标签而打乱了格式,也可能它里面用了比较让人 费解 的html标签,把预订的格式搅乱. 如果全盘删除里面的 html 标签,可能会造成阅读上的困难(比如 a, img 这些标签), 最好是删除一部分,保留一部分.

正则表达式里,判断 包含某些字符串 是非常容易理解的,但是如何判断 不包含某些字符串 (是字符串,不是字符,是某些,不是某个) 确实是个费解的事.

<(?!((/?s?li)|(/?s?ul)|(/?s?a)|(/?s?img)|(/?s?br)|(/?s?span)|(/?s?b)))[^>]+>

这个正则是判断html标签不包含 li / ul / a / img / br / span / b 的,就上面的要求来说,是要 删除 除这里列出的html标签,这也是我摸索了很长时间才搞出来的.

(?!exp) 匹配后面跟的不是exp的位置

/?s? 我一开始试着把它写到最前面的 < 后面,但是测试失败了.

下面是一个简单的函数,把要保留的tag串起来,生成一个正则表达式,然后把不需要的tag删除...

private static string removespecifyhtml(string ctx) {

string[] holdtags = { a, img, br, strong, b, span };//要保留的 tag

// <(?!((/?s?li)|(/?s?ul)|(/?s?a)|(/?s?img)|(/?s?br)|(/?s?span)|(/?s?b)))[^>]+>

string regstr = string.format(@<(?!((/?s?{0})))[^>]+>, string.join(@)|(/?s?, holdtags));

regex reg = new regex(regstr, regexoptions.compiled | regexoptions.multiline | regexoptions.ignorecase);

return reg.replace(ctx, );

}

----------------------------

修正:

上面的正则,如果保留了 li , 实际运行会发现 link 也给保留下来了, 保留 a 会把 addr 也给保留下来, 解决办法就是加 b 断言.

<(?!((/?s?lib)|(/?s?ul)|(/?s?ab)|(/?s?imgb)|(/?s?brb)|(/?s?spanb)|(/?s?bb)))[^>]+>

private static string removespecifyhtml(string ctx) {

string[] holdtags = { a, img, br, strong, b, span, li };//保留的 tag

// <(?!((/?s?lib)|(/?s?ulb)|(/?s?ab)|(/?s?imgb)|(/?s?brb)|(/?s?spanb)|(/?s?bb)))[^>]+>

string regstr = string.format(@<(?!((/?s?{0})))[^>]+>, string.join(@b)|(/?s?, holdtags));

regex reg = new regex(regstr, regexoptions.compiled | regexoptions.multiline | regexoptions.ignorecase);

return reg.replace(ctx, );

}

更多信息请查看网页制作
点此处就本文及相关问题在本站进行非正式的简要咨询(便捷快速)】     【点此处查询各地各类考试咨询QQ号码及交流群
上一篇:frontpage制作网页初学问题解答
下一篇:html5在canvas中绘制矩形附效果图
易贤网手机网站地址:正则表达式删除指定的html标签
由于各方面情况的不断调整与变化,易贤网提供的所有考试信息和咨询回复仅供参考,敬请考生以权威部门公布的正式信息和咨询为准!