在做搜索引擎时,往往需要把搜索的结果经过处理再存入数据库。
这其中一个问题就是去除 HTML 标签。
我们使用正则表达式来实现,类 Regex 的名称空间是:
示例:
说明
Regex 默认支持多行,但大小写敏感,要忽略大小写可在构造函数的第二个参数中设置。这里由于未涉及大小写,故可以不理会。
+? 表示非贪婪匹配,也就是说要求匹配的字符串尽可能的短。
无法正确去除某些非标准的 HTML 代码,比如:<a href=">">cftea</a>,结果将是:">cftea。
相关阅读