ASP.NET(C#) 如何去除 HTML 标签

作者：vkvi 来源：ITPOW（原创）日期：2008-3-26

ASP(VBScript) 如何去除 HTML 标签
ASP.NET(C#) 如何去除 HTML 标签
PHP 自带函数去除 HTML 标签
JavaScript 如何去除 HTML 标签

在做搜索引擎时，往往需要把搜索的结果经过处理再存入数据库。

这其中一个问题就是去除 HTML 标签。

我们使用正则表达式来实现，类 Regex 的名称空间是：

System.Text.RegularExpressions

示例：

string str = @"<a href=""
"" target=""_blank"">cftea</a>";
Regex regex = new Regex(@"<(.|\n)+?>");
str = regex.Replace(str, "");
MessageBox.Show(str);

说明

Regex 默认支持多行，但大小写敏感，要忽略大小写可在构造函数的第二个参数中设置。这里由于未涉及大小写，故可以不理会。

+? 表示非贪婪匹配，也就是说要求匹配的字符串尽可能的短。

无法正确去除某些非标准的 HTML 代码，比如：<a href=">">cftea</a>，结果将是：">cftea。