asp.net 更好的清洁方法?

ecr0jaav  于 2022-11-26  发布在  .NET
关注(0)|答案(9)|浏览(171)

我用这个方法清理一个字符串:

public static string CleanString(string dirtyString)
{
    string removeChars = " ?&^$#@!()+-,:;<>’\'-_*";
    string result = dirtyString;

    foreach (char c in removeChars)
    {
        result = result.Replace(c.ToString(), string.Empty);
    }

    return result;
}

这个方法给出了正确的结果。但是,这个方法有一个性能问题。每次传递字符串时,每个字符都会进入循环。如果字符串很大,那么返回对象将花费太多时间。
有没有更好的方法来做同样的事情?也许使用LINQ或jQuery/JavaScript?
如有任何建议,我们将不胜感激。

lx0bsm1f

lx0bsm1f1#

好的,考虑下面的测试:

public class CleanString
{
    //by MSDN http://msdn.microsoft.com/en-us/library/844skk0h(v=vs.71).aspx
    public static string UseRegex(string strIn)
    {
        // Replace invalid characters with empty strings.
        return Regex.Replace(strIn, @"[^\w\.@-]", "");
    }

    // by Paolo Tedesco
    public static String UseStringBuilder(string strIn)
    {
        const string removeChars = " ?&^$#@!()+-,:;<>’\'-_*";
        // specify capacity of StringBuilder to avoid resizing
        StringBuilder sb = new StringBuilder(strIn.Length);
        foreach (char x in strIn.Where(c => !removeChars.Contains(c)))
        {
            sb.Append(x);
        }
        return sb.ToString();
    }

    // by Paolo Tedesco, but using a HashSet
    public static String UseStringBuilderWithHashSet(string strIn)
    {
        var hashSet = new HashSet<char>(" ?&^$#@!()+-,:;<>’\'-_*");
        // specify capacity of StringBuilder to avoid resizing
        StringBuilder sb = new StringBuilder(strIn.Length);
        foreach (char x in strIn.Where(c => !hashSet.Contains(c)))
        {
            sb.Append(x);
        }
        return sb.ToString();
    }

    // by SteveDog
    public static string UseStringBuilderWithHashSet2(string dirtyString)
    {
        HashSet<char> removeChars = new HashSet<char>(" ?&^$#@!()+-,:;<>’\'-_*");
        StringBuilder result = new StringBuilder(dirtyString.Length);
        foreach (char c in dirtyString)
            if (removeChars.Contains(c))
                result.Append(c);
        return result.ToString();
    }

    // original by patel.milanb
    public static string UseReplace(string dirtyString)
    {
        string removeChars = " ?&^$#@!()+-,:;<>’\'-_*";
        string result = dirtyString;

        foreach (char c in removeChars)
        {
            result = result.Replace(c.ToString(), string.Empty);
        }

        return result;
    }

    // by L.B
    public static string UseWhere(string dirtyString)
    {
        return new String(dirtyString.Where(Char.IsLetterOrDigit).ToArray());
    }
}

static class Program
{
    /// <summary>
    /// The main entry point for the application.
    /// </summary>
    [STAThread]
    static void Main()
    {
        var dirtyString = "sdfdf.dsf8908()=(=(sadfJJLef@ssyd€sdöf////fj()=/§(§&/(\"&sdfdf.dsf8908()=(=(sadfJJLef@ssyd€sdöf////fj()=/§(§&/(\"&sdfdf.dsf8908()=(=(sadfJJLef@ssyd€sdöf";
        var sw = new Stopwatch();

        var iterations = 50000;
        
        sw.Start();
        for (var i = 0; i < iterations; i++)
            CleanString.<SomeMethod>(dirtyString);
        sw.Stop();
        Debug.WriteLine("CleanString.<SomeMethod>: " + sw.ElapsedMilliseconds.ToString());
        sw.Reset();

        ....
        <repeat>
        ....       
    }
}

输出

CleanString.UseReplace: 791
CleanString.UseStringBuilder: 2805
CleanString.UseStringBuilderWithHashSet: 521
CleanString.UseStringBuilderWithHashSet2: 331
CleanString.UseRegex: 1700
CleanString.UseWhere: 233

结论

使用哪种方法可能并不重要。
最快的时间差(UseWhere:233毫秒)和最慢的(UseStringBuilder:2805ms)方法的时间为2572ms。如果您不经常执行这个方法,这个差异并不重要。
但是,如果性能很重要,则使用UseWhere方法(由L.B编写)。

k5hmc34c

k5hmc34c2#

如果你追求的只是速度和效率,我建议你这样做:

public static string CleanString(string dirtyString)
{
    HashSet<char> removeChars = new HashSet<char>(" ?&^$#@!()+-,:;<>’\'-_*");
    StringBuilder result = new StringBuilder(dirtyString.Length);
    foreach (char c in dirtyString)
        if (!removeChars.Contains(c)) // prevent dirty chars
            result.Append(c);
    return result.ToString();
}

RegEx当然是一个很好的解决方案,但是它增加了额外的开销。通过指定字符串构建器的起始长度,它只需要分配一次内存(在结束时为ToString分配第二次)。这将减少内存使用并提高速度,特别是对于较长的字符串。
但是,正如L.B.所说,如果您要使用此方法对绑定到HTML输出的文本进行正确编码,则应该使用HttpUtility.HtmlEncode,而不是自己进行编码。

vkc1a9a2

vkc1a9a23#

使用正则表达式[?&^$#@!()+-,:;<>’\'-_*]替换为空字符串

50pmv0ei

50pmv0ei4#

我不知道在性能方面,使用Regex或LINQ是否会有所改进。
使用StringBuilder创建新字符串,而不是每次都使用string.Replace,这可能会很有用:

using System.Linq;
using System.Text;

static class Program {
    static void Main(string[] args) {
        const string removeChars = " ?&^$#@!()+-,:;<>’\'-_*";
        string result = "x&y(z)";
        // specify capacity of StringBuilder to avoid resizing
        StringBuilder sb = new StringBuilder(result.Length);
        foreach (char x in result.Where(c => !removeChars.Contains(c))) {
            sb.Append(x);
        }
        result = sb.ToString();
    }
}
72qzrwbm

72qzrwbm5#

这个更快!
用途:

string dirty=@"tfgtf$@$%gttg%$% 664%$";
string clean = dirty.Clean();

    public static string Clean(this String name)
    {
        var namearray = new Char[name.Length];

        var newIndex = 0;
        for (var index = 0; index < namearray.Length; index++)
        {
            var letter = (Int32)name[index];

            if (!((letter > 96 && letter < 123) || (letter > 64 && letter < 91) || (letter > 47 && letter < 58)))
                continue;

            namearray[newIndex] = (Char)letter;
            ++newIndex;
        }

        return new String(namearray).TrimEnd();
    }
pkln4tw6

pkln4tw67#

首先解释“为什么”,然后解释“是什么”可能会有所帮助。性能变慢的原因是因为c#复制并替换每个替换的字符串。根据我的经验,在.NET中使用Regex并不总是更好--尽管在大多数情况下(我认为包括这一个)它可能会工作得很好。
如果我真的需要性能,我通常不会让它取决于运气,而只是告诉编译器我到底想要什么:也就是说:创建一个字符数上限的字符串,然后复制其中所有需要的字符。也可以用switch / case或array来替换hashset,在这种情况下,您可能会以跳转表或数组查找结束--这会更快。
“务实”的最佳但快速的解决方案是:

char[] data = new char[dirtyString.Length];
int ptr = 0;
HashSet<char> hs = new HashSet<char>() { /* all your excluded chars go here */ };
foreach (char c in dirtyString)
    if (!hs.Contains(c))
        data[ptr++] = c;
return new string(data, 0, ptr);

顺便说一句:当你想处理高代理Unicode字符时,这个解决方案是不正确的--但是可以很容易地修改以包括这些字符。

  • 斯特凡
wd2eg0qa

wd2eg0qa8#

我在我目前的项目中使用了这个,它工作得很好。它取一个句子,删除所有非字母数字字符,然后返回句子,所有单词的第一个字母都是大写,其他所有单词都是小写。也许我应该叫它SentenceNormalizer。命名很难:)

internal static string StringSanitizer(string whateverString)
{
    whateverString = whateverString.Trim().ToLower();
    Regex cleaner = new Regex("(?:[^a-zA-Z0-9 ])", RegexOptions.IgnoreCase | RegexOptions.CultureInvariant | RegexOptions.Compiled);
    var listOfWords = (cleaner.Replace(whateverString, string.Empty).Split(' ', StringSplitOptions.RemoveEmptyEntries)).ToList();
    string cleanString = string.Empty;
    foreach (string word in listOfWords)
    {
        cleanString += $"{word.First().ToString().ToUpper() + word.Substring(1)} ";
    }
    return cleanString;
}
hlswsv35

hlswsv359#

我不能花时间对酸测试这一点,但这一行实际上并没有清理斜线所需的。

HashSet<char> removeChars = new HashSet<char>(" ?&^$#@!()+-,:;<>’\'-_*");

我必须单独添加斜杠并转义反斜杠

HashSet<char> removeChars = new HashSet<char>(" ?&^$#@!()+-,:;<>’'-_*");
removeChars.Add('/');
removeChars.Add('\\');

相关问题