需要有效扫描大型excel文件中的低端ascii控制字符。

Question

我正在研究一个ETL验证过程，以便在处理之前扫描无效的ascii字符。在这种情况下，无效被定义为0-31范围内的ascii字符。

在一个C# ETL验证服务中，我使用OfficeOpenXml来检查excel文件的内容。

除了循环每个工作表、每列和每行之外，有谁知道有什么更有效的方法来搜索内容？文件可能非常大，验证应该尽可能快。

是否可以访问原始xml缓冲区？解压xml文件并扫描那里的内容是否会更快？

Answer 1

首先，我认为是时候进行速度咆哮了。https:/ericlippert.com20121217performance-rant

问题是，现在的瓶颈在哪里。我的直觉告诉我应是磁盘。您正在处理文件，所以通常是磁盘。如果是这样的话，如果不把每个单元格只加载一次到内存中，就不会有太多的加速。

然而，你正在对字符串进行相当深入的处理，因为你必须检查每一个字符。所以可能会有一个相关量的时间花费在这上面。很可能不是瓶颈，但你可以将其作为成本来否定。

你也许可以做一些异步化，当你处理这个单元格时，让下一个单元格在后台加载。像这样的方法 Directory.EnumerateFiles() 与 Directory.GetFiles 可能会有用。https:/docs.microsoft.comen-usdotnetapisystem.io.directory.enumeratefiles。

行似乎有一个 GetEnumerator 函数。但它可能只是为了得到一个Enumerator，用于代码的需要 Enuemrators，而实际上并不包括deferedbackground loading（即像为foreach循环隐式创建的Enumerator一样）。

Answer 2

我写了测试线束，并得出了14种变化，使用string[]和List作为数据结构和以下迭代器。

1 : foreach (char c in s.ToCharArray())

2 :

byte[] ASCIIValues = Encoding.ASCII.GetBytes(s);
foreach (byte code in ASCIIValues)

3 :

Regex rx = new Regex(@"/[^ -~]/", RegexOptions.Compiled | RegexOptions.IgnoreCase);
MatchCollection matches = rx.Matches(s);

4 :

for(int x=0; x < s.Length; x++)