逐行解析生成的node.js子进程的输出

问题描述 投票:19回答:6

我有一个PhantomJS / CasperJS脚本,我正在使用process.spawn()从node.js脚本中运行。由于CasperJS不支持require() ing模块,因此我尝试将命令从CasperJS打印到stdout,然后使用spawn.stdout.on('data', function(data) {});从我的node.js脚本中读取它们,以进行将对象添加到Redis的操作。 / mongoose(令人费解,是的,但是比为此设置Web服务要简单得多。)CasperJS脚本执行一系列命令并创建例如20个屏幕快照,需要将其添加到我的数据库中。

但是,我不知道如何将data变量(Buffer?)分成多行...我尝试将其转换为字符串,然后进行替换, spawn.stdout.setEncoding('utf8');,但似乎无济于事...

这里是我现在所拥有的

var spawn = require('child_process').spawn;

var bin = "casperjs"
//googlelinks.js is the example given at http://casperjs.org/#quickstart
var args = ['scripts/googlelinks.js'];
var cspr = spawn(bin, args);

//cspr.stdout.setEncoding('utf8');
cspr.stdout.on('data', function (data) {
    var buff = new Buffer(data);
    console.log("foo: " + buff.toString('utf8'));
});

cspr.stderr.on('data', function (data) {
    data += '';
    console.log(data.replace("\n", "\nstderr: "));
});

cspr.on('exit', function (code) {
    console.log('child process exited with code ' + code);
    process.exit(code);
});

https://gist.github.com/2131204

node.js phantomjs
6个回答
16
投票

尝试一下:

cspr.stdout.setEncoding('utf8');
cspr.stdout.on('data', function(data) {
  var str = data.toString(), lines = str.split(/(\r?\n)/g);
  for (var i=0; i<lines.length; i++) {
    // Process the line, noting it might be incomplete.
  }
});

请注意,“数据”事件不一定在输出的两行之间平均中断,因此一行可能跨越多个数据事件。


12
投票

我为此目的实际上已经编写了一个Node库,它被称为分流器,您可以在Github上找到它:samcday/stream-splitter

该库提供了一个特殊的Stream,您可以将casper stdout与定界符(在您的情况下为\ n)一起传递到管道中,并且它将发出整齐的token事件,它从中分离出的每一行都发生一个输入Stream。这的内部实现非常简单,将大多数魔术委托给substack/node-buffers表示这意味着没有不必要的Buffer分配/副本。


2
投票

[添加到maerics的答案中,它不能正确处理数据转储中仅馈送一部分行的情况(它们分别为您提供该行的第一部分和第二部分,作为两条单独的行。)

var _breakOffFirstLine = /\r?\n/
function filterStdoutDataDumpsToTextLines(callback){ //returns a function that takes chunks of stdin data, aggregates it, and passes lines one by one through to callback, all as soon as it gets them.
    var acc = ''
    return function(data){
        var splitted = data.toString().split(_breakOffFirstLine)
        var inTactLines = splitted.slice(0, splitted.length-1)
        var inTactLines[0] = acc+inTactLines[0] //if there was a partial, unended line in the previous dump, it is completed by the first section.
        acc = splitted[splitted.length-1] //if there is a partial, unended line in this dump, store it to be completed by the next (we assume there will be a terminating newline at some point. This is, generally, a safe assumption.)
        for(var i=0; i<inTactLines.length; ++i){
            callback(inTactLines[i])
        }
    }
}

用法:

process.stdout.on('data', filterStdoutDataDumpsToTextLines(function(line){
    //each time this inner function is called, you will be getting a single, complete line of the stdout ^^
}) )

1
投票

我发现了一个更好的方法,可以使用纯节点来执行此操作,这似乎效果很好:

const childProcess = require('child_process');
const readline = require('readline');

const cspr = childProcess.spawn(bin, args);

const rl = readline.createInterface({ input: cspr.stdout });
rl.on('line', line => /* handle line here */)


0
投票

您可以尝试一下。它将忽略任何空行或空新换行符。

cspr.stdout.on('data', (data) => {
    data = data.toString().split(/(\r?\n)/g);
    data.forEach((item, index) => {
        if (data[index] !== '\n' && data[index] !== '') {
            console.log(data[index]);
        }
    });
});

0
投票

旧内容,但仍然有用...

为此,我制作了一个自定义流Transform子类。

请参见https://stackoverflow.com/a/59400367/4861714

© www.soinside.com 2019 - 2024. All rights reserved.