在CUDA中实现通用格式化流输出的最麻烦的方法？

Question

我希望能够写一些接近的东西：

std::cout << "Hello" << my_world_string << ", " << std::setprecision(5) << my_double << '\n';

在CUDA设备端代码中，用于调试模板功能-并使此类代码行产生不间断的单个输出行（即，等效于单个CUDA printf()调用-通常不会被其他线程的输出弄糟了。

当然，这是不可能的，因为在设备端代码中没有文件或文件描述符，在设备端代码中也没有可用的std::ostream代码。本质上，我们必须配合使用的是启用printf()的CUDA的硬件和软件黑客。但是显然有可能得到类似的东西：

stream  << "Hello" << my_world_string << ", " << foo::setprecision(5) << my_double << '\n'; 
stream.flush();

或：

stream  << "Hello" << my_world_string << ", " << foo::setprecision(5) << my_double << '\n'; 
printf("%s", stream.str());

我的问题是：我应该实现什么才能使我编写尽可能接近上述代码的代码，从而最大程度地减少工作量/编写代码量？

注意：

Answer 1

目前，我正在考虑的实现方式是：

鲍勃是你的叔叔。

但是，我真的很想避免自己实现一个完善的字符串流。似乎有很多多余的工作和代码。