performance 相关问题

我需要使用 ONNX 运行时模型的 I/O 绑定来绑定张量输入和输出。但我没有得到输出。输出张量返回 NULL 指针。我将附上下面的代码。 std::向量我需要使用 ONNX 运行时模型的 I/O 绑定来绑定张量输入和输出。但我没有得到输出。输出张量返回 NULL 指针。我将附上下面的代码。 std::vector<Ort::Value> input_tensors; std::vector<Ort::Value> output_tensors; std::vector<const char*> input_node_names_c_str; std::vector<const char*> output_node_names_c_str; int64_t input_height = input_node_dims[0].at(2); int64_t input_width = input_node_dims[0].at(3); // // Pass gpu_graph_id to RunOptions through RunConfigs Ort::RunOptions run_option; // gpu_graph_id is optional if the session uses only one cuda graph run_option.AddConfigEntry("gpu_graph_id", "1"); // Dimension expansion [CHW -> NCHW] std::vector<int64_t> input_tensor_shape = {1, 3, input_height, input_width}; std::vector<int64_t> output_tensor_shape = {1, 300, 84}; size_t input_tensor_size = vector_product(input_tensor_shape); size_t output_tensor_size = vector_product(output_tensor_shape); std::vector<float> input_tensor_values(p_blob, p_blob + input_tensor_size); Ort::IoBinding io_binding{session}; Ort::MemoryInfo memory_info = Ort::MemoryInfo::CreateCpu(OrtDeviceAllocator, OrtMemTypeCPU); input_tensors.push_back(Ort::Value::CreateTensor<float>( memory_info, input_tensor_values.data(), input_tensor_size, input_tensor_shape.data(), input_tensor_shape.size() )); // Check if input and output node names are empty for (const auto& inputNodeName : input_node_names) { if (std::string(inputNodeName).empty()) { std::cerr << "Empty input node name found." << std::endl; } } // format conversion for (const auto& inputName : input_node_names) { input_node_names_c_str.push_back(inputName.c_str()); } for (const auto& outputName : output_node_names) { output_node_names_c_str.push_back(outputName.c_str()); } io_binding.BindInput(input_node_names_c_str[0], input_tensors[0]); Ort::MemoryInfo output_mem_info{"Cuda", OrtDeviceAllocator, 0, OrtMemTypeDefault}; cudaMalloc(&output_data_ptr, output_tensor_size * sizeof(float)); output_tensors.push_back(Ort::Value::CreateTensor<float>( output_mem_info, static_cast<float*>(output_data_ptr),output_tensor_size, output_tensor_shape.data(),output_tensor_shape.size())); io_binding.BindOutput(output_node_names_c_str[0], output_tensors[0]); session.Run(run_option, io_binding); //Get output results auto* rawOutput = output_tensors[0].GetTensorData<float>(); cout<<rawOutput<<endl; //suhail cudaFree(output_data_ptr); //suhail std::vector<int64_t> outputShape = output_tensors[0].GetTensorTypeAndShapeInfo().GetShape(); for(auto i:outputShape){cout<<i<<" ";} cout<<endl; //suhail size_t count = output_tensors[0].GetTensorTypeAndShapeInfo().GetElementCount(); cout<<count<<endl; //suhail std::vector<float> output(rawOutput, rawOutput + count); 我交叉检查了输入张量数据和形状以及输出张量。但我得到了 NULL 指针。我该如何解决这个问题。任何人都有 I/O 绑定的经验。请给我解决这个问题的提示。试试这个 auto rawOutput = output_tensors.front().GetTensorMutableData<float>(); 而不是 auto* rawOutput = output_tensors[0].GetTensorData<float>();

c++ performance tensorflow onnxruntime

回答 1 投票 0

React Native - Animated.View 与常规 View 组件之间的性能差异

使用动画组件（即 Animated.View）与使用常规组件（即，如果涉及 0 个动画，则在 React Native 中查看）是否会对性能产生影响？代码示例：使用动画组件（即 Animated.View）与使用常规组件（即 React Native 中的 View）如果涉及 0 个动画，是否会对性能产生影响？代码示例： <View> <Text>asd</Text> </View> VS <Animated.View> <Text>asd</Text> </Animated.View> 我从未见过人们提到使用动画组件时对性能有任何影响，但如果没有的话，为什么 React 开发人员没有将所有组件默认设置为动画。每当我们有一个组件经常使用内联样式更新本机视图时，使用 Animated.View 以及可选的本机驱动程序可以节省大量重新渲染。当我们使用Animated.View时，在引擎盖后面会发生以下过程：动画开始时，requestAnimationFrame在JS中被触发新仓位以JS计算 JS 序列化新的位置值并将其发送到反应原生桥在桥的另一端，Java (android) 和 C# (iOS) 对其进行反序列化并更新底层 Native View 然后框架会在屏幕上更新。正如我们所看到的，Animated.View样式不会触发React Native组件的重新渲染，这就是为什么在这种情况下应该优先使用它们而不是<View />以避免浪费渲染。参考：[https://tech.unacademy.com/10-ways-to-avoid-wasted-renders-in-react-native-app-part-2/][1] Animated 是一个包装器，动画。将动画值赋予道具，以便它们可以进行有针对性的本机更新而不是反应渲染，以避免每帧的成本。所以如果是动画的话最好使用它。如果你想在任何地方调用一次，你可以使用 if else 策略作为一个新组件👍 在 React Native 中使用 Animated.View 而不是 View 即使没有动画也会影响性能：开销：Animated组件具有额外的动画逻辑，这会增加一点性能成本。优化：像View这样的常规组件针对静态渲染进行了优化，使其在不需要动画时速度更快。框架复杂性：默认将所有组件设置为动画会增加复杂性和维护问题。结论：仅在必要时使用动画组件以保持性能和简单性。

javascript performance reactjs react-native

回答 3 投票 0

pthread 的工作负载真的需要以毫秒为单位才能使 pthread 受益吗？

我正在尝试衡量哪些工作负载的 pthread 变得有用。到目前为止，我发现工作负载需要大约 3 毫秒才能使 pthreads 对整体进度做出积极贡献（在 Alde 上......

multithreading performance pthreads benchmarking

回答 1 投票 0

performance 相关问题

最新问题