JHDF5 - 如何避免数据集被覆盖

问题描述 投票:0回答:2

我正在使用 JHDF5 将值集合记录到 hdf5 文件中。我目前使用两个 ArrayList 来执行此操作,一个包含值,另一个包含值的名称。

ArrayList<String> valueList = new ArrayList<String>(); 
ArrayList<String> nameList = new ArrayList<String>();

valueList.add("Value1");
valueList.add("Value2");
nameList.add("Name1");
nameList.add("Name2");

IHDF5Writer writer = HDF5Factory.configure("My_Log").keepDataSetsIfTheyExist().writer();    
HDF5CompoundType<List<?>> type = writer.compound().getInferredType("", nameList, valueList);        

writer.compound().write("log1", type, valueList);       
writer.close();

这将以正确的方式将值记录到文件 My_Log 和数据集“log1”中。但是,此示例始终会覆盖数据集“log1”中值的先前日志。我希望能够每次登录到相同的数据集,将最新的日志添加到数据集的下一行/索引。例如,如果我要将

"Name2"
的值更改为
"Value3"
并记录这些值,然后将
"Name1"
更改为
"Value4"
,将
"Name2"
更改为
"Value5"
并记录值,则数据集应该看起来像这样:

enter image description here

我认为

keepDataSetsIfTheyExist()
选项可以防止数据集被覆盖,但显然它不起作用。

在某些情况下可以使用

writer.compound().writeArrayBlock()
实现与我想要的类似的东西,并指定应按什么索引写入数组块。但是,此解决方案似乎与我当前的代码不兼容,我必须使用列表来处理数据。

是否有一些我忽略的选项可以实现此目的,或者不能使用 JHDF5 来完成此操作?

java hdf5
2个回答
0
投票

我认为这行不通。我不太清楚,但我相信您使用的 getInferredType() 正在创建一个包含 2 个名称 -> 值条目的数据集。所以它实际上是在 hdf5 内部创建一个对象。我能想到的最好的解决方案是读取之前的值,然后在输出之前将它们添加到 valueList 中:

    ArrayList<String> valueList = new ArrayList<>();

    valueList.add("Value1");
    valueList.add("Value2");

    try (IHDF5Reader reader = HDF5Factory.configure("My_Log.h5").reader()) {
        String[] previous = reader.string().readArray("log1");
        for (int i = 0; i < previous.length; i++) {
            valueList.add(i, previous[i]);
        }
    } catch (HDF5FileNotFoundException ex) {
        // Nothing to do here.
    }

    MDArray<String> values = new MDArray<>(String.class, new long[]{valueList.size()});
    for (int i = 0; i < valueList.size(); i++) {
        values.set(valueList.get(i), i);
    }

    try (IHDF5Writer writer = HDF5Factory.configure("My_Log.h5").writer()) {
        writer.string().writeMDArray("log1", values);
    }

如果您使用“Value3”和“Value4”再次调用此代码,您将获得 4 个值。然而,如果您开始拥有数据集的层次结构,这种解决方案可能会变得令人不快。


0
投票

要解决您的问题,您需要将数据集

log1
定义为可扩展的,以便它可以存储未知数量的日志条目(随着时间的推移生成)并使用点或超板选择写入这些条目(否则,数据集将被覆盖)。

如果您不受特定技术来处理 HDF5 文件的限制,您可能希望看看HDFql,它是一种可以轻松管理 HDF5 文件的高级语言。使用 HDFql(在 Java 中)的用例的可能解决方案是:

public class Example
{

    public Class Log
    {
        String name1;
        String name2;
    }

    public boolean doSomething(Log log)
    {
        log.name1 = "Value1";
        log.name2 = "Value2";
        return true;
    }

    public static void main(String args[])
    {
        // declare variables
        Log log = new Log();
        int variableNumber;

        // create an HDF5 file named 'My_Log.h5' and use (i.e. open) it
        HDFql.execute("CREATE AND USE FILE My_Log.h5");

        // create an extendible HDF5 dataset named 'log1' of data type compound
        HDFql.execute("CREATE DATASET log1 AS COMPOUND(name1 AS VARCHAR, name2 AS VARCHAR)(0 TO UNLIMITED)");

        // register variable 'log' for subsequent usage (by HDFql)
        variableNumber = HDFql.variableRegister(log);

        // call function 'doSomething' that does something and populates variable 'log' with an entry
        while(doSomething(log))
        {
            // alter (i.e. extend) dataset 'log1' to +1 (i.e. add a new row)
            HDFql.execute("ALTER DIMENSION log1 TO +1");

            // insert (i.e. write) data stored in variable 'log' into dataset 'log1' using a point selection
            HDFql.execute("INSERT INTO log1[-1] VALUES FROM MEMORY " + variableNumber);
        }
    }

}
© www.soinside.com 2019 - 2024. All rights reserved.