解释Flair中的training.log（Zalando Research）

Question

我正在使用Flair库，以查看微调（单独实现）和嵌入投影之间是否有很大的区别（在结果方面）。我面临的问题涉及读取结果（在这种情况下，通过使用BERT嵌入完成了实验）。在training.log中，我得到以下信息：

2019-10-10 16:27:02,964 Testing using best model ...
2019-10-10 16:27:02,966 loading file best-model.pt

2019-10-10 16:37:23,793 0.7539  0.7539  0.7539

2019-10-10 16:37:23,795

MICRO_AVG: acc 0.605 - f1-score 0.7539
MACRO_AVG: acc 0.5467 - f1-score 0.6925

0 tp: 1420 - fp: 438 - fn: 144 - tn: 363 - precision: 0.7643 - recall: 0.9079 - accuracy: 0.7093 - f1-score: 0.8299
1 tp: 363 - fp: 144 - fn: 438 - tn: 1420 - precision: 0.7160 - recall: 0.4532 - accuracy: 0.3841 - f1-score: 0.5551

2019-10-10 16:37:23,796

我的测试数据集包含2365个用于二进制文本分类任务的实例。最后两行是什么意思？ 0和1后面是真实的肯定值，精度，召回率等？什么是0？什么是1？我还分别加载了最佳模型并在测试数据集上进行了测试，得出了不同的结果。

任何帮助将不胜感激。

Answer 1

因为，您正在微调二进制分类，所以精度，召回率和F1度量是评估模型的一种方法，而您所看到的只是对模型的评估。

第一个字符0或1表示0类或1类（2类，作为其二进制分类）。对于每个类，它都提到了正阳性（tp），假阳性（fp），假阴性（fn）和真阴性（tn）的数量。您可以将它们全部加起来，等于测试集中的示例数量。

tp，tn，fp，fn的简短描述：

对于班级0（作为肯定班级：

tp：类别0的实际示例数，正确地预测为类别0

fn：第1类的实际示例数，正确地预测为第1类

fp：类别1的实际示例数，被错误地预测为类别0

tn：类别0的实际示例数，被错误地预测为类别1

反之亦然，第一类第二行。

解释Flair中的training.log（Zalando Research）

问题描述投票：0回答：1

1个回答

最新问题

解释Flair中的training.log（Zalando Research）

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1