在模型开发的什么时候进行模型校准最好？

我一直在 R studio 中基于一个相当小的数据集研究预测模型。总共有大约 1200 个案例，其中 150 到 400 个阳性案例取决于正在建模的不同结果中的哪一个。

最初它是用 70/30 的拆分来完成的，该拆分被分层为在两组中具有相似的阳性案例分布，但是在获得知识之后，尤其是在阅读了 Frank Harrel 的一些文献之后（例如：“预测模型需要适当的内部， Steyerberg 和 Harrel 的内部-外部和外部验证）我正在考虑不同的设置。

我对我已经完成的工作的主要关注是校准。对于具有约 10% 正类的集合，Brier 分数约为 0.10。据我了解，这意味着一个非信息模型？ AUC 约为 0.80，但可靠性图也表明校准不佳。 DCA 意味着使用模型的净收益。

我的主要问题是关于何时对正在开发的模型（GML、XGB、RF）应用校准。我已经看到一些设置，人们建议在训练 - 验证 - 测试中拆分，由于数据大小，在这种情况下这是不可能的，甚至会进一步减少开发模型的可用数据量。

我能否采用 70% 的数据训练集，使用 CV 或 bootstrapping 训练模型，从 cv 的测试折叠的平均值中获取性能指标，并最终根据这些结果校准模型，然后再将它们应用到 hold out一组 30%？
是否有另一种方法可以在模型开发期间执行校准而无需访问外部验证集？

否则，如果您开发了一个校准不佳但 AUC 似乎暗示合理歧视的模型，如果不知道它可以改进为可以在现实世界中使用的校准良好的模型，为什么还要继续进行外部验证。

或者您是否报告了包括校准不良在内的结果，并希望将来某个时候可以在外部验证阶段解决...？这似乎是一个糟糕的解决方案！

提前感谢您的任何意见/建议！