我在 Tensorboard 的配置文件部分没有看到任何内容。运行后得到如下Tensorboard界面
tensorboard --logdir logdir
logdir
的树如下:
logdir
├── events.out.tfevents.17026478. gpu.profile-empty
└── plugins
└── profile
├── 2023_12_15_12_41_18
│ ├── gpu.input_pipeline.pb
│ ├── gpu.kernel_stats.pb
│ ├── gpu.memory_profile.json.gz
│ ├── gpu.overview_page.pb
│ ├── gpu.tensorflow_stats.pb
│ ├── gpu.trace.json.gz
│ └── gpu.xplane.pb
├── 2023_12_15_12_41_21
│ ├── gpu.input_pipeline.pb
│ ├── gpu.kernel_stats.pb
│ ├── gpu.memory_profile.json.gz
│ ├── gpu.overview_page.pb
│ ├── gpu.tensorflow_stats.pb
│ ├── gpu.trace.json.gz
│ └── gpu.xplane.pb
├── 2023_12_15_12_41_22
│ ├── gpu.input_pipeline.pb
│ ├── gpu.kernel_stats.pb
│ ├── gpu.memory_profile.json.gz
│ ├── gpu.overview_page.pb
│ ├── gpu.tensorflow_stats.pb
│ ├── gpu.trace.json.gz
│ └── gpu.xplane.pb
├── 2023_12_15_12_41_23
│ ├── gpu.input_pipeline.pb
│ ├── gpu.kernel_stats.pb
│ ├── gpu.memory_profile.json.gz
│ ├── gpu.overview_page.pb
│ ├── gpu.tensorflow_stats.pb
│ ├── gpu.trace.json.gz
│ └── gpu.xplane.pb
├── 2023_12_15_12_41_24
│ ├── gpu.input_pipeline.pb
│ ├── gpu.kernel_stats.pb
│ ├── gpu.memory_profile.json.gz
│ ├── gpu.overview_page.pb
│ ├── gpu.tensorflow_stats.pb
│ ├── gpu.trace.json.gz
│ └── gpu.xplane.pb
├── 2023_12_15_12_41_25
│ ├── gpu.input_pipeline.pb
│ ├── gpu.kernel_stats.pb
│ ├── gpu.memory_profile.json.gz
│ ├── gpu.overview_page.pb
│ ├── gpu.tensorflow_stats.pb
│ ├── gpu.trace.json.gz
│ └── gpu.xplane.pb
└── 2023_12_15_12_41_26
├── gpu.input_pipeline.pb
├── gpu.kernel_stats.pb
├── gpu.memory_profile.json.gz
├── gpu.overview_page.pb
├── gpu.tensorflow_stats.pb
├── gpu.trace.json.gz
└── gpu.xplane.pb
9 directories, 50 files
logdir
这是一个简单的训练循环,使用
tf.profiler.experimental.Profile
API,灵感来自于 这个 TF 教程:
for epoch in range(1, epochs+1):
if dataset_exists is True:
#with tf.profiler.experimental.Trace('train', step_num=epoch, _r=1):
with tf.profiler.experimental.Profile("logdir"):
loss_train = model.training_step(dataset, optimizer)
else:
loss_train = training_step(model._model, X_train, Y_train, optimizer)
我在集群上运行代码以便使用 GPU。然后我使用 scp 将 logdir 文件夹从集群复制到我的个人笔记本电脑。
命令的输出
tensorboard --logdir logdir --inspect
:
======================================================================
Processing event files... (this can take a few minutes)
======================================================================
Found event files in:
logdir
These tags are in logdir:
audio -
histograms -
images -
scalars -
tensor -
======================================================================
Event statistics for logdir:
audio -
graph -
histograms -
images -
scalars -
sessionlog:checkpoint -
sessionlog:start -
sessionlog:stop -
tensor -
=====================================================================
如有必要,我可以在终端中添加警告。
实际上,您需要手动将
tensorboard-plugin-profile
的版本降级为2.8.0
:
pip install tensorboard_plugin_profile==2.8.0
为了匹配
tensorflow
的版本。然后,您可能必须重新捕获张量板的分析数据。