TensorFlow - 使用GradientTape和重写fit训练结果不同的原因
该问题是在使用GradientTape训练MNIST数据集时发现的,尝试使用了三种方式进行训练:直接GradientTape训练,调用fit函数训练,重写fit函数后训练. 发现重写GradientTape训练的正确率尽然有96%,而后两者的正确率90%都不到,这引起了我很大的好奇心,于是通过查阅大量文档和阅读TF源代码一步一步排除问题,最终找到问题原因. 训练集使用最简单的MNIST,重写f