TensorFlow 实现手写数字识别：多层感知器与随机梯度下降解析

引言

在人工智能蓬勃发展的今天，手写数字识别作为机器学习和深度学习领域的经典任务，是众多研究者和开发者入门的首选。TensorFlow 作为 Google 开发并维护的强大开源机器学习框架，为解决这类问题提供了便捷且高效的工具。本文将深入解析一段使用 TensorFlow 构建多层感知器（Multilayer Perceptron, MLP）模型进行手写数字识别的代码，详细探讨其中的网络架构、前向传播过程、损失函数、优化算法等关键部分，并阐述随机梯度下降算法在其中的重要意义。

环境搭建与数据加载

首先，我们需要导入必要的依赖库并加载数据集。以下代码引入了用于数值计算的 numpy、核心深度学习框架 tensorflow 以及用于数据可视化的 matplotlib。同时，利用 TensorFlow 自带的工具加载 MNIST 手写数字数据集。

import numpy as np
import tensorflow as tf
import matplotlib.pyplot as plt
from tensorflow.examples.tutorials.mnist import input_data

# 加载 MNIST 数据集，one_hot=True 将标签转换为独热编码
mnist = input_data.read_data_sets('data/', one_hot=True)

将标签转换为独热编码（One-Hot Encoding）方便后续计算损失和评估模型性能。

模型架构与参数初始化

网络架构参数定义

明确网络的超参数，包括隐藏层神经元数量、输入特征维度及分类类别数。

n_hidden_1 = 256      # 第一隐藏层神经元数量
n_hidden_2 = 128      # 第二隐藏层神经元数量
n_input    = 784      # 输入样本特征数量 (28*28 图像展平)
n_classes  = 10       # 分类类别 (数字 0-9)

占位符与权重初始化

使用 tf.placeholder 定义输入和输出的占位符，以便在会话运行时传入具体数据。同时，通过 tf.Variable 初始化各层的权重（Weights）和偏置（Biases），初始值从正态分布中随机采样，为后续的前向传播和参数更新做准备。

# 定义输入输出占位符
x = tf.placeholder("float", [None, n_input])
y = tf.placeholder("float", [None, n_classes])

# 初始化权重和偏置
stddev = 0.1
weights = {
    'w1': tf.Variable(tf.random_normal([n_input, n_hidden_1], stddev=stddev)),
    'w2': tf.Variable(tf.random_normal([n_hidden_1, n_hidden_2], stddev=stddev)),
    'out': tf.Variable(tf.random_normal([n_hidden_2, n_classes], stddev=stddev))
}
biases = {
    'b1': tf.Variable(tf.random_normal([n_hidden_1])),
    'b2': tf.Variable(tf.random_normal([n_hidden_2])),
    'out': tf.Variable(tf.random_normal([n_classes]))
}

前向传播与损失计算

前向传播函数实现

以下函数实现了多层感知器的前向传播逻辑。输入数据依次经过线性变换、偏置添加及非线性激活（Sigmoid），最终输出预测结果。

def multilayer_perceptron(_X, _weights, _biases):
    # 第一隐藏层
    layer_1 = tf.nn.sigmoid(tf.add(tf.matmul(_X, _weights['w1']), _biases['b1']))
    # 第二隐藏层
    layer_2 = tf.nn.sigmoid(tf.add(tf.matmul(layer_1, _weights['w2']), _biases['b2']))
    # 输出层 (线性输出，配合 softmax_cross_entropy 使用)
    return (tf.matmul(layer_2, _weights['out']) + _biases['out'])

预测、损失与准确率

调用前向传播函数得到预测结果 pred，使用交叉熵损失函数衡量模型性能，并定义准确率计算逻辑。

# 获取模型预测结果
pred = multilayer_perceptron(x, weights, biases)

# 计算交叉熵损失
cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(logits=pred, labels=y))

# 计算准确率
corr = tf.equal(tf.argmax(pred, 1), tf.argmax(y, 1))
accr = tf.reduce_mean(tf.cast(corr, "float"))

训练流程与会话管理

初始化变量与训练参数设置

在开始训练前，需初始化所有可训练变量，并设置优化器及训练超参数。注意此处补充了优化器 optm 的定义，以便后续训练循环调用。

# 初始化所有变量
init = tf.global_variables_initializer()

# 训练超参数
learning_rate    = 0.001
training_epochs  = 200
batch_size       = 100
display_step     = 4

# 定义优化器 (随机梯度下降)
optm = tf.train.GradientDescentOptimizer(learning_rate).minimize(cost)

会话创建与训练循环

创建 TensorFlow 会话，通过嵌套循环遍历训练轮数（Epochs）与批次（Batches）。每隔指定轮数打印训练损失及准确率信息，监控模型收敛情况。

sess = tf.Session()
sess.run(init)

for epoch in range(training_epochs):
    avg_cost = 0.
    total_batch = int(mnist.train.num_examples / batch_size)
    
    for i in range(total_batch):
        batch_xs, batch_ys = mnist.train.next_batch(batch_size)
        feeds = {x: batch_xs, y: batch_ys}
        
        # 执行优化操作
        sess.run(optm, feed_dict=feeds)
        avg_cost += sess.run(cost, feed_dict=feeds)
    
    avg_cost = avg_cost / total_batch
    
    # 打印训练日志
    if (epoch + 1) % display_step == 0:
        print("Epoch: %03d/%03d cost: %.9f" % (epoch, training_epochs, avg_cost))
        
        feeds = {x: batch_xs, y: batch_ys}
        train_acc = sess.run(accr, feed_dict=feeds)
        print("TRAIN ACCURACY: %.3f" % (train_acc))
        
        feeds = {x: mnist.test.images, y: mnist.test.labels}
        test_acc = sess.run(accr, feed_dict=feeds)
        print("TEST ACCURACY: %.3f" % (test_acc))

print("OPTIMIZATION FINISHED")

随机梯度下降（SGD）的核心意义

在本案例中，随机梯度下降（Stochastic Gradient Descent, SGD）作为优化算法发挥了至关重要的作用，主要体现在以下几个方面：

计算效率提升
在 MNIST 数据集这样包含大量样本的情况下，批量梯度下降每次更新参数都需计算整个训练集的梯度，计算量巨大且内存占用高。而随机梯度下降每次仅随机选取一小批（本例中为 100 个）样本计算梯度并更新参数，大大减少了计算开销，降低了内存需求，显著提高了训练效率。
避免局部最优解
随机梯度下降在每次迭代时随机选择小批量数据，为梯度计算引入了随机性。这种随机性使模型在参数空间中能够更广泛地探索，增加了跳出局部最优解的可能性，更有机会找到接近全局最优的参数组合，从而提高模型的泛化能力。
实现简单与通用性
随机梯度下降算法原理简单，易于理解和实现。在代码中，仅需定义好损失函数，使用 tf.train.GradientDescentOptimizer 类并设置学习率，即可方便地使用该算法更新模型参数。它是一种通用的优化算法，不仅适用于多层感知器，在卷积神经网络（CNN）、循环神经网络（RNN）等其他模型中同样可行。
学习率调整灵活性
通过设置学习率（本例为 0.001），可以灵活控制模型参数更新的步长。在训练初期，较大的学习率能使模型快速收敛；接近最优解时，较小的学习率可避免模型跳过最优解。这种机制可根据具体任务和数据集进行优化，进一步提高模型的训练效果。

总结

综上所述，使用 TensorFlow 构建多层感知器模型进行手写数字识别是一个经典且有效的实践案例。随机梯度下降作为优化算法，从计算效率、模型性能等多个方面为模型的训练和优化提供了有力支持。

说明：本文代码基于 TensorFlow 1.x 版本编写（使用了 tf.placeholder、tf.Session 及 tensorflow.examples.tutorials.mnist 等 API）。在 TensorFlow 2.x 中，默认采用 eager execution 模式，推荐使用 tf.keras 高级 API 构建模型，部分旧版 API 已废弃或移除。若在 TF 2.x 环境下运行，需使用 tf.compat.v1 兼容模式或重构代码。

本文地址：https://1diff.fun/archives/tensorflow-shi-xian-shou-xie-shu-zi-shi-bie--duo-ceng-gan-zhi-qi-yu-sui-ji-ti-du-xia-jiang-jie-xi.html

如果对本文有什么问题或疑问都可以在评论区留言，我看到后会尽量解答。