本节将针对波士顿房价数据集的房间数量(RM)采用简单线性回归,目标是预测在最后一列(MEDV)给出的房价。 波士顿房价数据集可从http://lib.stat.cmu.edu/datasets/boston处获取。 本小节直接
波士顿房价数据集可从http://lib.stat.cmu.edu/datasets/boston处获取。
本小节直接从 TensorFlow contrib 数据集加载数据。使用随机梯度下降优化器优化单个训练样本的系数。实现简单线性回归的具体做法
-
导入需要的所有软件包:
-
在神经网络中,所有的输入都线性增加。为了使训练有效,输入应该被归一化,所以这里定义一个函数来归一化输入数据:
-
现在使用 TensorFlow contrib 数据集加载波士顿房价数据集,并将其分解为 X_train 和 Y_train。可以对数据进行归一化处理:
-
为训练数据声明 TensorFlow 占位符:
-
创建 TensorFlow 的权重和偏置变量且初始值为零:
-
定义用于预测的线性回归模型:
-
定义损失函数:
-
选择梯度下降优化器:
-
声明初始化操作符:
-
现在,开始计算图,训练 100 次:
-
查看结果:
解读分析
从下图中可以看到,简单线性回归器试图拟合给定数据集的线性线:在下图中可以看到,随着模型不断学习数据,损失函数不断下降:
下图是简单线性回归器的 TensorBoard 图:
该图有两个名称范围节点 Variable 和 Variable_1,它们分别是表示偏置和权重的高级节点。以梯度命名的节点也是一个高级节点,展开节点,可以看到它需要 7 个输入并使用 GradientDescentOptimizer 计算梯度,对权重和偏置进行更新:
(点此查看高清大图)
总结
本节进行了简单的线性回归,但是如何定义模型的性能呢?有多种方法可以做到这一点。统计上来说,可以计算 R2 或将数据分为训练集和交叉验证集,并检查验证集的准确性(损失项)。