当前位置 : 主页 > 编程语言 > python >

Python中的多项式回归实例

来源:互联网 收集:自由互联 发布时间:2023-07-30
多项式回归是在回归问题中常用的一种方法,它通过对数据进行多项式拟合来建立模型,使得模型能够更准确地预测目标值。Python提供了丰富的数据处理和机器学习库,可以方便地实现

多项式回归是在回归问题中常用的一种方法,它通过对数据进行多项式拟合来建立模型,使得模型能够更准确地预测目标值。Python提供了丰富的数据处理和机器学习库,可以方便地实现多项式回归模型。本文将介绍如何在Python中实现多项式回归,并给出一个基于多项式回归的实例。

一、多项式回归的原理

多项式回归的原理比较简单,就是将自变量的值通过多项式函数来做出解释。即:

$y = b_0 + b_1x_1 + b_2x_2^2 + ... + b_nx_n^n$

其中,$y$ 是因变量,$b_0, b_1, b_2, ... , b_n$ 是回归系数,$x_1, x_2, ... , x_n$ 是自变量。由于多项式回归可以提高模型的灵活性,所以常被用于需要高度拟合的问题中。

二、Python实现多项式回归

Python中,可以通过scikit-learn库来实现多项式回归。scikit-learn库是Python中常用的机器学习库,提供了各种模型和工具来处理数据和建立模型。

下面给出一个简单的多项式回归实现步骤:

  1. 导入所需的库
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures

这里导入了numpy库、matplotlib库、sklearn库中的LinearRegression类和PolynomialFeatures类。

  1. 准备数据
# 创建数据
x = np.linspace(-10, 10, num=50).reshape(-1, 1) # 自变量数据
y = np.sin(x) + np.random.randn(50, 1) * 0.2 # 因变量数据

这里使用了numpy库中的linspace函数,生成了50个从-10到10的等间隔自变量数据,并用sin函数生成因变量数据。为了使结果更真实,还添加了一些随机噪声。

  1. 训练模型
# 使用多项式模型拟合数据
poly_reg = PolynomialFeatures(degree=5) # degree表示多项式的次数
x_poly = poly_reg.fit_transform(x)
lin_reg = LinearRegression()
lin_reg.fit(x_poly, y)

这里使用了PolynomialFeatures类将自变量x转化为多项式,然后再使用LinearRegression类对多项式数据进行处理。通过fit方法来训练模型。

  1. 可视化结果
# 可视化结果
plt.scatter(x, y)
plt.plot(x, lin_reg.predict(poly_reg.fit_transform(x)), color='red')
plt.show()

这里使用了matplotlib库来可视化结果。通过散点图显示原始数据,并在图上绘制了多项式回归曲线。

三、多项式回归的实例

考虑一个实例:根据汽车的速度和刹车时间预测行车距离。我们使用Udacity提供的数据集来解决这个问题。数据集中包括汽车的速度、刹车时间和对应的行车距离。

  1. 导入所需的库和数据
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures

# 读入数据
data = pd.read_csv('data/car.csv')

这里读取了存储在csv文件中的汽车数据集。

  1. 数据预处理
# 提取特征和目标
X = data.iloc[:, :-1].values
y = data.iloc[:, -1].values

# 将刹车时间转为2维数据
X = X.reshape(-1, 1)

# 划分训练集和测试集
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0)

这里使用了pandas库将数据读取为DataFrame格式。然后使用iloc方法按列提取特征和目标,并使用reshape函数将刹车时间转为2维数据。最后使用train_test_split函数将数据集按比例分成训练集和测试集。

  1. 训练和测试模型
# 训练模型
poly_reg = PolynomialFeatures(degree = 2)
X_poly = poly_reg.fit_transform(X_train)
lin_reg = LinearRegression()
model = lin_reg.fit(X_poly, y_train)

# 可视化结果
plt.scatter(X_train, y_train, color='red')
plt.plot(X_train, lin_reg.predict(poly_reg.fit_transform(X_train)), color='blue')
plt.title('Car distance prediction')
plt.xlabel('Speed + Brake Time')
plt.ylabel('Distance')
plt.show()

# 测试模型
y_pred = model.predict(poly_reg.fit_transform(X_test))

这里使用了PolynomialFeatures类将数据转化为二次多项式,然后使用LinearRegression类对多项式数据进行处理。再通过fit方法来训练模型。最后使用predict方法来预测模型的结果。

  1. 评估模型
# 计算评估指标
from sklearn.metrics import mean_squared_error, r2_score
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
r2 = r2_score(y_test, y_pred)

print('Root Mean Squared Error: ', rmse)
print('R2 Score: ', r2)

这里使用了sklearn库中的mean_squared_error函数和r2_score函数来计算评估指标,分别是均方根误差(RMSE)和决定系数(R2)。

通过以上步骤,我们可以使用多项式回归模型预测汽车的行车距离。

总结

本文介绍了多项式回归的原理和在Python中的实现方法。通过一个汽车数据的预测实例,我们可以看到多项式回归在建立模型和预测结果方面的优点。当然,多项式回归也存在一些缺点,比如容易出现过拟合等问题。因此,在实际应用中需要根据实际情况选取合适的回归方法和参数。

【文章转自印度服务器 http://www.558idc.com/yd.html提供,感恩】

上一篇:如何使用Python进行数据清洗?
下一篇:没有了
网友评论