Python中的支持向量机(Support Vector Machine,SVM)是一个强大的有监督学习算法,可以用来解决分类和回归问题。SVM在处理高维度数据和非线性问题的时候表现出色,被广泛地应用于数据挖掘、图像分类、文本分类、生物信息学等领域。
在本文中,我们将介绍在Python中使用SVM进行分类的实例。我们将使用scikit-learn库中的SVM模型,该库提供了许多强大的机器学习算法。
首先,我们需要安装scikit-learn库,可以在终端中使用以下命令进行安装:
pip install scikit-learn
接着,我们将使用经典的Iris数据集来演示SVM的分类效果。Iris数据集包含150个样本,分为三类,每类包含50个样本。每个样本有4个特征:花萼长度、花萼宽度、花瓣长度和花瓣宽度。我们将使用SVM对这些样本进行分类。
首先,我们需要导入需要的库:
from sklearn import datasets from sklearn.model_selection import train_test_split from sklearn import svm from sklearn.metrics import accuracy_score
接着,我们加载Iris数据集:
iris = datasets.load_iris()
然后,我们将数据分为训练集和测试集:
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.3, random_state=0)
在这里,我们使用了train_test_split函数,将数据集随机分为训练集和测试集,其中test_size参数指定了测试集占总数据集的比例为30%。
接下来,我们将使用SVM模型对训练集进行拟合:
clf = svm.SVC(kernel='linear', C=1) clf.fit(X_train, y_train)
这里,我们使用了线性核函数,并且指定了一个正则化参数C=1。SVM的超参数C控制了模型的准确性和复杂性之间的权衡。C值越小,模型越简单,容易欠拟合;C值越大,模型越复杂,容易过拟合。通常,我们需要通过交叉验证来选择合适的C值。
接着,我们使用训练好的模型,对测试集进行预测:
y_pred = clf.predict(X_test)
最后,我们可以使用accuracy_score函数,来计算分类准确率:
accuracy = accuracy_score(y_test, y_pred) print('Accuracy:', accuracy)
完整的代码如下:
from sklearn import datasets from sklearn.model_selection import train_test_split from sklearn import svm from sklearn.metrics import accuracy_score # Load iris dataset iris = datasets.load_iris() # Split data into train and test X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.3, random_state=0) # Fit SVM model on training data clf = svm.SVC(kernel='linear', C=1) clf.fit(X_train, y_train) # Predict on test data y_pred = clf.predict(X_test) # Compute accuracy score accuracy = accuracy_score(y_test, y_pred) print('Accuracy:', accuracy)
在本例中,我们使用了SVM模型进行分类,针对的是一个非常常见的数据集,Iris数据集。SVM的优点在于强大的分类能力、适用于高维度数据和非线性问题。实现SVM需要对一系列超参数进行调优,以达到最好的分类效果。