狗的猫宁宠物网 › 首页 ›宠物学堂› 宠物训练› 猫咪训练 › 查看内容

机器学习：Python实现k-最近邻算法

2020-3-30 21:39| 查看: 503

摘要: 在模式识别中，k-最近邻算法（k -NN）是用于分类和回归的非参数方法。在这两种情况下，输入都包含特征空间中最近的k个训练样例。输出取决于k -NN是用于分类还是回归：在k-NN分类中，输出是类成员资格。通过其neighbo

在模式识别中，k-最近邻算法（k -NN）是用于分类和回归的非参数方法。在这两种情况下，输入都包含特征空间中最近的k个训练样例。输出取决于k -NN是用于分类还是回归：

在k-NN分类中，输出是类成员资格。通过其neighbors的多数投票对对象进行分类，其中对象被分配给在其k个最近neighbors中最常见的类（k是正整数，通常是小整数）。如果k = 1，则简单地将对象分配给该单个最近邻的类。

在k-NN回归中，输出是对象的属性值。该值是其k个最近邻的值的平均值。

k -NN是一种基于实例的学习或称懒惰学习，其中函数仅在局部近似。 -NN算法是最简单的所有机器学习算法之一。

在分类和回归方面，可以使用一种有用的技术来为neighbors的贡献分配权重，这样离得越近的neighbors对平均值的贡献就越大。例如，一个常见的加权方案是给每个neighbors一个1/d的权值，其中d是到neighbors的距离。

neighbors取自一组对象，其中类（用于k -NN分类）或对象属性值（用于k -NN回归）是已知的。这可以被认为是算法的训练集，但是不需要明确的训练步骤。

k-NN算法的一个特点是对数据的局部结构敏感。该算法不要与另一种流行的机器学习技术k-means混淆。

让我们假设我们有一个包含2个类别的场景，并考虑2个独立变量，并添加一个新点。在绿色或红色数据点区域，它应该落在哪里？

为了解决这个问题，我们首先需要根据欧几里德距离选择K个neighbors（通常为5个）。我们可以回忆欧几里德距离公式：

然后我们计算数据点的数量，并将新数据点分配给大多数neighbors的类别：

要在Python中实现KN，我们首先需要通过sklearn.neighbors库和KNeighbors类创建我们的分类器，并创建我们的对象分类器并指定neighbors的数量，我们想要实现的度量（在这种情况下是欧几里德距离）和类型“minkowski”。

# Data Preprocessing
# Importing the Library
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
# Importing the dataset
dataset= pd.read_csv('Data.csv')
X = dataset.iloc[: , [2, 3]].values
Y = dataset.iloc[: , 4].values
# Feature Scaling
from sklearn.preprocessing import StandardScaler
sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
X_test = sc_X.transform(X_test)
# Fitting Classifier to the Training set
from sklearn.neighbors import KNeighborsClassifier
classifier = KNeighborsClassifier(n_neighbors = 5, metric = 'minkowski', p = 2)
classifier.fit(X_train, y_train)
# Predicting the Test set results
y_pred = classifier.predict(X_test)

接下来，我们将分类器拟合到训练集中，并创建我们的混淆矩阵。Python代码如下：

# Data Preprocessing
# Importing the Library
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
# Importing the dataset
dataset= pd.read_csv('Data.csv')
X = dataset.iloc[: , [2, 3]].values
Y = dataset.iloc[: , 4].values
# Feature Scaling
from sklearn.preprocessing import StandardScaler
sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
X_test = sc_X.transform(X_test)
# Fitting Classifier to the Training set
from sklearn.neighbors import KNeighborsClassifier
classifier = KNeighborsClassifier(n_neighbors = 5, metric = 'minkowski', p = 2)
classifier.fit(X_train, y_train)
# Predicting the Test set results
y_pred = classifier.predict(X_test)
# Making the Confusion Matrix
fromsklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, y_pred)
# Visualising the Training set results
from matplotlib.colors import ListedColormap
X_set, Y_set = X_train, y_train
X1, X2 = np.meshgrid(np.arrange(start = X_set[:, 0].min() - 1, stop = X_set[:, 0].max() + 1, step = 0.01),
np.arrange(start = X_set[:, 1].min() - 1, stop = X_set[:, 1].max() + 1, step = 0.01)
plt.contourf(X1, X2, classifier.predict(np.array([X1.rave(), X2.ravel()]).T).reshape(X1.shape),
alpha = 0.75, cmap = ListedColormap(('red', 'Green')))
plt.xlim(X1.min(), X1.max())
plt.ylim(X1.min(), X1.max())
for i, j in emunerate(np.unique(y_set)):
plt.scatter(X_set[y_set == j, 0], X_set[y_set == j, 1]
c = ListedColormap(('red', 'green'))(i), label = j)
plt.title('K-NN (Training set)')
plt.xlabel('Age')
plt.ylabel('Estimated Salary')
plt.legend()
plt.show()
# Visualising the Test set results
from matplotlib.colors import ListedColormap
X_set, Y_set = X_train, y_train
X1, X2 = np.meshgrid(np.arrange(start = X_set[:, 0].min() - 1, stop = X_set[:, 0].max() + 1, step = 0.01),
np.arrange(start = X_set[:, 1].min() - 1, stop = X_set[:, 1].max() + 1, step = 0.01)
plt.contourf(X1, X2, classifier.predict(np.array([X1.rave(), X2.ravel()]).T).reshape(X1.shape),
alpha = 0.75, cmap = ListedColormap(('red', 'Green')))
plt.xlim(X1.min(), X1.max())
plt.ylim(X1.min(), X1.max())
for i, j in emunerate(np.unique(y_set)):
plt.scatter(X_set[y_set == j, 0], X_set[y_set == j, 1]
c = ListedColormap(('red', 'green'))(i), label = j)
plt.title('K-NN (Test set)')
plt.xlabel('Age')
plt.ylabel('Estimated Salary')
plt.legend()
plt.show()

鲜花

握手

雷人

路过

鸡蛋

免责声明：本文仅代表作者个人观点，与狗的猫宁无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明“来源：XXX（非狗的猫宁）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：617470285 邮箱：cwpyq@foxmail.com

收藏分享邀请

上一篇：怎样训练猫咪不咬人手指呢？老司机来为你支招下一篇：扛着大熊猫到训练场，熊猫趁机溜了，熊猫：我不要上学！

机器学习：Python实现k-最近邻算法

相关分类