您是否想知道 Google 照片如何识别您的脸部并将您的照片堆叠在一起?这就是 CNN(卷积神经网络)的工作原理,它根据相似特征对图像进行分类。 CNN 是人工智能领域中的一种神经网络,它允许计算机系统非常准确地处理视觉信息。因此,要了解有关深度学习中 CNN 的更多信息,请跟随我们下面的解释。
深度学习中的 CNN 是什么?
CNN 或卷积神经网络是深度学习中一种特殊类型的神经网络,旨在处理网格状数据,特别是图像。虽然有不同类型的神经网络可以分析图像,但它们很难识别图像中的模式,因为它们将每个像素视为独立的特征。基本上,系统分析每个像素的计算量变得巨大。
另一方面,CNN 可以更有效地识别视觉数据中的模式。深度学习中的 CNN 工作方式类似于人类处理图像或任何视觉信息的方式。我们不会分析每一个像素,相反,我们的大脑会识别边缘、形状、纹理,并逐渐识别完整的物体,如面部、汽车或动物。
基本上,深度学习中的 CNN 是指这种类型的神经网络,它遵循分层方法来识别视觉信息。
CNN 实际上是如何工作的?
卷积神经网络 (CNN) 具有分层架构,其中每一层都从图像中提取复杂的特征。首先,卷积层是最重要的一层,它使用小过滤器在图像上滑动。它寻找图像中的特定模式。它可以检测基本细节,例如水平线、垂直线或边缘。
随着网络的深入,过滤器开始识别复杂的模式,如曲线和纹理。逐渐地,网络识别出整个对象。举个例子,当你拿着一个小放大镜并将其移动到一幅画上时,你会环顾四周以检查这幅画。类似地,卷积层在图像上滑动并执行数学运算来查找某些特征是否存在。
现在,池化层采用这些提取的特征并减少数据的空间维度。它只是意味着它只保留每个区域最强的信号,以便网络可以有效地处理数据。现在,CNN 中的全连接层利用这些提取的特征对图像进行分类。
如果 CNN 被训练来识别动物,那么根据从先前层提取的所有特征,您会得到“该图像包含一只狗”。这就是人工智能识别图像中物体的方式。
CNN 的起源故事
CNN背后的发展非常有趣。 Yann LeCun 被广泛认为是现代 CNN 的创造者,他在 1989 年推出了一种可以识别手写数字的网络。然而,早在 1980 年,日本计算机科学家福岛邦彦就推出了“Neocognitron”,为分层网络如何处理视觉信息奠定了基础。

福岛的 Neocognitron 确实远远领先于时代,引入了许多关键概念,例如 CNN 中使用的分层特征检测。然而,LeCun 添加了用于训练 CNN 的反向传播,使网络能够自动从数据中学习。在某种程度上,LeCun 普及了 CNN 的使用。
2012 年发生了重大进展,当时 Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 推出了一种名为 AlexNet 的 CNN,它以大幅优势赢得了 ImageNet 竞赛,击败了所有其他传统方法。这表明,只要有足够的数据和计算能力,CNN 就可以超越传统的视觉分析方法。
CNN 是如何训练的?
要训练 CNN,您需要大量标记数据。基本上,要对图像进行分类,您需要数百万张带有图像描述的图像。该网络现在进行预测,将其与正确答案进行比较,并调整其参数以提高准确性和性能。这个过程称为反向传播,它会重复数百万次,直到网络学会识别图像中的模式。
CNN 的未来
虽然 CNN 在人工智能 (AI) 领域产生了巨大影响,但视觉变换器 (ViT) 等新技术正在表现出更好的性能和准确性。这些基本上是基于 Transformer 的模型,它使用补丁序列来处理图像,而不是使用卷积滤波器。当然,ViT 更准确、更强大,但它们也需要更多的计算资源。
从这个意义上说,CNN 更加高效,并且可以在计算资源有限的边缘设备(例如手机)中使用。无论如何,CNN 极大地推进了深度学习领域,因为它最终允许计算机系统处理和理解视觉信息。

发表回复