前景与价值遇上监管技术双重挑战，近500亿的计算机视觉市场何去何从？云应用

凤来凰科技网 2022-12-25 1

如今，人工智能已经无处不在，但你有没有这样的感受——我在与AI互动时并不太清楚哪些具体的技术在发挥其中作用。不过，当智能服务涉及到照片或视频时，你概率可以猜到其背后必有计算机视觉（Computer Vision，CV）的参与。

计算机视觉是人工智能（准确说是机器学）的一个分支，如果人工智能意味着机器可以“思考”，那么计算机视觉就意味着机器能够“看见”。从技术上讲，它使机器能够识别、理解视觉信息，并对照片、视频和其他视觉输入作出反应。

在过去的几年里，计算机视觉已经成为人工智能落地的主要方向。该技术被广泛用于制造业、电子商务、农业、汽车和医药等行业，为从人脸识别到AR电子商务、医学分析和自动驾驶等一切服务提供支持。到2022年，该技术的全球相关市场预计将达到每年486亿美元，相比2015年的区区66亿美元翻了数倍。

可以说，计算机视觉的发展脉络与整个人工智能行业如出一辙。首先是因为技术障碍导致的缓慢上升，紧跟着海量数据带来的空前繁荣，然后是应用的迅速扩散。当然，最后也有人们对这项技术的偏见和审慎关注。

所以，要了解计算机视觉，重要的是要了解它是如何工作的，它是如何被使用的，以及它所经历的发展困境和今天仍然面临的挑战。

▍计算机视觉如何工作

计算机视觉使计算机能够完成各种任务。有图像分割（将图像分成若干分，并对其进行单独检查）和模式识别（识别图像之间的视觉刺激的重复），还有物体分类（对图像中发现的物体进行分类），物体（寻找和视频中的移动物体），以及物体检测（寻找和识别图像中的特定物体）。此外，还有面识别，这是物体检测的一种高级形式，可以检测和识别人脸。

如前所述，计算机视觉是机器学的一个分支，它同样使用神经网络对量数据进行分类，直到理解它所看的内容。

举个例子，当你向一个计算机视觉系统输入多张有关冰淇淋和意利香肠比萨的照片后，计算机将这些照片通过几层处理（组成了神经网络）来一步步区分冰淇淋和意利香肠披萨。早期的几层可以查看基本属性，如线条或图像明暗分之间的边缘，而随后的几层则识别更复杂的特征，如形状或甚至面孔。

之所以计算机视觉系统能够区分不同物体，是因为计算机视觉系统的功能是将图像（或视频）解释为一系列的像素，每个像素都被标记为一个颜色值。而这些标签是系统在通过神经网络处理图像时的输入。

▍计算机视觉的兴起

就像机器学一样，计算机视觉的历史可以追溯到20世纪50年代。在没有现今计算能力和数据访问的情况下，这种技术最初是非常依赖手动的，而且很容易出错。

但它确实仍然类似于我们今天所知的计算机视觉。例如，根据线条或边缘等基本属性进行第一次有效的处理是在1959年。同年还发明了一种技术，使之有可能将图像转化为数字网格（二进制），进而使机器可以理解。

最早的数码扫描照片之一

在接下来的几十年里，更多的技术突破为计算机视觉的发展铺平了道路。首先是计算机扫描技术的发展，它首次使计算机能够将图像数字化；然后是将二维图像转化为三维形式的能力；1974年，能够识别文字的物体识别技术出现；到1982年，计算机视觉真正开始形成；同年，一位研究人员进一步发展了处理层次，这种理念已经非常接近早期的神经网络了。

到了21世纪初，物体识别已经引起了人们的极兴趣。但是，2010年ImageNet的发布助推了计算机视觉的兴起，ImageNet是一个包含数百万张标记图像的数据集。突然间，任何人都可以得到量的标记过的、随时可以使用的数据。

就这样，ImageNet 得到了广泛的应用，今天多数的计算机视觉系统都依赖它。但是，虽然计算机视觉系统在这时很受欢迎，但它们仍然出现了很多错误。这种情况在2012年发生了改变，当时一个名为AlexNet的模型借助卷积神经网络（CNN）和GPU来加速深度学，降低了图像识别的错误率，开创了今天的计算机视觉盛世。

AlexNet模型使用的卷积神经网络

▍计算机视觉的偏见和挑战

ImageNet的出现对计算机视觉的发展和应用起到了性的作用，它实际上成为了这个行业的基础。但是，它也给该技术带来了伤害，而这些伤害至今都在产生影响。

ImageNet的成功反映了数据科学和人工智能领域的一个流行说法——“垃圾进，垃圾出”。在利用数据集的过程中，研究人员和数据科学家没有停下来思考这些图像来自哪里、谁选择了这些图像、谁给它们贴了标签、为什么它们会被贴上这样的标签、哪些图像或标签可能被遗漏了，以及所有这些可能对他们的技术如何运作产生的影响，更不用说它对社会和人们的生活产生的影响。

多年后，在2019年，一项关于ImageNet的研究显示，整个数据集普遍存在偏见和有问题的标签。许多令人反感和有害的类别隐藏在ImageNet的人物（Person）类别的深处。一些分类是厌恶女性的、种族主义的、年龄歧视的和能力歧视的。

人工智能研究员凯特·克劳福德（Kate Crawford）在她的《人工智能地图集》（Atlas of AI）一书中写道：“侮辱、种族主义的污言秽语和口头评判比比皆是。”

甚至除了这些明显的危害（其中一些已经被删除，据说ImageNet正在努力解决各种偏见的来源），在整个数据集中还发现了类别、层次和标签方面的奇怪选择。现在，它也因为侵犯隐私而受到广泛的批评，因为那些照片被用于数据集的人并不同意被标记。

数据和算法偏见是整个人工智能的核心问题之一，但它的恶劣影响很容易在一些计算机视觉应用程序中被放。例如，众所周知，面识别技术会误判黑人，但它的使用却与日俱增。

总体而言，监管是计算机视觉（和一般的人工智能）的一个新挑战。很明显，更多的监管措施正在路上，但目前还不知道这种法规究竟会是什么样子，这使得研究人员和企业在这个时候也进退维谷。

另外，计算机视觉也面临着一些技术挑战。例如，它受到硬件的限制，包括相机和传感器。此外，计算机视觉系统的规模非常复杂。而且像所有类型的人工智能一样，它们需要量的算力（这很昂贵）和数据。

正如计算机视觉的过往历史所表明的那样，具有代表性的、无偏见的、符合道德标准的好数据是很难得到的，而且标记起来非常繁琐。

标签：

前景与价值遇上监管技术双重挑战，近500亿的计算机视觉市场何去何从？云应用

人工智能在零售行业的应用及前景分析

人工智能+大数据,重塑产业格局

人工智能赋能教育创新:智慧教学新路径

人工智能如何提升客户体验及服务质量