AI+制造业赋能，机器视觉开启掘金新大陆

机器视觉技术使得工业设备能够“看到”它正在进行的操作并进行快速决策。根据美国制造工程师协会（SME）机器视觉分会和美国机器人工业协会（RIA）自动化视觉分会对机器视觉的定义：机器视觉是通过光学的装置和非接触的传感器，自动接收和处理一个真实物体的图像，以获得所需信息或用于控制机器人运动的装置。通俗地说，“眼睛”指的是机器视觉利用环境和物体对光的反射来获取及感知信息；“大脑”指的是机器视觉对信息进行智能处理和分析，根据分析结果来执行相应的活动。

(资料图片)

据亿欧智库所称机器视觉是人工智能领域一个正在快速发展的分支，即用机器代替人眼来做测量和判断，是通过光学的装置和非接触的传感器，自动接收和处理真实物体的图像，以获得所需信息或用于控制机器人运动的装置。机器视觉可以代替人眼在多种场景下实现多种功能，按功能主要分为四大类：检测、测量、定位、识别。（1）检测：指外观检测，其内涵种类繁多。如产品装配后的完整性检测、外观缺陷检测等。（2）测量：把获取的图像像素信息标定成常用的度量衡单位，然后在图像中精确地计算出目标物体的几何尺寸；（3）定位：获得目标物体的位置，可以是二维或者是三位的位置信息。定位的精度和速度是定位功能的主要指标。在识别出物体的基础上精确给出物体的坐标和角度信息，自动判断物体位置；（4）识别：基于目标物进行甄别，包括外形、颜色、条码等。

人工智能是机器视觉的母身，深度学习为机器视觉的技术堡垒。近十年来，得益于深度学习等算法的突破、算力的不断提升以及海量数据的持续积累，人工智能逐渐从实验室走向产业实践，以算法、算力和数据为主旋律追求极致创新方面不断突破，为机器视觉实现更新迭代和提高应用价值的重要技术支撑。在人工智能领域的新兴技术中，采用BurstDetection算法探测出深度学习是当前受到广泛关注的人工智能新兴技术，深度学习是一种以人工神经为架构，对数据进行表征学习的算法，“深”主要体现在更深层次的神经网络和对特征的多次变换上，与相同参数数量的浅层网络相比，深度网络具备更好的特征提取和泛化推广能力，不断为图像识别领域带来进步。2007年-2009年，斯坦福教授李飞飞牵头构建起目前图像分类/检测/定位最常用数据集之一的ImageNet，2010-2017年，基于ImageNet数据集的ILSVRC等一些大规模视觉识别挑战赛促进神经网络和深度学习技术的发展，如AlexNet能够将图片识别的错误率下降14%，GoogleBrain采用多CPU组合方式构建起深层次神经网络并应用于图像识别，取得突出成效等。

机器视觉与人工智能逐渐融合，引领向工业4.0的过渡。机器视觉是工业自动化的基础技术之一，通过搭载人工智能发展东风实现机器视觉的再一次迭代升级。此处东风一方面为深度学习的融合，赋予机器视觉更高的准确性和速度，另一方面则为视觉处理所服务的视觉处理器的能力呈现指数级增加，奠定机器视觉中深度学习推理/训练任务的硬件基础。复盘机器视觉发展，从能够自动执行简单任务的自动化机器，转型为视觉能力不受人类视觉能力极限约束、自主思考，从而能够长期对各种元素进行优化的自主型机器，AI+机器视觉有望能够渗透入工业制造达到全新的水平。

表：机器视觉与人工智能逐步融合

未来机器视觉将有望搭载更先进AI技术，切入更多差异化工业应用场景。ChatGPT所引爆的人工智能话题正持续火热，根据中国信息通信研究院和中国人工智能产业发展联盟，当前重点逐渐从单点技术转化为实质应用转化阶段，而视觉人工智能已经泛起千层巨浪。我们认为，搭载AI技术的机器视觉可以进一步优化性能适配更多工业应用场景。一是深度学习为机器视觉延伸出多元的模型架构以及对应性能提升，如生成对抗网络（GAN）能够通过生成器和鉴别器的对抗训练，在生成图像方面的能力超过其他方法；注意力机制中的ViT则将Transformer架构直接应用到一系列图像块上进行分类任务，减少大量所需的预训练资源，即用于在图像处理方面；在人工智能算法的不断训练和学习下，图像识别误差不断缩小，结合机器视觉设备在工业制造中能够发挥优异作用。二是AI技术可以对不同工程问题和工程参数进行建模，利用所采集的高质量数据进行模型的机器学习，模型与机械设备和生产现状深度绑定，以此为基础开发智能系统，继而产生即时可变的、可保持最优化的生产参数，最后交给基础自动化执行、实现机械化-自动化-数字化-智能化的全面升级。三是AI倒逼芯片算力持续提升，计算光学成为下一代机器视觉的突破口，依托算法的升级突破传统光学成像器件，进一步缩小设备尺寸，挖掘多样复杂的图像信息，推动机器视觉技术在工业场景中的进一步普及。

SegmentAnythingModel（SAM）项目是一个用于图像分割的新任务、模型和数据集。在数据收集循环中使用高效模型构建了迄今为止最大的分割数据集，在1100万张授权和尊重隐私的图像上有超过11亿个掩码。该模型被设计和训练为可提示的，因此它可以将零样本迁移到新的图像分布和任务。当该模型进行充分的网络语料训练后，发现其零样本性能甚至优于调整模型（Fine-tunedmodels）。

SAM通过“提示学习”技术对新数据集和任务进行零样本和少样本学习。Meta研究者提出了promptable分割任务，目标是在给定任何分割提示时返回有效的分割掩码。提示符只是指定要在图像中分割的内容，例如，提示符可以包括识别对象的空间或文本信息。有效输出掩码的要求意味着，即使提示是模糊的，并且可能指向多个对象（例如，衬衫上的一个点可能表示衬衫或穿着它的人），输出也应该是其中至少一个对象的合理掩码。将提示分割任务作为预训练目标，并通过提示工程解决一般的下游分割任务。

SAM由一个的图像编码器、一个提示编码器和一个预测分割掩码的掩码解码器组成。通过将SAM分离为图像编码器和提示符快速编码器/掩码解码器，相同的图像嵌入可以在不同的提示符中重用（及其成本分摊）。给定图像嵌入，提示编码器和掩码解码器在web浏览器中从提示符预测掩码的时间为50ms。重点关注点、框和掩码提示，还用自由形式的文本提示呈现初步结果。为使SAM具有歧义性，设计了它来为单个提示预测多个面具，使SAM能够自然地处理歧义，如衬衫和人的例子。

SAM有望助力机器视觉发展，带动AI+制造业垂直领域技术革新。SAM已经学会了关于物体的一般概念，并且它可以为任何图像或视频中的任何物体生成掩膜，甚至包括在训练过程中没有遇到过的物体和图像类型，无需额外的训练。Meta预计，与专门为一组固定任务训练的系统相比，基于prompt工程等技术的可组合系统设计将支持更广泛的应用。SAM可以成为AR、VR、内容创建、科学领域和更通用AI系统的强大组件。比如SAM可以通过AR眼镜识别日常物品，为用户提供提示；SAM还有可能在农业领域帮助农民或者协助生物学家进行研究。

人工智能持续放大机器视觉技术优势，有望在工业智改中大展身手。ChatGPT-4为超级人工智能描绘雏形，有望开启新一轮生产力加速周期，制造业作为我国产业核心也将受益于AI的深度融合。与人眼相比，机器视觉在效率、精度、环境要求、安全性等各因素上都有明显的优势。同时，在AI深度学习+机器视觉的升级趋势下，将在工业自动化、数字化、柔性化、复杂性生产上贡献更高的适配度。传统的机器视觉技术需要将数据表示为一组特征，或输入到预测模型，从而得出预测结果，这是完成制定动作，较难适应未来柔性化的生产需求，尤其是在缺陷类型复杂化、细微化、背景噪声复杂等场景越来越难适用。搭载AI深度学习功能后，机器视觉将原始的数据特征通过多步的特征转换得到一种更高层次、更抽象的特征表示，并进一步输入到预测函数得到最终结果，基于深度学习的机器视觉在理想状态下可以结合机器视觉的效率与人类视觉的灵活性，从而完成日趋复杂环境下的检测，尤其是涉及偏差或极端环境，满足更多下游对瑕疵精度、通用性的严苛要求。AI+机器视觉有望赋能制造业，带动制造业价值链重构。

国家出台多项政策利好AI+机器视觉行业发展。政策从拓展产业链应用场景、加强先进适用技术与设备研发以及发展机器视觉底层技术等方向促进中国机器视觉产业的发展，同时AI+机器视觉技术与设备在“十四五”规划中受到高度重视，2021年底《十四五智能制造发展规划》中重点强调高分辨率视觉传感器等基础零部件和装置，体现国家对机器视觉产业的重视和支持，2022年的《十四五数字经济发展规划》再次强调发展机器视觉等技术应用于我国智改计划。良好的政策环境将在未来一定时期内为国内相关行业持续发展与突破奠定良好的环境基础。