首页 / 专利库 / 企业组织 / 物品级存货单 / 用于基于形状的物品检索的系统和方法

用于基于形状的物品检索的系统和方法

阅读:806发布:2020-05-08

专利汇可以提供用于基于形状的物品检索的系统和方法专利检索,专利查询,专利分析的服务。并且一种对物品进行分类的方法,包括:通过处理器控制一个或多个深度摄像头,以捕获查询物品的多个 深度图 像 ;通过所述处理器控制一个或多个彩色摄像头捕获所述查询物品的多个彩色图像;通过所述处理器利用深度图像计算所述查询物品的三维(3D)模型;通过所述处理器将彩色图像与3D模型相结合;通过所述处理器从3D模型和彩色图像计算描述符,所述描述符包括:所述查询物品的3D形状的多维形状描述符空间表示;所述查询物品的纹理的多维 颜色 描述符空间表示;以及所述查询物品尺寸的一维尺寸描述符空间表示;通过所述处理器将描述符提供给分类器以计算所述查询物品的分类;以及输出所述查询物品的分类。,下面是用于基于形状的物品检索的系统和方法专利的具体信息内容。

1.一种对物品进行分类的方法,包括:
通过处理器控制一个或多个深度摄像头,以捕获查询物品的多个深度图像;
通过所述处理器控制一个或多个彩色摄像头捕获所述查询物品的多个彩色图像;
通过所述处理器利用所述深度图像计算所述查询物品的三维(3D)模型;
通过所述处理器将所述彩色图像与所述3D模型相结合;
通过所述处理器从所述3D模型和所述彩色图像计算描述符;所述描述符包括:
所述查询物品的3D形状的多维形状描述符空间表示;
所述查询物品的纹理的多维颜色描述符空间表示;以及
所述查询物品的尺寸的一维尺寸描述符空间表示;
通过所述处理器将所述描述符提供给分类器以计算所述查询物品的分类;以及输出所述查询物品的分类。
2.根据权利要求1所述的方法,还包括根据所述查询物品的分类,控制被配置为传送所述查询物品的传送器系统来重新定向所述查询物品。
3.根据权利要求1所述的方法,还包括在显示装置上显示所述查询物品的分类。
4.根据权利要求1所述的方法,其中所述分类器是神经网络。
5.根据权利要求4所述的方法,其中所述神经网络基于物品存货清单来训练。
6.根据权利要求5所述的方法,其中基于所述描述符计算所述查询物品的分类,是通过从所述形状描述符空间、所述颜色描述符空间和所述尺寸描述符空间中与所述查询物品的描述符具有最近距离的所述物品存货清单中识别结果物品来执行。
7.根据权利要求1所述的方法,其中,所述3D模型包括从所述深度图像计算的3D网格模型
8.根据权利要求7所述的方法,还包括:
渲染所述3D网格模型的多个二维(2D)视图;以及
通过将所述2D视图提供给神经网络的卷积级来计算所述描述符。
9.一种用于对物品进行分类的系统,包括:
处理器;以及
存储指令的存储器,当所述处理器执行所述指令时,所述指令使得所述处理器进行:
控制一个或多个深度摄像头以捕获查询物品的多个深度图像;
控制一个或多个彩色摄像头以捕获所述查询物品的多个彩色图像;
利用所述深度图像计算所述查询物品的三维(3D)模型;
将所述彩色图像与所述3D模型相结合;
从所述3D模型和所述彩色图像计算描述符,该描述符包括:
所述查询物品的3D形状的多维形状描述符空间表示;
所述查询物品的纹理的多维颜色描述符空间表示;以及
所述查询物品的尺寸的一维尺寸描述符空间表示;
将所述描述符提供给分类器以计算所述查询物品的分类;以及
输出所述查询物品的分类。
10.根据权利要求9所述的系统,还包括被配置为传送所述查询物品的传送器系统,其中所述存储器还存储指令,当所述处理器执行所述指令时,所述指令使得所述处理器根据所述查询物品的分类来重新定向所述查询物品。
11.根据权利要求9所述的系统,还包括显示装置,
其中所述存储器还存储指令,当所述处理器执行所述指令时,所述指令使得所述处理器在所述显示装置上显示所述查询物品的分类。
12.根据权利要求9所述的系统,其中所述分类器是神经网络。
13.根据权利要求12所述的系统,其中所述神经网络基于物品存货清单来训练。
14.根据权利要求13所述的系统,其中所述存储器还存储指令,当所述处理器执行所述指令时,所述指令使得所述处理器通过从所述形状描述符空间、所述颜色描述符空间和所述尺寸描述符空间中与所述查询物品的描述符具有最近距离的所述物品存货清单中识别结果物品,以计算所述查询物品的分类。
15.根据权利要求9所述的系统,其中所述3D模型包括从所述深度图像计算的3D网格模型。
16.根据权利要求15所述的系统,其中所述存储器还存储指令,当所述处理器执行所述指令时,所述指令使得所述处理器通过以下方式计算所述描述符:
渲染所述3D网格模型的多个二维(2D)视图;以及
通过将所述2D视图提供给神经网络的卷积级来计算所述描述符。

说明书全文

用于基于形状的物品检索的系统和方法

[0001] 有关申请的互相参照

技术领域

[0002] 本发明实施例的各方面涉及计算机视觉领域,尤其涉及基于形状的物品的检索或识别。在一些实施例中,使用一个或多个范围(range)(或深度(depth))摄像头和一个或多个彩色(例如,红绿蓝或RGB)摄像头对物品进行扫描。

背景技术

[0003] 在许多情况下,将物品自动识别或分类为特定种类或类型的物品实例是有用的。这种自动化系统可用于自动化分类活动,否则这些活动需要人工手动查看被分类的物品并操纵物品以执行分类过程(例如,通过触摸物品或通过控制机械将物品引导到特定位置)。
[0004] 应用的一个例子是在具有例如输送带的输送系统的工厂中,用于使物品移动通过制造过程的各个阶段,包括组装,分配和输送过程。在工厂的任何阶段,可能有许多不同类型的物品到达,这些物品可能来自不同的生产线,因此可能是相似产品的不同模型,完全不同的产品,物品的不完整部分或模等。物品可能具有不同的特征,例如尺寸和颜色。在许多情况下,物品可以是未分类的,其中一种类型(或分类)的物品之后可以紧跟着不同类型(或不同分类)的物品。当物品到达时,可能需要正确地识别和表征每个物品以用于后续处理。例如,物品可能需要放置在合适尺寸的盒子内,与其他类似物品(例如,成对子的左右脚)相匹配。作为另一个例子,可能需要对每个到达的带上物品进行质量评估,目的是识别不满足特定要求的物品。
[0005] 作为另一个例子,在电子商务的情况中,单个客户订单可以包括许多待包装到单个盒子中的不同物品。这些物品可能以随机顺序到达包装中心,并可能与其他客户订单中的物品混合在一起。在这样的环境中,可能需要根据特定的项目列表(例如,装箱单)为每个订单选择性地将特定项目放入不同的盒子中。

发明内容

[0006] 本发明的实施例的各方面涉及用于基于使用一个或多个范围和彩色摄像头捕获关于物品的信息来进行物品的检索和分类的系统和方法。
[0007] 根据本发明的一个实施例,一种对物品进行分类的方法,包括:通过处理器控制一个或多个深度摄像头,以捕获查询物品的多个深度图像;通过所述处理器控制一个或多个彩色摄像头捕获所述查询物品的多个彩色图像;通过所述处理器利用深度图像计算所述查询物品的三维(3D)模型;通过所述处理器将彩色图像与3D模型相结合;通过所述处理器从3D模型和彩色图像计算描述符,所述描述符包括:所述查询物品的3D形状的多维形状描述符空间表示;所述查询物品的纹理的多维颜色描述符空间表示;以及所述查询物品尺寸的一维尺寸描述符空间表示;通过所述处理器将描述符提供给分类器以计算所述查询物品的分类;以及输出所述查询物品的分类。
[0008] 所述方法还可以包括根据所述查询物品的分类,控制被配置为传送所述查询物品的传送器系统来重新定向所述查询物品。
[0009] 所述方法还可以包括在显示装置上显示所述查询物品的分类。
[0010] 所述分类器可以是神经网络。
[0011] 所述神经网络可以基于物品存货清单来训练。
[0012] 基于所述描述符计算所述查询物品的分类可以通过从所述形状描述符空间、所述颜色描述符空间和所述尺寸描述符空间中与所述查询物品的描述符具有最近距离的所述物品存货清单中识别结果物品来执行。
[0013] 所述3D模型可以包括从深度图像计算的3D网格模型
[0014] 所述方法还可以包括:渲染所述3D网格模型的多个二维(2D)视图;以及通过将所述2D视图提供给神经网络的卷积级来计算所述描述符。
[0015] 根据本发明的一个实施例,一种用于对物品进行分类的系统包括:处理器;存储指令的存储器,当所述处理器执行所述指令时,所述指令使得所述处理器进行:控制一个或多个深度摄像头以捕获查询物品的多个深度图像;控制一个或多个彩色摄像头以捕获所述查询物品的多个彩色图像;利用所述深度图像计算所述查询物品的三维(3D)模型;将彩色图像与3D模型相结合;从所述3D模型和所述彩色图像计算描述符,该描述符包括:所述查询物品的3D形状的多维形状描述符空间表示;所述查询物品的纹理的多维颜色描述符空间表示;以及所述查询物品的尺寸的一维尺寸描述符空间表示;将所述描述符提供给分类器以计算所述查询物品的分类;以及输出所述查询物品的分类。
[0016] 所述系统还可以包括被配置为传送所述查询物品的传送器系统,其中所述存储器还可以存储指令,当所述处理器执行所述指令时,所述指令使得所述处理器根据所述查询物品的分类来重新定向所述查询物品。
[0017] 所述统还可以包括显示装置,其中所述存储器还可以存储指令,当所述处理器执行所述指令时,所述指令使得所述处理器在所述显示装置上显示所述查询物品的分类。
[0018] 所述分类器可以是神经网络。
[0019] 所述神经网络可以基于物品存货清单来训练。
[0020] 所述存储器还可以存储指令,当所述处理器执行所述指令时,所述指令使得所述处理器通过从所述形状描述符空间、所述颜色描述符空间和所述尺寸描述符空间中与所述查询物品的描述符具有最近距离的所述物品存货清单中识别结果物品,以计算所述查询物品的分类。
[0021] 所述3D模型可以包括从所述深度图像计算的3D网格模型。
[0022] 所述存储器还可以存储指令,当所述处理器执行所述指令时,所述指令使得所述处理器通过以下方式计算描述符:渲染所述3D网格模型的多个二维(2D)视图;以及通过将所述2D视图提供给神经网络的卷积级来计算所述描述符。附图说明
[0023] 当结合以下附图考虑时,通过参考以下详细描述,本公开的实施例的这些和其他特征和优点将变得更加明显。在附图中,所有附图使用相似的附图标记来引用相似的特征和组件。这些附图不必然按比例绘制。
[0024] 图1是根据本发明的一个实施例的示意图,说明将目标物品(在这实施例中为靴子)分类为鞋子存货清单中的特定靴子样式的例子的过程。
[0025] 图2A是示出根据本发明的一个实施例的用于捕获物品的图像并生成物品的分类的过程的示意框图
[0026] 图2B是根据本发明的一个实施例的立体深度摄像头系统的框图。
[0027] 图3A是根据本发明的一个实施例的用于生成物品的分类的方法的流程图
[0028] 图3B是根据本发明的一个实施例的用于计算查询物品的描述符的方法的流程图。
[0029] 图4是根据本发明的一个实施例的基于卷积神经网络的分类系统的框图。
[0030] 图5是根据本发明的一个实施例的基于被配置为考虑多个视图的分类系统的卷积神经网络的框图。
[0031] 图6示出了根据本发明的一个实施例的包括两个分类级别的层级的示例。

具体实施方式

[0032] 在以下详细描述中,仅借助于说明展示和描述了本发明的仅某些示范性实施例。如所属领域的技术人员将认识到,本发明可以许多不同形式体现且不应被理解为限于本文中所阐述的实施例。贯穿本说明书,相似的附图标记标示相似的元件。
[0033] 本发明的实施例的各个方面涉及通过使用一个或多个三维(3D)范围(或深度)摄像头和常规彩色摄像头执行物品的三维(3D)扫描来对物品进行分类。
[0034] 图1是根据本发明的一个实施例的示意图,说明将目标物品10(在这实施例中为靴子)分类为鞋子存货清单20中特定样式的靴子22的实例的过程。
[0035] 图2A是示出根据本发明的一个实施例的示意性框图,说明用于捕获物品的图像并生成物品的分类的过程的。图3A是根据本发明的一个实施例的用于生成物品的分类的方法的流程图。
[0036] 本发明的实施例的各种计算部分可以通过由计算机系统执行具有特定目的的计算机指令来实现。计算机系统可以包括一个或多个处理器,所述处理器包括一个或多个中央处理单元,一个或多个图形处理单元(GPU),一个或多个现场可编程阵列(FPGAs),和/或一个或多个专用集成电路(ASICs)。计算可以分布在多个单独的计算机系统上,其中一些计算机系统可以是查询物品扫描的本地计算机(例如,现场并直接连接到深度和彩色摄像头,或者通过局域网络连接到深度和彩色摄像头),且其中一些可以是远程的(例如,通过例如互连网的广域网络连接到深度和彩色摄像头的非现场,基于“”的计算资源)。为方便起见,将配置以利用特定计算机指令来执行用于对查询物品进行分类的具有特定目的的操作的计算机系统,称为分类系统200。
[0037] 参照图2A和图3A,根据一些实施例,在操作310中,处理器控制深度(或“范围”)摄像头100和彩色(例如红、绿、蓝或RGB)摄像头150以捕获查询物品10的深度图像和彩色图像。由范围摄像头100和彩色摄像头150(RGB摄像头)捕获的图像数据用于构建物品10的表示,被概括在特征向量或“描述符”F中。在一些实施例中,每个深度摄像头100生成三维(3D)点云14(例如,表示从对应的一个深度摄像头100的姿势可见的物品10表面上的点的三维坐标的集合)和从生成的3D模型中提取描述符F。
[0038] 深度摄像头
[0039] 在本发明的一些实施例中,范围摄像头100,也称为“深度摄像头”,包括至少两个具有重叠视野的标准二维摄像头。更详细地,这些二维(2D)摄像头可各自包括数字图像传感器,诸如互补金属化物半导体(CMOS)图像传感器或电荷耦合元件(CCD)图像传感器和配置为将光线聚焦到图像传感器上的光学系统(例如,一个或多个镜头)。2D摄像头的光学系统的光轴可以实质上平行,使得两个摄像头尽管从略微不同的视,但实质上对相同的场景成像。因此,由于视差,场景中较远离摄像头的部分在由两个摄像头捕获的图像中将出现在基本相同的位置,而场景中较靠近摄像头的部分将出现在不同的位置。
[0040] 使用几何校准的深度摄像头,可以相对于参考坐标系(例如,在深度摄像头处具有其原点的坐标系)识别物品表面上的所有可见点的3D位置。因此,由范围摄像头100捕获的距离图像(range image)或深度图像可以表示为3D点的“云”,其可以用于描述物品表面的一部分(以及深度摄像头视野内的其他表面)。
[0041] 图2B是根据本发明的一个实施例的立体深度摄像头系统的框图。
[0042] 图2B中所示的深度摄像头系统100包括:第一摄像头102、第二摄像头104、投影源106(或照明源或主动投影系统)以及主处理器108和存储器110,其中主处理器可以是例如图形处理单元(GPU),较为通用的处理器(CPU),适当配置的现场可编程门阵列(FPGA)或专用集成电路(ASIC)。第一摄像头102和第二摄像头104可以牢牢地附接在例如框架上,使得它们的相对位置和取向基本上是固定的。第一摄像头102和第二摄像头104可以一起称为“深度摄像头”。“第一摄像头102和第二摄像头104包括相应的图像传感器102a和104a,并且还可以包括相应的图像信号处理器(ISP)102b和104b。各种组件可以通过系统总线112彼此通信。深度摄像头系统100可以包括附加组件,例如用于与其他装置通信的网络适配器116,例如用于检测深度摄像头100的加速度(例如检测重方向以决定定向)的陀螺仪的惯性测量单元(IMU)118,及用于存储由深度摄像头系统100收集和处理的数据的例如NAND闪速存储器的持久存储器120。IMU 118可以是许多现代智能手机中常见的类型。图像捕获系统还可以包括其他通信组件,例如通用串行总线(USB)接口控制器
[0043] 尽管图2B出示的框图描述的深度摄像头100包括耦合到主处理器108、存储器110、网络适配器116、IMU 118和持久存储器120的两个摄像头102和104,但本发明的实施例不限于此。举例来说,图2A出示的三个深度摄像头100可以各自仅包括摄像头102和104、投影源106和通信组件(例如,USB连接或网络适配器116),并且可以通过共享处理器或使用各自的通信组件或网络适配器116与深度摄像头100通信的处理器的共享集合,来执行对由三个深度摄像头100的摄像头102和104捕获的二维图像进行处理。
[0044] 在一些实施例中,摄像头102和104的图像传感器102a和104a是RGB-IR图像传感器。能够检测可见光(例如红-绿-蓝或RGB)和不可见光(例如红外线或IR)信息的图像传感器可以是例如电荷耦合元件(CCD)或互补金属氧化物半导体(CMOS)传感器。一般来说,传统的RGB摄像头传感器包括以“拜布局(Bayer layout)”或“RGBG布局”布置的像素,其为50%绿,25%红和25%蓝。根据拜耳布局,对于绿色,红色和蓝色波长中的每一个,带通滤光器(或“微滤光器”)放置在各个光电二极管的前面(例如,在光电二极管和与摄像头相关联的光学器件之间)。一般来说,传统的RGB摄像头传感器还包括红外线(IR)滤光器或IR截止滤光器(例如,形成为镜头的一部分或作为整个图像传感器芯片上的涂层),其进一步阻挡电磁波谱的IR部分中的信号。
[0045] RGB-IR传感器实质上类似于传统的RGB传感器,但是可以包括不同的滤色器。例如,在RGB-IR传感器中,每组四个光电二极管中的绿色滤光器中的一个被IR带通滤光器(或微滤光器)替换,以创造25%绿,25%红,25%蓝和25%红外线,其中红外像素在可见光像素之间混合。此外,可以从RGB-IR传感器中省略IR截止滤光器,IR截止滤光器可以仅位于检测红、绿和蓝光的像素上,或者IR滤光器可以设计为使可见光以及特定波长区间(例如,840-860nm)内的光通过。能够捕获电磁光谱的多个部分或多个带或多个光谱带中的光(例如红光、蓝光、绿光和红外光)的图像传感器,在本文中将被称为“多通道”图像传感器。
[0046] 在本发明的一些实施例中,图像传感器102a和104a是传统的可见光传感器。在本发明的一些实施例中,该系统包括一个或多个可见光摄像头(例如RGB摄像头),并且单独地包括一个或多个不可见光摄像头(例如,红外线摄像头,其中IR带通滤光器横跨位于所有像素上)。在本发明的其他实施例中,图像传感器102a和104a是红外线(IR)光传感器。
[0047] 在深度摄像头100包括彩色图像传感器(例如,RGB传感器或RGB-IR传感器)的一些实施例中,由深度摄像头100收集的彩色图像数据可以补充由彩色摄像头150捕获的彩色图像数据。另外,在深度摄像头100包括彩色图像传感器(例如,RGB传感器或RGB-IR传感器)的一些实施例中,可以从系统中省略彩色摄像头150。
[0048] 一般而言,立体深度摄像头系统包括至少两个摄像头,所述摄像头彼此间隔开并且牢牢地安装到共用结构,例如刚性框架。摄像头定向在实质相同的方向上(例如,摄像头的光轴可以实质上平行)并且具有重叠的视野。这些单独的摄像头可以使用例如互补金属氧化物半导体(CMOS)或电荷耦合元件(CCD)图像传感器来实现,该图像传感器具有光学系统(例如,包括一个或多个镜头),该光学系统被配置为将光引导或聚焦到图像传感器上。光学系统可以确定摄像头的视野,例如,基于光学系统是否实现“广角”镜头,“远摄”镜头或介于两者之间。
[0049] 在下面的讨论中,深度摄像头系统的图像采集系统可以被称为具有至少两个摄像头,其可以被称为“主”摄像头和一个或多个“从”摄像头。一般而言,从主摄像头的视角计算估计的深度或视差图,但是任何摄像头都可以用作主摄像头。除非另有说明,否则如本文所用例如主/从、左/右、上/下、第一/第二和CAM1/CAM2等术语可互换使用。换句话说,任何一个摄像头可以是主摄像头或从摄像头,并且左侧摄像头相对于其右侧的摄像头的考虑也可以通过对称性在另一个方向上应用。另外,虽然下文中给出的考虑对于各种数量的摄像头可能是有效的,但是为了方便起见,通常在包括两个摄像头的系统的情况下描述这些考量。例如,深度摄像头系统可包括三个摄像头。在这样的系统中,这些摄像头中的两个可以是不可见光(红外线)摄像头且第三摄像头可以是可见光摄像头(例如红/蓝/绿摄像头)。所有三个摄像头可以相对于彼此光学地配准(例如校准)。包括三个摄像头的深度摄像头系统的一个例子描述于2016年5月5日向美国专利商标局提出申请的美国专利申请序号第15/147,
879号,“深度感知三目相机系统(Depth Perceptive Trinocular Camera System)”,所述申请的全部公开内容通过引用的方式并入本文中。
[0050] 为了检测由摄像头成像的场景中的特征的深度,深度摄像头系统确定由摄像头捕获的每个图像中的特征的像素位置。两个图像中的特征之间的距离被称为视差,其与物品的距离或深度成反比。(这是在比较一次用一只眼睛观察物品时,物品“移位”多少的效果-移位的尺寸取决于物品与观察者眼睛相距多远,其中更近的物品产生更大的移位且更远的物品产生更小的移位,并且在距离内的物品可能具有小到几乎没有可检测到的移位)。例如,在R.Szeliski的“计算机视觉:算法与应用(Computer Vision:Algorithms and Applications)”,施普林格(Springer),2010,第467页及下文中,描述使用视差来计算深度的技术。
[0051] 主摄像头和从摄像头之间的视差幅度取决于深度摄像头系统的物理特性,例如摄像头的像素分辨率,摄像头之间的距离和摄像头的视野。因此,为了产生精确的深度测量,深度摄像头系统(或深度感知深度摄像头系统)基于这些物理特性进行校准。
[0052] 在一些深度摄像头系统中,摄像头可以被布置成使得摄像头的图像传感器的像素的平行基本上平行。可使用图像校正技术来适应由于摄像头镜头的形状和摄像头定向的变化所引起的图像的失真。
[0053] 更详细地说,摄像头校准信息可以提供用于校正输入图像的信息,使得等效摄像头系统的外极线(epipolar line)与校正图像的扫描线对齐。在这种情况下,场景中的3D点投影到主图像和从图像中的相同扫描线索引(scanline index)上。让um和us分别为主从等效摄像头中的相同3D点p的图像的扫描线上的坐标,其中在每个摄像头中,这些坐标指的是以主点(光轴与焦平面的交点)为中心并且具有平行于校正图像的扫描线的水平轴的轴系统。um-us的差值称为视差,用d表示;它与3D点相对于经校正摄像头的正交距离(即,该点在任一摄像头的光轴上的正交投影的长度)成反比。
[0054] 立体演算法利用了这种差异的特性。这些演算法通过匹配在左视图和右视图中检测到的点(或特征)来实现3D重建,这相当于估计视差。块匹配(BM)是常用的立体演算法。给定主摄像头图像中的像素,演算法计算将该像素与从摄像头图像中的任何其他像素匹配的成本。该成本函数被定义为围绕主图像中的像素的小窗口内的图像内容与从图像中的像素之间的不相似性。最终将点上最佳视差估计为最小匹配成本的参数。此过程通常称为赢家通吃(Winner-Takes-All(WTA))。这些技术更详细地描述于例如R.Szeliski的“计算机视觉:算法与应用(Computer Vision:Algorithms and Applications)”中,施普林格(Springer),2010年。由于像BM这样的立体算法依赖外观相似性,如果从图像中的多于一个像素具有相同的局部外观,则视差计算变得具有挑战性,因为所有这些像素可能与主图像中的相同像素相似,从而导致模糊的差异估计。可能发生这种情况的典型情况是当使具有恒定亮度的场景可视化时,例如平坦的壁面。
[0055] 存在通过投射图案来提供额外照明的方法,该图案旨在改善或优化可以捕获小3D细节的块匹配算法的性能,例如2016年7月12日授权的美国专利第9,392,262号,“使用多个多通道摄像头进行3D重建的系统和方法(System and Method for 3D Reconstruction Using Multiple Multi-Channel Cameras)”,所述专利的全部公开内容通过引用的方式并入本文中。另一种方法是投射纯粹用于向场景提供纹理的图案,并且通过消除场景中原本看起来相同的部分的歧义来特别改善无纹理区域的深度估计。
[0056] 根据本发明实施例的投影源106可以被配置为朝向由摄像头102和104成像的场景发射可见光(例如,对人类和/或其他动物为可见光谱内的光)或不可见光(例如,红外光)。换句话说,投影源可以具有实质上平行于摄像头102和104的光轴的光轴,并且可以配置成在摄像头102和104的视野方向上发光。在一些实施例中,投影源106可包括多个间隔开的发光器,每个发光器具有与另一发光器(或多个发光器)的光轴(或多个轴)间隔开的光轴,并且与摄像头102和104的光轴间隔开。
[0057] 不可见光投射源可能更适合于当主体是人的情况(例如在视频会议系统中),因为不可见光不会干扰主体的观看能力,而可见光投射源可能不舒服地照射到主体的眼睛,或通过向场景添加图案而可能不期望地影响体验。例如,在2015年6月30日向美国专利和商标局提出申请的美国专利申请第14/788,078号,“基于多重曝光设置的多通道成像系统和方法(Systems and Methods for Multi-Channel Imaging Based on Multiple Exposure Settings)”中描述了包括不可见光投射源的系统的示例,所述专利的全部公开内容通过引用的方式并入本文中。
[0058] 有源投影源也可以被分类为投影例如不随时间变化的图案的静态图案,以及例如随时间变化的图案的动态图案。在这两种情况下,图案的一个方面是投影图案的照明水平。因为它可以影响深度摄像头系统的深度动态范围,所以可能是相关的。例如,如果光学照明处于高水平,则可以对远处的物品进行深度测量(例如,通过距离平方的倒数成正比的因子来克服在随着与物品的距离而减少的光学照射)且在明亮的环境光条件下。然而,高光学照明水平可能导致场景的特写部分饱和。另一方面,低光学照明水平可以允许测量近的物品,但不能测量远处物品。
[0059] 尽管在本文中描述了关于立体深度摄像头系统的本发明的实施例,但是本发明的实施例不限于此,并且还可以与例如结构光飞行时间(structured light time of flight)摄像头和LIDAR摄像头的其他深度摄像头系统一起使用。
[0060] 根据摄像头的选择,可以使用不同的技术来生成3D模型。例如,密集跟踪和实时映射(Dense Tracking and Mapping in Real Time(DTAM))使用颜色提示进行扫描,而同时定位和映射(Simultaneous Localization and Mapping)使用深度数据(或深度和颜色数据的组合)来生成3D模型。
[0061] 捕获3D模型
[0062] 如果以不同的姿势(例如相对于目标物品的不同位置)捕获深度图像,则与通过单个深度摄像头获取的数据相比,可以获取关于目标物品的表面的更大部分的形状的数据。例如,能够同时获取物品的相对表面(例如图2A中所示的靴子的内侧和外侧)的深度图像,而单个姿势的单个摄像头一次仅可以获取目标物品的一侧的深度图像。可以通过在多个不同姿势上移动单个深度摄像头或通过使用位于不同位置的多个深度摄像头来捕获多个深度图像。合并深度图像(或点云)需要额外的计算并且可以使用诸如迭代最近点(Iterative Closest Point(ICP))技术的技术来实现(参见例如Besl,Paul J.和Neil D.McKay的“三维形状配准方法(Method for registration of 3-D shapes)”Robotics-DL tentative,国际光学和光子学会(International Society for Optics and Photonics),1992),其可以通过优化(例如,最小化)特定对准度量来自动计算深度摄像头的相对姿势。可以通过提供摄像头的近似初始相对姿势来加速ICP过程,如果摄像头被“配准”(例如,如果已经知道摄像头的姿势并且基本上是固定的,因为它们的姿势在校准步骤和运行操作两者之间没有变化)的话,则可以获得。用于捕获物体的基本上所有可见表面的系统和方法描述于例如2017年1月20日向美国专利商标局提出申请的美国临时专利申请第62/448,952号,“使用多视图
3D传感器进行缺陷检测和分析(Defect Detection and Analysis with Multi-View3D Sensors)”,所述申请的全部公开内容通过引用的方式并入本文中。
[0063] 可以通过合并多个对齐的单个点云(单独的深度图像)获得的点云能被处理以去除由于错误的测量(例如测量噪声)造成的“离群值(outlier)”点,或者去除不感兴趣的结构,例如作为对应于背景物品的表面(例如通过去除深度大于特定阈值深度的点)和物品所在的表面(或“地平面”)(例如通过检测点的最底平面)。
[0064] 在一些实施例中,所述系统还包括多个配置成捕获查询物品的纹理数据的彩色摄像头150。纹理数据可以包括物品表面上的颜色,阴影和图案,其在物品的型体中不存在或不明显。在某些情况下,目标物品的材料可以是反射性的(例如,具光泽的)。结果,由于眩光的存在,纹理信息可能丢失,并且捕获的颜色信息可能包括伪像,例如场景内光源的反射。因此,为了捕获表面的实际颜色数据,本发明的实施例的一些方面涉及去除眩光。在一些实施例中,这可以通过从多个姿势对目标物品的表面的相同部分(或“补丁(patch)”)进行成像来实现,其中眩光可以仅从这些姿势的一小部分中可见。结果,可以通过计算与每个彩色摄像头的补丁相关联的颜色矢量,并计算颜色矢量中具有最小幅度的颜色矢量来确定补丁的实际颜色。此技术更详细地描述于2017年8月15日向美国专利商标局提出申请的美国专利申请第15/679,075号,“用于三维扫描和捕获双向反射分布函数的系统和方法(System and Method for Three-Dimensional Scanning and for Capturing a Bidirectional Reflectance Distribution Function)”,所述申请的全部公开内容通过引用的方式并入本文中。
[0065] 回到图2A和图3A,在操作320中,组合点云以生成3D模型。例如,在一些实施例中,间隔开的点云14由点云合并模块210合并以生成合并点云220(例如,通过使用ICP来对齐和合并点云并且还通过去除无关或虚假点来降低噪声并管理点云3D模型的尺寸),以及网格生成模块230使用例如Delaunay三角剖分和α形状的技术以及诸如MeshLab的软件工具来计算来自合并点云的3D网格240(参见例如,P.Cignoni,M.Callieri,M.Corsini,M.Dellepiane,F.Ganovelli,G.,Ranzuglia MeshLab:开源网格处理工具(Open-Source Mesh Processing Tool)第六届Eurographics意大利分会会议,第129-136页,2008年)。在操作330中,3D网格240可以与来自彩色摄像头150的关于在各个点处的物品表面颜色的颜色信息16组合,并且所述颜色信息可以作为纹理图应用于3D网格(例如有关模型表面颜色的信息)。
[0066] 在操作340中,分类系统200从3D模型计算描述符,其中描述符总结查询物品10的特征。在一些实施例中,分类系统的视图生成模块250提供网格模型240的特定标准化二维(2D)视图260。例如,3D网格模型240可用于提供从多个不同视点观察的物品表面的2D视图。在一些实施例中,这些2D视图可以更适合与现有的神经网络技术一起使用,例如卷积神经网络(CNNs),但是本发明的实施例不限于此。例如,用于3D形状检索方法的技术描述于例如Tangelder,J.W.和Veltkamp,R.C.(2008),基于内容的三维形状检索方法的研究(A survey of content based 3-D shape retrieval methods),多媒体工具和应用(Multimedia tools and applications),39(3),441-471。
[0067] 在本发明的各种实施例中,可以使用不同类型的视觉内容来合成或提供这些2D视图。通过标准化用于合成这些2D视图的特定参数集,类似物品的3D扫描(例如,同一制造商的鞋模型的两个实例的扫描)将具有基本相似的2D视图(而如果合成照明光源在两种模型中是不同的话,这些2D视图可能看起来实质上不相同)。使用标准化视图还通过捕获3D扫描的方式消除或减少差异(例如在扫描期间移除目标物品的特定方向的因素),使得分类更加稳健。
[0068] 通常,对于关于捕获的3D模型的虚拟摄像头的任何特定姿势,利用由特定虚拟照明源或照明源点亮的物品,及关于物品表面元件的反射特性的特定假设,系统可以计算将由相对于目标物品的相同姿势的真实摄像头获取的图像。例如,可以假设表面上的所有点都具有的纯粹漫反射特性(例如在朗伯表面模型(Lambertian surface model)的情况下,参见例如Horn,Berthold.机器人视野(Robot vision),麻省理工学院出版社(MIT press),1986),其带有恒定的反照率(如上所述,2017年8月15日向美国专利商标局提出申请的美国专利申请第15/679,075号,“用于三维扫描和捕获双向反射分布函数的系统和方法(System and Method for Three-Dimensional Scanning and for Capturing a Bidirectional Reflectance Distribution Function)”,所述申请的全部公开内容通过引用的方式并入本文中,可以捕获3D模型的纹理以获得朗伯表面模型)。虚拟照明源的一个特定示例是与虚拟摄像头的光学中心共同定位的各向同性点照明源,在像素处合成的图像的值与通过该像素所看到的点处的表面的法向矢量与相关联观看方向间的角度的余弦成正比(这实际上产生的效果类似于在摄像头闪光灯激活下拍摄照片)。然而,本发明的实施例不限于此。例如,本发明的一些实施例可以利用具有均匀反照表面的完全漫射照明;在这种情况下,图像仅捕获物品的轮廓(参见,例如,Chen,D.Y.,Tian,X.P.,Shen,Y.T.,&Ouhyoung,M.(2003,9月),基于视觉相似度的三维模型检索(On visual similarity  based3-D model retrieval),在计算机图形论坛(In Computer graphics forum)(Vol.22,第3号,第223-
232页).布莱克韦尔出版社(Blackwell Publishing,Inc.)。在一些实施例中,不是假设均匀的反照率,而是为表面的每个点分配从标准摄像头(例如,二维彩色或灰度摄像头,而不是深度摄像头)拍摄的实际颜色或灰度图像导出的反照率值,其可以与用于获取物品形状的深度摄像头几何配准。在这种情况下,为虚拟摄像头生成的图像类似于在所选照明下由常规摄像头获得的物品的实际图像。在一些实施例中,为每个像素编码值向量。例如,“HHA”表示在每个像素处编码通过像素看到的离表面元件的距离的倒数、表面元件在地面上的高度、及由法向矢量在表面元件和重力方向上形成的角度(参见,例如,Gupta,S.,Girshick,R.,Arbelaez,P.,&Malik,J.(2014,9月)。从RGB-D图像中学习丰富的特征,用于物品检测和分割(Learning rich features from RGB-D images for object detection and segmentation),在计算机视觉的欧洲会议(European Conference on Computer Vision)上,(第345-360页),施普林格国际出版社(Springer International Publishing)。
[0069] 如上所述,本发明的各种实施例可以在物品的多视图表示中对虚拟摄像头使用不同的姿势组。精细采样(例如更大数量的视图)可以导致基于视图表示的更高保真度,代价是要存储和处理更大量的数据。例如,光场描述符(LightField Descriptor(LFD))模型(参见,例如,Chen,D.Y.,Tian,X.P.,Shen,Y.T.,&Ouhyoung,M.(2003,9月),基于视觉相似度的三维模型检索(On visual similarity based 3-D model retrieval),在计算机图形论坛(Computer graphics forum)上(Vol.22,第3号,第223-232页),布莱克韦尔出版社(Blackwell Publishing,Inc.)),从围绕物品的半球上的十二面体的顶点生成十个视图,同时紧凑多视图描述符(Compact Multi-View Descriptor,(CMVD))模型(参见,例如Daras,P.,&Axenopoulos,A.(2010)),支持多模式查询的三维形状检索框架(A 3-D shape retrieval framework supporting multimodal queries),国际计算机视觉期刊(International Journal of Computer Vision),89(2-3),229-247),从边界截半二十面体(icosidodecahedron)的顶点生成十八个特征视图。虽然有时可能需要大量视图来获取整个表面的描述,但在某些情况下这可能是不必要的,例如当物品放置在具有一致姿势的传送带上时。例如,在工厂中扫描鞋子的情况下,可以放置鞋子使得它们的鞋底总是位于传送带上。在这样的环境中,可以从少量视图获得鞋的可见表面的令人满意的表示。更具体地,深度摄像头100和彩色摄像头150可以全部放置在相同的高度并且定向成使得它们的光轴在鞋的中心相交,并且虚拟摄像头可以类似地沿着与鞋子的中心对齐的平面放置。这样,虽然鞋可以在传送带上以其鞋底旋转到任何角度,但是虚拟摄像头可以提供例如鞋的内侧和外侧,鞋的前部和鞋跟的一致视图。
[0070] 除了能够提供物品相对于其方向的一致视图之外,本发明的实施例的一些方面涉及物品形状的自动构建表示,其对于可预测的参数变换是不变的。例如,某个模型(例如鞋模型)的物品可以具有不同的尺寸,其中不同尺寸的物品通过各向同性的膨胀或收缩来关联。在一些实施例中,不是将特定类别分配给每个尺寸,而是使用单个标准化形状来表示同一物品的所有尺寸。例如,考虑所有虚拟视图位于以物品为中心的球体表面上的情况。在这种情况下,可以通过将球体的半径设置为最小值来获得尺寸不变的表示,使得所有虚拟摄像头完全看到该物品。本发明的其他实施例可以使用其他的尺寸标准化形式。例如,在一个实施例中,模型本身被重新缩放(在收集虚拟视图之前),以便将物品的表面点到物品的质心的平均距离归一化(参见例如Tangelder,J.W.,&Veltkamp,R.C.(2008),基于内容的三维形状检索方法研究(A survey of content based 3-D shape retrieval methods),多媒体工具和应用(Multimedia tools and applications),39(3),441-471)。本发明的一些实施例还涉及定向归一化。例如,该物品可以参考通过在表示物品表面的网格上计算的主成分分析(PCA)定义的系统来表示(参见,例如,Vranic,D.V,Saupe,D.,&Richter,J.(2001)。用于三维物品检索的工具:卡洛南-洛伊变换和球谐函数(Tools for 3-D-object retrieval:Karhunen-Loeve transform and spherical harmonics),多媒体信号处理(Multimedia Signal Processing),2001IEEE第四次研讨会(第293-298页))。
[0071] 多视图形状描述符
[0072] 图3B是根据本发明的一个实施例的用于计算查询物品的描述符的方法的流程图。图4是根据本发明的一个实施例的基于卷积神经网络的分类系统的框图。
[0073] 特别地,在如图3B所示的实施例中,描述符是从由视图生成模块250渲染的3D模型240的2D视图260计算的。在操作344中,将合成的2D视图提供给分类器270或分类器模块270以提取描述符或特征向量并基于描述符对物品进行分类。该特征向量可以包含物品形状的显著和特征方面,并且用于随后的分类或检索步骤。
[0074] 一般来说,将形状s分类为给定类的集合C(也称为类别或标签)之一的工作,与从数据库中检索最相似(在特定度量下)的形状找出给定形状的工作不同。为了方便起见,形状检索将被视为分类的特殊情况,其中数据库中的每个形状本身代表一个种类,并且形状s用数据库中最相似形状的标签来进行分类。该方法有时在模式识别文献中被称为最近邻分类(nearest neighbor classification)。
[0075] 在文献中已知几种用于从基于视图的形状表示进行检索和分类的技术。参见例如,Gao,Y.,&Dai,Q.(2014)。基于视图的三维物品检索:挑战和方法(View-based 3-D object retrieval:challenges and approaches),IEEE多媒体(IEEE MultiMedia),3(21),52-57。对此类相关技术的调查,例如一种方法(描述于Furuya,T.,&Ohbuchi,R.(2009,7月))。使用视觉袋(bag of visual)特征进行三维模型检索的密集采样和快速编码。在ACM国际图像和视频检索会议论文集中(第26页).ACM.)将“词袋(bag of word)”的概念,这是用于图像中的物品识别的经典方法,扩展到多视图物品识别的情况。另一个例子,卷积神经网络(CNN)可以用于多视图物品分类(参见,例如,Su,H.,Maji,S.,Kalogerakis,E.,&Learned-Miller,E.(2015)。用于三维形状识别的多视图卷积神经网络(Multi-view convolutional neural networks for 3-D shape recognition),在IEEE国际计算机视觉会议论文集(Proceedings of the IEEE International Conference on Computer Vision)中,(第945-953页))。
[0076] 根据本发明的一些实施例,卷积神经网络(CNN)用于处理合成的2D视图以生成物品的分类。图4是根据本发明的一个实施例的分类器模块270的示意图,该分类器模块270以深度卷积神经网络(CNN)来实现。一般来说,深CNN通过使输入图像数据(例如合成的2D视图)通过级联层(a cascade of layers)来处理图像。这些层可以分为多个阶段。图4中所示的深度卷积神经网络包括两个阶段,第一级CNN1由N个子过程组成,第二级CNN2由M个层组成。在一个实施例中,第一级CNN1的N层各自包括一线性卷积层堆,其后紧接着点非线性层和非线性数据压缩层。相反地,第二级CNN2的M层中各自是完全连接的层。第二级的输出p是种类分配概率分布。例如,如果CNN被训练为将输入图像分配给k个不同种类中的一个,则第二级CNN2的输出是包括k个不同值的矢量p,每个值表示输入图像应被分配相应种类的概率(或“置信度”)。
[0077] 如上所述,本发明的实施例可以在合适的通用计算平台上实现,例如通用计算机处理器和专用计算机处理器。例如,图形处理单元(GPU)和其他向量处理器(例如,通用处理器的单指令多数据或SIMD指令集)通常非常适合于执行神经网络的训练和操作。
[0078] 在一些实施例中,基于训练数据训练神经网络,训练数据可包括一组物品的3D模型及其对应的标签(例如,物品的正确分类)。可以将所述训练数据的一部分保留为交叉验证数据以进一步调整训练过程期间的参数,并且还可以保留一部分作为测试数据以确认网络被正确地训练。
[0079] 可以使用例如反向传播和梯度下降的用于训练神经网络的标准过程来使用神经网络的参数(例如,层之间的连接权重)(参见,例如,LeCun,Y.,&Bengio,Y.,(1995年),用于图像、语音和时序的卷积网络(Convolutional networks for images,speech,and time series),大脑理论和神经网络手册(The handbook of brain theory and neural networks),3361(10),1995)。另外,可以使用来自预训练的通用图像分类神经网络的参数来初始化训练过程(参见,例如Chatfield,K.,Simonyan,K.,Vedaldi,A.,&Zisserman,A.(2014)),细节中的魔鬼回归:深入钻研卷积网(Return of the devil in the details:Delving deep into convolutional nets),预印本库(arXiv)预印本arXiv:1405.3531)。
[0080] 如图4所示,由第一级CNN1(卷积级)计算并提供给第二级CNN2(完全连接级)的值在此称为特征向量(或描述符)f。所述特征向量或描述符可以是具有固定尺寸(例如,4,096个条目)的数据向量,其浓缩或概括输入图像的主要特征。这样,第一级CNN1可以被称为分类系统270的特征提取级。
[0081] 以上关于图4描述的分类器270的架构可以应用于基于物品的n个不同2D视图对3D物品的多视图形状表示进行分类。例如,第一级CNN1可以独立地应用于用于表示3D形状的所述n个2D视图中的每一个,从而计算一组n个特征向量(每个2D视图一个)。此技术的各方面更详细地描述于例如Su,H.,Maji,S.,Kalogerakis,E.和Learned-Miller,E.(2015),用于三维形状识别的多视图卷积神经网络(Multi-view convolutional neural networks for 3-D shape recognition),在IEEE际计算机视觉会议论文集(Proceedings of the IEEE International Conference on Computer Vision)中,(第945-953页)。在一些实施例中,使用例如最大池化(max pooling)来组合n个单独的特征向量(参见,例如,Boureau,Y.L,Ponce,J.,&LeCun,Y.(2010),视觉识别中特征池化的理论分析(A theoretical analysis of feature pooling in visual recognition),在第27届机器学习国际会议论文集(Proceedings of the 27th international conference on machine learning)(ICML-10)中,第111-118页)。
[0082] 图5是说明根据本发明的一个实施例的最大池化的图示。如图5所示,将n个视图分别提供给分类器270的第一级CNN1以生成n个特征向量。在最大池化中,n个特征向量f被组合以生成单个组合特征向量或描述符F,其中描述符F的第j个条目等于n个特征向量f中的第j个条目中的最大值。得到的描述符F具有与n个特征向量f相同的长度(或等级),且因此描述符F也可以作为输入提供给第二级CNN2。
[0083] 在本发明的一些实施例中,虚拟摄像头的特定姿势的选择,例如,选择要提供的特定2D视图,导致描述符F具有不变的属性。例如,考虑所有虚拟摄像头位于球体上的配置(例如所有虚拟摄像头都布置在距离3D模型的中心或地平面上的特定点p相同距离的姿势处,并且全部具有在3D模型的中心或地平面上的特定点p处相交的光轴。具有类似属性的布置的另一示例包括位于3D模型的地平面上方的相同高度处的所有虚拟摄像头,朝向3D模型定向(例如具有与3D模型的中心相交的光轴),以及在距离3D模型相同的距离处,在这种情况下,物品围绕延伸通过3D模型的中心的垂直轴(例如垂直于地平面)的任何旋转将产生基本相同的向量或描述符F(假设摄像头放置在紧密间隔的位置)。
[0084] 然后可以将提取的特征向量提供给分类器,以将物品分类为k个不同种类C的特定集合之一的成员,从而产生查询物品10的分类。例如,这可以通过将描述符F提供给第二级CNN2来完成,从而得到表示种类分配概率分布的归一化正数的向量p。此向量p的最大条目的索引是给定形状的最可能种类,具有表示该分类的置信度的关联最大值。这样,第二级CNN2可以被称为卷积神经网络的分类级。
[0085] 在本发明的一些实施例中,分类器CNN2通过使用目标物品的描述符F对目标物品10进行分类,以检索数据集中最相似的形状,而不是通过将描述符F提供给第二级CNN2。更详细地,训练集合中的所有物品可以被提供给第一级CNN1以生成一组已知描述符{Fds{m}},其中索引m指示训练数据中的特定标记形状。定义相似性度量以测量任何两个给定描述符(向量)F和Fds(m)之间的距离。相似性度量的一些简单示例是欧几里德向量距离(Euclidean vector distance)和哈拉诺比斯向量距离(Mahalanobis vector distance)。在本发明的其他实施例中,使用度量学习演算法来学习相似性度量(参见例如Boureau,Y.L,Ponce,J.,&LeCun,Y.(2010),视觉识别中特征池化的理论分析(A theoretical analysis of feature pooling in visual recognition),在第27届机器学习国际会议论文集(Proceedings of the 27th international conference on machine learning(ICML-
10)中,第111-118页)。度量学习演算法可以学习特征向量空间的线性或非线性变换,其最小化属于同一种类的向量对之间的平均距离(从训练数据中的示例测量)并且最大化属于不同种类的向量对之间的平均距离。
[0086] 应用于物品分类和表征
[0087] 本发明实施例的一些方面使得能够在类别层级的特定级别下对查询物品进行分类。图6说明根据本发明的一个实施例的包括两个分类级别的层级的示例。为了说明,图6描绘了管理鞋类的存货清单610,包类的存货清单620和禽舍的存货清单630的仓库的极端示例,其中查询物品10被自动分类到鞋类别中并且还可以被分类为鞋类别内的特定样式的鞋子。这些存货清单可以分别包括许多不同类型的物品(例如,鞋类的存货清单可以具有许多不同品牌和类型的鞋子,包类的存货清单可以具有许多不同品牌和类型的包,并且禽舍的存货清单可以具有许多不同类型的禽舍)。
[0088] 不同的应用可能需要不同级别的分类粒度。例如,将左鞋与其匹配的右鞋配对可以使用左右鞋的高粒度分类以确保两个鞋实际匹配,而检测物品的类型(例如,鞋类,包类或禽舍)用于通过传送系统自动重定向到特定的相应处理线(例如,用于鞋类的处理线,用于包类的处理线或用于禽舍的处理线)可以使用较小的粒度分类。
[0089] 一般而言,执行更精细(或更细粒度)的分类涉及更多的计算资源。例如,卷积神经网络的第二级CNN2可能需要附加层,以便在分类为大量类别之一时(例如,大量输出类别k,例如将物品分类为特定品牌和类型的鞋子时)实现良好性能,而如果输出类别的数量少(例如,少量的输出类别k,例如将物品分类为鞋类,包类或禽舍时),可以用较少的层来实现良好的性能。作为另一示例,当基于距已知物品的数据库的距离对物品进行分类时,当输出类别的数量小(低粒度)时比当输出类别的数量大(高粒度)时进行更少的向量距离比较。因此,在某些需要高速分类的情况下,由于物件的高吞吐量(例如自动分类沿输送系统快速移动的大量物品并根据分类结果重定向物品),以较低的粒度级别对物品进行分类可能是有利的。
[0090] 如上所述,在本发明的一些实施例中,分类系统270可以包括特征提取级CNN1和分类级CNN2,其中特征提取级CNN1的输出被称为描述符F。在一些实施例中,描述符F总结了从多个视点看到的物品的外观。特征提取级CNN1在功能上和逻辑上与分类级CNN2分离。这样,无论进行分类的级别或粒度为何,都可以使用相同的描述符F,因此,在本发明的各个实施例中,根据应用所需的粒度级别,不同的分类器CNN2可以与相同的特征提取级CNN1一起使用。
[0091] 各种分类器可以专用于特定工作,例如广泛的存货清单识别(例如,鞋类相对于包类相对于禽舍),更精细的粒度(例如,靴子相对于运动鞋相对于高跟鞋),或者存货清单中特定类似物品的识别(例如,一个特定的品牌和类型的鞋子)。在本发明的各种实施例中,分类级CNN2可以使用例如完全连接的神经网络(具有一个或多个隐藏层),线性或非线性分类器(例如,支持向量机),或者最近邻或k-最近邻分类器(在一些实施例中使用矩阵学习)来实现。
[0092] 更详细地,可以将附加参数作为输入提供给分类器模块270,其中附加参数用于识别在执行分类时将使用哪个分类级CNN2。可以基于期望的粒度级别来指定参数(例如,在存货清单级别上相对于类型级别上进行分类)或者如果先前知识中已存在该物品属于特定存货清单,则可以指定专用于特定类型的物品(例如鞋类)的分类级CNN2。
[0093] 此外,特征提取级CNN1和分类级CNN2之间的逻辑分离使得本发明的实施例能够重新训练或修改分类级CNN2,而不必重新训练特征提取级CNN1。例如,如果获得了新的物品的存货清单(例如,将枕头的存货清单加入鞋类、包类和禽舍的单独存货清单)或者如果将更多物品添加到现有存货清单中(例如将另外品牌的鞋子添加到存货清单中),在本发明的一些实施例中,可以通过将新项目提供给特征提取级CNN1以将新项目添加到分类器,以便为每个新项目生成相应的描述符F,然后再基于新添加项目的描述符,仅对分类器级CNN2进行再培训或再配置。例如,在基于完全连接的神经网络的分类器级CNN2的情况下,F与新项目相关联的描述符和类别标签与先前训练数据的描述符和标签组合,并且使用例如反向传播和梯度下降,将组合的描述符和标签用于重新训练神经网络分类器级(例如,设置神经单位之间连接的权重)。作为另一示例,在基于最近邻(或k-最近邻)的分类级CNN2的情况下,附加项目的描述符F仅被添加作为附加集群以供与查询物品的描述符(或“查询描述符”)相比,以便找到最相似的已知描述符。
[0094] 相反地,比较分类系统要求基于新的训练数据重新训练包括卷积级的整个神经网络。这样,仅重新训练或重新配置分类级CNN2减少了重新配置或重新训练分类系统270以识别新类型项目所需的时间和计算资源,因为特征提取卷积神经网络CNN1不需要重新训练。这点在使用基于完全连接的神经网络的分类器的实施例以及在使用最近邻分类器的实施例中是有益的,至少因为使用基于卷积神经网络的特征提取器CNN1提取描述符在计算上是昂贵的。
[0095] 就本身而论,本发明的实施例的各方面提高了分类系统被重新配置以处理其他形式的物品或处理其他类型的物品的能力,而不需要大量重新训练。
[0096] 在一些实施例中,例如当添加一个或多个存货清单或者基本上扩展存货清单时,将描述符表示更新成更好模型,对于扩展的物品组的出现是有益的。例如,训练特征提取级CNN1以提取有利于表示和区分训练数据中物品的特征。然而,这些特征可能不一定准确地表示新添加物品的类别之间的区别特征。就本身而论,在一些实施例中,全网络(包括特征提取级CNN1的卷积层)被重新训练,而不是仅完全连接分类层CNN2被重新训练。需注意的是,更新特征提取级CNN1还涉及为了最近邻分类而重新计算训练数据集的描述符,因为重新训练特征提取级CNN1导致不同的特征被计算,从而使旧描述符与新的分类级CNN2不兼容。
[0097] 除了上面讨论的形状描述符之外,可以使用其他特征特征来帮助对物品进行分类,或者将分类细化为更精细的粒度。例如,考虑以五种不同模型或类型生产的手提包的情况,每种模型或类型有两种颜色。基于形状描述符的分类器可以正确地识别给定手提包的模型或类型,但不能识别颜色。如果对于手提包的特定颜色也是感兴趣的,则其他特征(例如,来自一个或多个视图中的像素的红、绿和蓝(RGB)颜色值的柱状图)也可以包括在输入数据中,并且可以训练适当的颜色分类器以输出给定输入的颜色类别。另一个例子涉及随着物品的模型识别所述物品(例如鞋子)的尺寸及其模型。如上所述,使用二维视图分析形状允许尺寸不变性。就本身而论,通过分析物品形状的3D表示,可以获得目标物品的尺寸信息,因为来自深度摄像头的基础深度信息包括关于长度的信息。
[0098] 此外,本发明的实施例允许使用不同的特征来直接查询数据集。例如,人们可能对确定某个存货清单中的哪些其他物品具有与给定物品相同的颜色感兴趣。通过识别具有与给定物品相同的颜色特征(或非常相似的颜色特征)的存货清单中的物品,同时忽略描述符的其他特征(例如,与形状有关的描述符),可以找到具有相同颜色的这些其他物品。
[0099] 如上所述,由根据本发明实施例的分类系统200计算的分类可以应用于执行各种操作。作为一个示例,可以向用户自动显示分类以允许用户查看在深度摄像头100和彩色摄像头150的视野中放置的物品的分类。作为另一个例子,分类可以用于扫描在传送系统上移动的物品并且控制传送系统以根据分类(例如,用于对不同形式的物品进行分类或者根据业务需要将物品分组在一起,例如为特定客户组合订单)来重新定向物品。可以使用各种可移动机械部件来实现物品的重新定向,例如可控门,可移动槽,机械臂等。
[0100] 虽然已经关于某些示范性实施例来描述本发明,但应理解,本发明不限于所公开的实施例,而相反地,本发明旨在涵盖包含于所附权利要求的精神和范围内的各种修改和等效布置和其等同物。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈