专利 位姿估计方法及相关模型的训练方法、装置、设备、介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210823003.X (22)申请日 2022.07.12 (71)申请人浙江商汤科技开发有限公司地址 311215 浙江省杭州市萧山区宁围街道市心北路857号28 8-8室 (72)发明人周晓巍　林浩通　彭思达　 (74)专利代理机构深圳市威世博知识产权代理事务所(普通合伙) 44280 专利代理师许昌莲 (51)Int.Cl. G06T 7/73(2017.01) G06T 7/90(2017.01) G06T 7/50(2017.01) (54)发明名称位姿估计方法及相关模型的训练方法、装置、设备、介质 (57)摘要本申请公开了一种位姿估计方法及相关模型的训练方法、装置、设备、介质，位姿估计模型的训练方法，包括：获取包含待定位对象的样本图像，样本图像包含样本彩色图像和样本彩色图像对应的样本深度图像；利用位姿估计模型对样本彩色图像处理，得到待定位对象的样本初始位姿；基于样本深度图像中待定位对象的深度信息，对样本初始位姿进行优化，得到待定位对象的优化位姿；基于优化位姿与样本初始位姿之间的差异，调整位姿估计模型中的网络参数。上述方案，能够提高模型训练的效率。权利要求书3页说明书14页附图3页 CN 115131437 A 2022.09.30 CN 115131437 A 1.一种位姿估计模型的训练方法，其特征在于，包括：获取包含待定位对象的样本图像，所述样本图像包含样本彩色图像和所述样本彩色图像对应的样本深度图像；利用位姿估计模型对所述样本彩色图像处理，得到所述待定位对象的样本初始位姿；基于所述样本深度图像中所述待定位对象的深度信息，对所述样本初始位姿进行优化，得到所述待定位对象的优化位姿；基于所述优化位姿与所述样本初始位姿之间的差异，调整所述位姿估计模型中的网络参数。 2.根据权利要求1所述的方法，其特征在于，所述基于所述样本深度图像中所述待定位对象的深度信息，对所述样本初始位姿进行优化，得到所述待定位对象的优化位姿，包括：基于所述样本初始位姿以及所述待定位对象对应的预设三维模型，确定关于所述待定位对象的渲染深度图；利用所述渲染深度图和所述样本深度图像之间的差异，确定优化项；调整所述样本初始位姿，以使所述优化项满足预设要求，并将调整后的样本初始位姿作为所述优化位姿。 3.根据权利要求2所述的方法，其特征在于，所述预设要求为所述优化项最小化；和/ 或，所述方法还包括：基于所述样本初始位姿以及所述预设三维模型，确定关于所述待定位对象的法线图；以及，所述利用所述渲染深度图和所述样本深度图像之间的差异，确定优化项，包括：分别对所述渲染深度图和所述样本深度图像进行反投影，得到所述渲染深度图对应的第一点云和所述样本深度图像对应的第二点云，所述第一点云中包括若干对象像素点对应的第一三维点、所述第二点云中包括各所述对象像素点对应的第二三维点，所述对象像素点为所述样本彩色图像中属于所述待定位对象的像素点；对于每一所述对象像素点，确定所述对象像素点对应的偏差表征值，所述偏差表征为所述对象像素点对应的目标位姿差与所述对象像素点在所述法线图中对应的法线方向之间的乘积，其中，所述目标位姿差为所述对象像素点对应的第一三维点和对应的第二三维点之间的位姿差；结合各所述对象像素点对应的偏差表征值，确定所述优化项。 4.根据权利要求2或3所述的方法，其特征在于，所述基于所述优化位姿与所述样本初始位姿之间的差异，调整所述位姿估计模型中的网络参数之前，所述方法还包括：判断所述优化位姿是否为预设错误估计位姿；响应于所述优化位姿不为所述预设错误估计位姿，执行所述基于所述优化位姿与所述样本初始位姿之间的差异，调整所述位姿估计模型中的网络参数的步骤。 5.根据权利要求4所述的方法，其特征在于，所述判断所述优化位姿是否为预设错误估计位姿，包括：获取各对象像素点对应的偏差表征值之间的集中趋势表征值，其中，所述对象像素点为所述样本彩色图像中属于所述待定位对象的像素点，所述对象像素点对应的偏差表征值为所述对象像素点对应的目标位姿差与所述对象像素点对应的法线方向之间的乘积，所述权　利　要　求　书 1/3 页 2 CN 115131437 A 2目标位姿差为所述对象像素点对应的第一三维点和对应的第二三维点之间的位姿差，所述第一三维点为所述渲染深度图对应的第一点云中三维点，所述第二三维点为所述样本深度图像对应的第二点云中的三维点；判断所述集中趋势表征值是否小于或等于预设尺寸，所述预设尺寸与所述待定位对象在物理世界下的尺寸相关；响应于所述集中趋势表征值小于或等于所述预设尺寸，确定所述优化位姿不为所述预设错误估计位姿。 6.根据权利要求1 ‑5任一项所述的方法，其特征在于，所述利用位姿估计模型对所述样本彩色图像处理，得到所述待定位对象的样本初始位姿，包括：利用所述位姿估计模型，确定关于所述待定位对象的若干三维关键点在所述样本彩色图像上的投影位置；基于各所述三维关键点在所述样本彩色图像上的投影位置以及目标相机的内参，确定所述待定位对象的样本初始位姿。 7.根据权利要求6所述的方法，其特征在于，所述利用所述位姿估计模型，确定关于所述待定位对象的若干三维关键点在所述样本彩色图像上的投影位置，包括：利用所述位姿估计模型，预测各对象像素点分别到每一所述投影位置的方向向量，所述对象像素点为所述样本彩色图像中属于所述待定位对象的像素点；对于每一所述投影位置，从与所述投影位置对应的若干方向向量中确定预设数量的方向向量，生成各所述方向向量对应的候选投影位置；基于各所述候选投影位置之间的位置关系，确定各所述候选投影位置的分数；将所述分数满足预设要求的候选投影位置，作为所述投影位置。 8.根据权利要求7所述的方法，其特征在于，所述从与所述投影位置对应的若干方向向量中确定预设数量的方向向量，生成各所述方向向量对应的候选投影位置，包括：将各所述对象像素点的位置与所述对象像素点对应的方向向量求和，得到各所述对象像素点对应的候选投影位置；所述基于各所述候选投影位置之间的位置关系，确定各所述候选投影位置的分数，包括：对于每一所述候选投影位置，确定所述候选投影位置与其他候选投影位置之间的目标距离的数量，并将所述目标距离的数量作为所述分数，所述目标距离为小于或等于预设距离的距离；所述将所述分数满足预设要求的候选投影位置，作为所述投影位置，包括：将最大分数对应的候选投影位置作为所述投影位置。 9.根据权利要求1 ‑8任一项所述的方法，其特征在于，所述利用位姿估计模型对所述样本彩色图像处理，得到所述待定位对象的样本初始位姿，包括：利用所述位姿估计模型对所述样本彩色图像进行目标检测，得到所述待定位对象的位置；基于所述待定位对象的位置，对所述样本彩色图像进行裁剪，得到包含所述待定位对象的局部图像；对所述局部图像进行处理，得到所述待定位对象的样本初始位姿。权　利　要　求　书 2/3 页 3 CN 115131437 A 3

专利 位姿估计方法及相关模型的训练方法、装置、设备、介质

专利位姿估计方法及相关模型的训练方法、装置、设备、介质