说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211109001.0 (22)申请日 2022.09.13 (71)申请人 北京交通大 学 地址 100044 北京市海淀区西直门外上园 村3号 (72)发明人 李强 万上锋 李昊聪 张颖  (74)专利代理 机构 北京市商 泰律师事务所 11255 专利代理师 黄晓军 (51)Int.Cl. G06V 20/52(2022.01) G06V 30/14(2022.01) G06V 10/764(2022.01) G06N 3/08(2006.01) G06N 3/04(2006.01)G06F 16/955(2019.01) G06F 16/951(2019.01) (54)发明名称 一种基于监控摄 像头的地标提取方法 (57)摘要 本发明提供了一种基于监控摄像头的地标 提取方法。 该方法包括: 使用爬虫技术对监控摄 像头收集的监控视频流网站进行数据爬取, 得到 网页数据和图片数据; 利用命名实体识别技术提 取所述网页数据中的网际协议IP地址、 经纬度和 组织地理位置的文字, 将提取出的文字作为地标 数据; 利用光学字符识别技术提取所述图片数据 中的IP地址、 经纬度和组织地理位置的文字, 将 提取出的文字作为地标数据; 对 所述地标数据进 行校准和数据覆盖范围扩展处理。 本发明方法利 用网页信息和图像信息能够更好更准确地提取 地标数据, 对同一个连续IP范围内的地标数据进 行扩展, 使地标数据更庞大, 提供了一个自动收 集高质量的IP地标信息, 为公司和企业提供IP定 位支持。 权利要求书2页 说明书5页 附图3页 CN 115410158 A 2022.11.29 CN 115410158 A 1.一种基于监控摄 像头的地标提取 方法, 其特 征在于, 包括: 使用爬虫技术对监控摄像头收集的监控视频流网站进行数据爬取, 得到网页 数据和图 片数据; 利用命名实体识别技术提取所述网页 数据中的网际协议IP地址、 经纬度和组织地理位 置的文字, 将提取 出的文字作为 地标数据; 利用光学字符识别技术提取所述图片数据中的IP地址、 经纬度和组织地理位置的文 字, 将提取 出的文字作为 地标数据; 对所述地标数据进行 校准和数据覆盖范围扩展处 理。 2.根据权利要求1所述的方法, 其特征在于, 所述的使用爬虫技术对收集的监控视频流 网站进行 数据爬取, 得到网页数据和图片数据, 包括: 使用启发式的方法收集监控视频流网站, 使用开源库爬取视频流网站 的数据, 通过搜 索引擎运行关键词对爬取 的数据进行过滤, 筛选出监控视频流网站, 使用广度优先策略解 析监控视频流网站的主页, 获取监控视频流的所有统一资源定位符URL链接, 迭代地解析 URL链接来探索下一层的页面, 直到没有发现新的URL链接, 将所有的URL链接作为候选网 页; 对各个候选网页进行分类, 选取径向基函数作为支持向量机SVM的内核函数来学习分 类模型, 对候选网页进行预处理, 去除无关的元素, 对预处理后的候选网页经过特征提取、 特征表示和归一化处理之后得到 分类器, 利用分类器筛选出包含IP和经纬度信息的网页数 据, 保存筛 选后网页数据中的img标签的图像url链接, 作为图片数据。 3.根据权利要求1所述的方法, 其特征在于, 所述的利用命名实体识别技术提取所述网 页数据中的网际协议IP地址、 经纬度和组织地理位置的文字, 将提取出的文字作为地标数 据, 包括: 对网页数据进行预处理, 如果URL具有相同的, 那么删除重复数据, 在剩下的网页内容 中, 使用正则表达式提取 所述网页数据中的IP地址和经纬度的文本; 将纯文本拆分为单个文字, 进行词标记化, 作为训练数据, 使用词向量模型处理训练数 据, 将纯文本格式的文字转化为词向量, 利用门控循环单元模 型进行单词的字母向量表示, 将词向量与字母向量结合起来作为混合向量表示, 将为混合向量表示作为每一个门控循环 单元GRU的输入, 训练循环神经网络模型, 利用循环神经网络模型将网页信息中的每一个字 进行标记, 识别出 所述网页数据中的组织 地理位置信息; 将提取出的IP地址、 经纬度和组织 地理位置信息的文字作为 地标数据。 4.根据权利要求1所述的方法, 其特征在于, 所述的利用光学字符识别技术提取所述图 片数据中的IP地址、 经纬度和组织 地理位置的文字, 将提取 出的文字作为 地标数据, 包括: 对图片数据进行预处理操作, 该预处理操作包括灰度化处理、 二值化处理、 降噪处理和 倾斜矫正, 使用开源的光学字 符识别引擎Tesseract提取出图片数据中的文字和数字信息, 将提取出的文字和数字信息作为 地标数据。 5.根据权利要求1所述的方法, 其特征在于, 所述的对所述地标数据进行校准和数据覆 盖范围扩展处 理, 包括: 收集所述地标数据中已知经纬度的IP数据, 去除重 复的IP数据, 按照IP地址进行排序, 提取所有的IP地址的24位网络掩码, 再根据网络掩码值进行循环比较, 根据网络掩码进行权 利 要 求 书 1/2 页 2 CN 115410158 A 2分组, 找出有两个或以上的IP地标数据位置一样但IP值不同的分组, 对该24位网络掩码的 IP地址进行扩充。权 利 要 求 书 2/2 页 3 CN 115410158 A 3

PDF文档 专利 一种基于监控摄像头的地标提取方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于监控摄像头的地标提取方法 第 1 页 专利 一种基于监控摄像头的地标提取方法 第 2 页 专利 一种基于监控摄像头的地标提取方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:04:52上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。