说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211109001.0 (22)申请日 2022.09.13 (71)申请人 北京交通大 学 地址 100044 北京市海淀区西直门外上园 村3号 (72)发明人 李强 万上锋 李昊聪 张颖 (74)专利代理 机构 北京市商 泰律师事务所 11255 专利代理师 黄晓军 (51)Int.Cl. G06V 20/52(2022.01) G06V 30/14(2022.01) G06V 10/764(2022.01) G06N 3/08(2006.01) G06N 3/04(2006.01)G06F 16/955(2019.01) G06F 16/951(2019.01) (54)发明名称 一种基于监控摄 像头的地标提取方法 (57)摘要 本发明提供了一种基于监控摄像头的地标 提取方法。 该方法包括: 使用爬虫技术对监控摄 像头收集的监控视频流网站进行数据爬取, 得到 网页数据和图片数据; 利用命名实体识别技术提 取所述网页数据中的网际协议IP地址、 经纬度和 组织地理位置的文字, 将提取出的文字作为地标 数据; 利用光学字符识别技术提取所述图片数据 中的IP地址、 经纬度和组织地理位置的文字, 将 提取出的文字作为地标数据; 对 所述地标数据进 行校准和数据覆盖范围扩展处理。 本发明方法利 用网页信息和图像信息能够更好更准确地提取 地标数据, 对同一个连续IP范围内的地标数据进 行扩展, 使地标数据更庞大, 提供了一个自动收 集高质量的IP地标信息, 为公司和企业提供IP定 位支持。 权利要求书2页 说明书5页 附图3页 CN 115410158 A 2022.11.29 CN 115410158 A 1.一种基于监控摄 像头的地标提取 方法, 其特 征在于, 包括: 使用爬虫技术对监控摄像头收集的监控视频流网站进行数据爬取, 得到网页 数据和图 片数据; 利用命名实体识别技术提取所述网页 数据中的网际协议IP地址、 经纬度和组织地理位 置的文字, 将提取 出的文字作为 地标数据; 利用光学字符识别技术提取所述图片数据中的IP地址、 经纬度和组织地理位置的文 字, 将提取 出的文字作为 地标数据; 对所述地标数据进行 校准和数据覆盖范围扩展处 理。 2.根据权利要求1所述的方法, 其特征在于, 所述的使用爬虫技术对收集的监控视频流 网站进行 数据爬取, 得到网页数据和图片数据, 包括: 使用启发式的方法收集监控视频流网站, 使用开源库爬取视频流网站 的数据, 通过搜 索引擎运行关键词对爬取 的数据进行过滤, 筛选出监控视频流网站, 使用广度优先策略解 析监控视频流网站的主页, 获取监控视频流的所有统一资源定位符URL链接, 迭代地解析 URL链接来探索下一层的页面, 直到没有发现新的URL链接, 将所有的URL链接作为候选网 页; 对各个候选网页进行分类, 选取径向基函数作为支持向量机SVM的内核函数来学习分 类模型, 对候选网页进行预处理, 去除无关的元素, 对预处理后的候选网页经过特征提取、 特征表示和归一化处理之后得到 分类器, 利用分类器筛选出包含IP和经纬度信息的网页数 据, 保存筛 选后网页数据中的img标签的图像url链接, 作为图片数据。 3.根据权利要求1所述的方法, 其特征在于, 所述的利用命名实体识别技术提取所述网 页数据中的网际协议IP地址、 经纬度和组织地理位置的文字, 将提取出的文字作为地标数 据, 包括: 对网页数据进行预处理, 如果URL具有相同的, 那么删除重复数据, 在剩下的网页内容 中, 使用正则表达式提取 所述网页数据中的IP地址和经纬度的文本; 将纯文本拆分为单个文字, 进行词标记化, 作为训练数据, 使用词向量模型处理训练数 据, 将纯文本格式的文字转化为词向量, 利用门控循环单元模 型进行单词的字母向量表示, 将词向量与字母向量结合起来作为混合向量表示, 将为混合向量表示作为每一个门控循环 单元GRU的输入, 训练循环神经网络模型, 利用循环神经网络模型将网页信息中的每一个字 进行标记, 识别出 所述网页数据中的组织 地理位置信息; 将提取出的IP地址、 经纬度和组织 地理位置信息的文字作为 地标数据。 4.根据权利要求1所述的方法, 其特征在于, 所述的利用光学字符识别技术提取所述图 片数据中的IP地址、 经纬度和组织 地理位置的文字, 将提取 出的文字作为 地标数据, 包括: 对图片数据进行预处理操作, 该预处理操作包括灰度化处理、 二值化处理、 降噪处理和 倾斜矫正, 使用开源的光学字 符识别引擎Tesseract提取出图片数据中的文字和数字信息, 将提取出的文字和数字信息作为 地标数据。 5.根据权利要求1所述的方法, 其特征在于, 所述的对所述地标数据进行校准和数据覆 盖范围扩展处 理, 包括: 收集所述地标数据中已知经纬度的IP数据, 去除重 复的IP数据, 按照IP地址进行排序, 提取所有的IP地址的24位网络掩码, 再根据网络掩码值进行循环比较, 根据网络掩码进行权 利 要 求 书 1/2 页 2 CN 115410158 A 2分组, 找出有两个或以上的IP地标数据位置一样但IP值不同的分组, 对该24位网络掩码的 IP地址进行扩充。权 利 要 求 书 2/2 页 3 CN 115410158 A 3
专利 一种基于监控摄像头的地标提取方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-03-03 12:04:52
上传分享
举报
下载
原文档
(524.0 KB)
分享
友情链接
GB-T 9711-2017 石油天然气工业 管线输送系统用钢管.pdf
DB37-T 3890.3—2020 新型智慧城市建设指标 第3部分:智慧社区指标 山东省.pdf
NB-T 10509-2021 水电建设项目水土保持技术规范.pdf
T-GDIIA 005—2021 信息技术应用创新项目运行维护服务标准.pdf
GB-T 36630.1-2018 信息安全技术 信息技术产品安全可控评价指标 第1部分:总则.pdf
DB65-T 4458-2021 南疆盐碱地土壤调理剂施用技术规程 新疆维吾尔自治区.pdf
GB-T 31501-2015 信息安全技术 鉴别与授权 授权应用程序判定接口规范.pdf
GB-T 36323-2018 信息安全技术 工业控制系统安全管理基本要求.pdf
2021-信通院-数据安全风险分析及应对策略研究.pdf
T-SSITS 2001—2022 低速无人车移动底盘通用技术条件.pdf
数据出境安全评估办法 中英文.pdf
GB-T 18336.2-2015 信息技术 安全技术 信息技术安全评估准则 第2部分:安全功能组件.pdf
GB-T 1506-2016 锰矿石 锰含量的测定 电位滴定法和硫酸亚铁铵滴定法.pdf
T-CISA 216—2022 船舶用热轧纵向变厚度钢板.pdf
ISO 21780 2020 Road vehicles — Supply voltage of 48 V — Electrical requirements and tests.pdf
ISO 22301-2019.pdf
GB-T 8446.1-2022 电力半导体器件用散热器 第1部分:散热体.pdf
GB-T 25731-2010 粮油机械 长管蒸发器.pdf
GB-T 15320-2001节能产品评价导则.pdf
GB-T 26695-2011 家具用钢化玻璃板.pdf
1
/
11
评价文档
赞助2.5元 点击下载(524.0 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。