当前位置: 首页 > 关于智慧芽 > 最新动态

如何更精准的查找到专利数据,干货分享(1)

智慧芽 | 2022-04-14 |

  在日常的检索分析工作中,经常会遇到检索结果中有很多不相关的文献;同一申请人的名称不统一、有多种形式 ;想要分析最贴近研发实际的技术分支,却没有现成的相关维度等等问题。正是因为检索结果中存在着众多问题,所以检索结果不能直接拿来做分析,需要对检索结果进行清洗和处理,通过修正后的结果进行分析,分析更准确、更精准。

  常见的清洗手段主要有四个:去噪、去重、规范以及标引。本文主要针对去噪进行详细的讲解,其它的清洗步骤将在后续内容中为您介绍。

  去噪,即排除不相关的文献,提高分析样本的纯度,可以通过人工的方式单篇去噪,也可以寻找到规律噪音源进行快速的批量去噪。

  人工和批量结合去噪

  数据清洗时一般先去噪,通过人工和批量相结合,先批量后人工,批量去噪可以从任何一个检索字段入手,常用的去噪维度有申请人、分类号和关键词。

  专利数据

  筛选出相关文献,按照申请日等非相关度进行排序,使噪音源随机分布。浏览筛选的文献,浏览的过程采用表格视图和图文视图两种方式相结合来确定噪音源,修正检索式。

  "噪音关键词"可以采用人工阅读的方式确定,还可以采用文本聚类的方式进行确定。

  文本聚类方式去噪

  智慧芽专利数据库的3D专利地图和智慧芽英策(Insights)都涉及文本聚类,但两者聚类的方式略有不同。将前述的检索结果保存到工作空间,待后续找到噪音文献,再进行逻辑运算,实现去噪。

  3D专利地图方式

  3D专利地图的文本聚类,是将语义相似度较高的专利文献聚集在一起,根据聚类后的专利标题、摘要、权利要求中的关键短语作为标签进行展示,地图上的高峰低谷代表了文献量的多少。

  在专利地图上寻找到噪音关键词,查看相关文献,将噪音文献保存到工作空间的文件夹中。同时,将该文件夹与前述保存检索结果的文件夹进行逻辑运算,剔除掉噪音文献。

专利数据

  英策方式

  英策的文本聚类,是将该技术领域内最热门的技术主题词聚集在一起,提取了该技术领域中最近5,000条专利标题和摘要中最常见的关键词进行展示,词汇的大小代表相关文献的数量多少。

  在英策的技术全景报告-创新词云中寻找到噪音关键词,查看相关文献,将噪音文献保存到工作空间的文件夹中。同时,将该文件夹与前述保存检索结果的文件夹进行逻辑运算,剔除掉噪音文献。

专利数据  

澳门正版图库

AI助手