技术人工物的知识:来自专利描述的语言和结构基础

《Design Science》:Knowledge of technological artifacts: Toward linguistic and structural foundations from patent descriptions

【字体: 时间:2026年06月03日 来源:Design Science 2.6

编辑推荐:

  设计与创新过程主要综合了现有技术人工物的知识。理解这种人工物层面知识的基础对于实现控制这些综合过程的知识检索与表示至关重要。在本研究中,研究人员分析了涵盖整个技术空间的33,881项专利描述的一个大型分层样本。通过结合在句子层面提取的事实三元组(实体::关系:

  
设计与创新过程主要综合了现有技术人工物的知识。理解这种人工物层面知识的基础对于实现控制这些综合过程的知识检索与表示至关重要。在本研究中,研究人员分析了涵盖整个技术空间的33,881项专利描述的一个大型分层样本。通过结合在句子层面提取的事实三元组(实体::关系::实体),研究人员为这些描述构建了知识图。从这些知识图中,研究人员揭示了技术人工物知识的语言与结构基础。在语言层面,研究人员识别了句法模式,这些模式解释了实体和关系如何在术语层面构建。在结构层面,研究人员识别了模体(motifs),包括占主导地位的三节点和四节点子图模式,这些模式揭示了实体和关系如何在人工物描述中局部组合。深入分析这些模体发现,自然语言人工物描述主要捕获了人工物的设计层次。在人工物描述的局部层面,模体分析表明仅捕获了抽象的技术知识,这表明依赖文本挖掘进行知识密集型任务存在潜在局限性。基于这些观察,研究人员提出并展示了知识规范策略,这些策略有助于简化和模块化从技术人工物描述中填充的知识结构。
**论文解读:技术人工物知识的语言与结构基础——基于专利描述的实证分析**

**研究背景、问题与动机**

设计与创新过程本质上是检索与综合现有技术人工物知识以生成新知识的过程。工程设计与技术管理领域的研究者长期以来致力于理解如何系统地表示、检索和重用人工物知识。传统研究主要依赖于专家定义的本体论(ontologies)视角,例如系统工程视角、功能结构视角、定性物理学视角以及核心产品模型等。这些视角反映了专家对知识应如何被捕获的观点,但并未基于人工物实际文本描述中的底层知识结构。此外,技术管理领域的研究常利用专利元数据(如引用、发明人、分类号)进行领域级分析,但忽略了专利文献中丰富的文字描述本身所蕴含的人工物知识。因此,现有研究存在一个关键空白:技术人工物知识的基础究竟是什么?它是否可以从大量专利描述中通过自下而上的方式被揭示?

为填补这一空白,本研究从一个全新视角出发,基于大规模专利描述文本,通过句子级事实提取构建知识图,并运用计算语言学与网络分析技术,探究技术人工物知识的语言和结构基础。研究旨在回答“技术人工物知识的基础是什么”这一核心问题,并为知识检索、表示以及工程设计研究提供理论依据。论文发表于《Design Science》。

**研究使用的主要关键技术方法**

研究人员从美国专利商标局(USPTO)数据库中获取了截至2023年6月8日的超过820万项授权美国实用新型专利。采用分层抽样策略,根据CPC四位数分类方案确保样本覆盖整个技术空间,最终获得33,881项专利描述的有效样本。研究人员利用先前开发的基于两阶段transformer语言模型的事实提取方法,在专利句子层面提取形如“头实体::关系::尾实体”的事实三元组(准确率高达99.7%),并将同一专利内的所有事实组合成知识图。随后,研究人员采用齐普夫分布(Zipf distribution)分析实体和关系的句法模式以揭示语言基础;采用模体分析(motif analysis)方法,挖掘知识图中的三节点和四节点子图模式,并通过与随机化图(采用curveball算法)的比较计算z-score,筛选统计显著的主导模体,以揭示结构基础。

**研究结果**

**3.1 语言基础——实体与关系句法**

通过对知识图中实体和关系进行词性标注并转化为句法模式,研究人员拟合齐普夫分布发现:实体句法中最基础且最频繁的形式是单一名词(如“the NN”),它们是构成组件、过程等人工物要素的常见形式。随着信息密度增加,语法形式扩展为包含形容词、其他名词和动词的复杂结构。在关系句法中,“of”、“in”和“to”是最基础的关系,分别用于捕获属性、子系统、结构或行为关系。此外,“such as”作为示例关系、“include”作为层次关系(hierarchy)的典型代表被识别。研究人员通过语义相似度测量,发现了73种层次关系句法变体。这些结果表明,技术人工物知识的语言基础由简单、抽象的基本形式构成。

**3.2 结构基础——模体**

通过对33,881个知识图进行模体分析,研究人员识别出在整体或最大技术领域中显著占主导的8种三节点和四节点子图模式。其中,模式13(聚集)和模式11(序列)反映了知识图中的连通性结构,模式122(双扇形)等则反映了层次结构。这些模式并非随机出现,而是具有统计显著性。通过进一步分析这些模体中最频繁的子图(使用边标签),研究人员发现,这些子图实际上主要捕获了人工物的设计层次(design hierarchy)。例如,模式13中最频繁的子图使用“of”捕获高层次实体的多个属性,模式11使用“of”和“in”捕获嵌套属性,模式122则通过“include”体现层次关系。尽管模体本身提供了结构基础,但最频繁子图的频率比例较低(如模式125中最频繁子图仅占原始模体计数的0.14%),表明纯结构模体的解释力有限,而少数模式(如11、13、122)的子图具有相对较高的普遍性。最终结论:专利描述文本在局部层面基本以抽象关系捕获人工物的设计层次。

**3.3 知识规范策略**

基于上述发现,研究人员提出知识规范策略以简化和模块化从专利描述中提取的知识结构。例如,将抽象实体“an array and four strings of memory cells”规范化为“memory cell array”和“four memory cell strings”,从而折叠了模式13的知识结构;将抽象关系“in”规范化为“observed in”;消除冗余的“include”边。研究人员以咖啡研磨机专利领域(7项专利,3,618个事实,筛选320个可泛化事实)为例,展示了规范前后知识图的变化:规范后知识图结构更简化,单个实体/关系的信息内容更丰富。这些策略有助于降低知识检索的假阳性、提升LLM在知识检索中的可信度。

**总结讨论与结论翻译**

研究结论指出:技术人工物知识具有简单抽象的语言基础,由基本形式的名词、介词(“of”、“in”)和动词(“include”)构成,这些基础形式能组合成复杂术语;技术人工物知识具有非随机的、统计显著的结构基础,由有限的三节点和四节点子图模式表示,这些模式主要捕获人工物的设计层次;从专利或类似自然语言描述中获得的技术人工物知识在局部层面大多是抽象知识,需要(自动化的)规范策略才能用于知识检索应用。研究方法和发现对工程设计文献有所贡献,能够支持知识工程、本体提取、功能建模、基于图的推理、专利搜索、文本挖掘、技术映射及LLM中心应用等设计研究和实践。研究强调设计层次和抽象水平,为未来利用自然语言人工物描述的设计研究提供了知情视角。研究的局限性包括:当前仅限于USPTO专利,未来应探索科学文章、设计报告等其他知识来源;基于齐普夫分析和模体发现的结论需通过跨领域、时间、地域的复制检验;所提出的知识规范策略目前仅为手动演示,未来应利用LLM实现自动化并系统评估其效果。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号