信息通信技术与政策

信息通信技术与政策

信息通信技术与政策 ›› 2025, Vol. 51 ›› Issue (2): 87-96.doi: 10.12267/j.issn.2096-5931.2025.02.014

技术与标准 上一篇    

基于多算法融合的标准文本关键词提取与歧义处理方法研究

Research on the extraction and ambiguity handling method of standard text keywords based on multi-algorithm fusion

付振秋1,2, 田辉1,2   

  1. 1.中国信息通信研究院信息通信融合创新中心,北京 100191
    2.泰尔融创(北京)科技有限公司,北京 100191
  • 收稿日期:2024-10-09 出版日期:2025-02-25 发布日期:2025-03-04
  • 作者简介:
    付振秋 中国信息通信研究院信息通信融合创新中心、泰尔融创(北京)科技有限公司高级工程师,主要从事大数据技术与标准化研究、咨询服务等方面的工作
    田辉 中国信息通信研究院信息通信融合创新中心、泰尔融创(北京)科技有限公司正高级工程师,主要从事算网融合与数据分析研究及政府支撑等方面的工作。

FU Zhenqiu1,2, TIAN Hui1,2   

  1. 1. Information and Communication Integration Innovation Research Center, China Academy of Information and Communications Technology, Beijing 100191, China
    2. Taier Rongchuang (Beijing) Technology Co., Ltd., Beijing 100191, China
  • Received:2024-10-09 Online:2025-02-25 Published:2025-03-04

摘要:

首先,基于多算法融合的标准文本关键词提取与歧义处理方法基于TF-IDF和TextRank相结合,同时在考虑词语位置、词性、词长与词频的基础上完成标准文本的关键词提取;然后,利用Hanlp对相同文本进行处理,并完成对比歧义处理。通过试验结果分析,该方法对于标准文本的关键词提取与歧义处理的效率提升、处理质量有显著效果,也为大模型结合知识库与智能体开展标准知识挖掘提供一种创新方法。

关键词: 标准文本, 关键词, 提取, 歧义

Abstract:

Firstly, the extraction and ambiguity handling method of standard text keywords based on multi-algorithm fusion combines TF-IDF and TextRank, while considering word position, part of speech, word length, and word frequency to complete the keywords extraction of standard text. Then, it uses Hanlp to process the same text and complete the contrastive ambiguity processing. Through the analysis of experimental results, this method has a significant effect on improving the efficiency and processing quality of keywords extraction and ambiguity handling in standard texts. It also provides an innovative approach for large models to conduct standard knowledge mining by combining knowledge bases with intelligent agents.

Key words: standard text, keywords, extraction, ambiguity

中图分类号: