以服务于中国广大创业者为己任,立志于做最好的创业网站。

标签云创业博客联系我们

导航菜单

关键词提取面临问题及挑战

现有问题与挑战

文章的关键词通常具有以下三个特点:

1、可读性。关键词本身应该是有意义的词或者短语。例如,“我们约会吧”是有意义的短语,而“我们”则不是。2、相关性。关键词必须与文章的主题相关。例如,一篇介绍巴萨在德比中输给皇马的新闻,其中可能顺带提到了“中超联赛”这个关短语,这时就不希望这个短语被选取作为该新闻的关键词。3、覆盖度。关键词集合能对文章的主题有较好的覆盖度,不能只集中在文章的某个主题而忽略了文章的其他主题。

从上述三个特点,可以看到关键词标注算法的要求以及面临的挑战:a.新词发现以及短语识别问题,怎样快速识别出网络上最新出现的词汇(人艰不拆、可行可珍惜…)?b.关键词候选集合的问题,并不是文章中所有的词语都可以作为候选;c.怎么计算候选词和文章之间的相关性?d.如何覆盖文章的各个主题?

目前,关键词自动标注方法分为两类:1)关键词分配,预先定义一个关键词词库,对于一篇文章,从词库中选取若干词语作为文章的关键词;2)关键词抽取,从文章的内容中抽取一些词语作为关键词。

关键词分配算法需要预先定义一个关键词词库,这就限定了关键词候选范围,算法的可扩展性较差,且耗时耗力;关键词抽取算法是从文章的内容中抽取一些词语作为标签词,当文章中没有质量较高的词语时,这类方法就无能为力了。为了解决上述这些问题和挑战,我们设计了层次化关键词自动标注算法.

关于文本的关键词提取方法分为有监督、半监督和无监督三种:

这里是引用

无监督关键词抽取算法可以分为三大类,基于统计特征的关键词抽取、基于词图模型的关键词抽取和基于主题模型的关键词抽取。

相关阅读

  • 2018年中国工业互联网行业发展机遇与挑战并存 根本解决四大关键问题实现落地实践
  • 请结合我国周边安全中的热点问题(举一地区为例),谈谈你对中国国防面临的严峻挑战的认识?
  • 南非:发展面临的最关键问题与挑战
  • 迎接两会特稿:六大挑战考验“关键之年”
  • 人工智能时代的智能机器人发展新兴行业面临关键问题和挑战问题分析
  • 新兴行业面临关键问题和挑战
  • 关键词提取面临问题及挑战
  • a股公司并购出海记:出与入、松与紧之间 如何拿捏关键“七寸”?
  • 南非:发展面临的最关键问题与挑战
  • 请结合我国周边安全中的热点问题(举一地区为例),谈谈你对中国国防面临的严峻挑战的认识?
  • 关键词提取面临问题及挑战