基于词向量的学术语义搜索研究

陈国华, 汤庸, 许玉赢, 贺超波, 肖丹阳

陈国华, 汤庸, 许玉赢, 贺超波, 肖丹阳. 基于词向量的学术语义搜索研究[J]. 华南师范大学学报(自然科学版), 2016, 48(3): 53-58. DOI: 10.6054/j.jscnun.2016.05.006
引用本文: 陈国华, 汤庸, 许玉赢, 贺超波, 肖丹阳. 基于词向量的学术语义搜索研究[J]. 华南师范大学学报(自然科学版), 2016, 48(3): 53-58. DOI: 10.6054/j.jscnun.2016.05.006
CHEN Guohua, TANG Yong, XU Yuying, HE Chaobo, XIAO Danyang. Research on Academic Semantic Search Using Word Vector Representations[J]. Journal of South China Normal University (Natural Science Edition), 2016, 48(3): 53-58. DOI: 10.6054/j.jscnun.2016.05.006
Citation: CHEN Guohua, TANG Yong, XU Yuying, HE Chaobo, XIAO Danyang. Research on Academic Semantic Search Using Word Vector Representations[J]. Journal of South China Normal University (Natural Science Edition), 2016, 48(3): 53-58. DOI: 10.6054/j.jscnun.2016.05.006

基于词向量的学术语义搜索研究

基金项目: 

国家高技术研究发展计划项目(863计划)(2013AA01A212);国家自然科学基金项目(61272067,61502180);广东省科技计划项目 (2013B090800024,2015A020209178,2016A030303058);广东省自然科学基金项目(2015A030310509,2014A030310238);广州市科技计划项目(2014J4300033)

详细信息
    作者简介:

    汤庸,教授,Email: ytang4@qq.com.

    通讯作者:

    汤庸,教授,Email: ytang4@qq.com.

  • 中图分类号: TP391.1

Research on Academic Semantic Search Using Word Vector Representations

  • 摘要: 基于学者网提供的计算机专业论文语料库,利用Glove语义分析工具,给出了多种词向量训练方案,比较了各自的优劣性;提出了利用随机映射的方法,在大规模的向量空间中快速定位向量;最后提出了在单个词的语义向量基础上计算整篇学术文档的语义向量的方案.通过一系列实验验证了基于词向量的学术语义搜索方案的有效性,并实际应用于学者网学术搜索中,取得良好的效果.
    Abstract: Using the papers in computer science extracted from Scholat as the corpus, multiple word vector training schemes are proposed using the Glove semantic toolkit, and their performances are compared and analyzed. Then, a random projection method is proposed to quickly access vectors in the large vector space. Finally, a semantic vector computing scheme for the whole academic documents is proposed based on the word vector representations. A series of experiments are conducted, and the effectiveness of the proposed scheme word vector based academic semantic search is verified. This scheme is applied to the search function of Scholat and it can obtain satisfying performance.
  • 期刊类型引用(6)

    1. 赵雪婷,罗暖. 文化短视频用户需求特征分析——基于卡诺模型. 新闻研究导刊. 2024(06): 17-20 . 百度学术
    2. 尹洁. 基于BERT模型的问答系统的研究. 电脑与信息技术. 2022(06): 1-3+59 . 百度学术
    3. 王颖. 学术资源挖掘方法研究综述. 现代情报. 2021(12): 164-177 . 百度学术
    4. 王柳,汤庸,杨佐希,傅城州,毛承洁,毛超丹. 基于学者社交网络的论文与项目关联模型. 计算机应用研究. 2020(05): 1428-1431 . 百度学术
    5. 王仁武,陈川宝,孟现茹. 基于词向量扩展的学术资源语义检索技术. 图书情报工作. 2018(19): 111-119 . 百度学术
    6. 齐云飞,赵宇翔,朱庆华. 基于BIBFRAME的数字图书馆语义搜索框架研究. 图书与情报. 2017(01): 74-81+26 . 百度学术

    其他类型引用(16)

计量
  • 文章访问数:  1474
  • HTML全文浏览量:  159
  • PDF下载量:  204
  • 被引次数: 22
出版历程
  • 收稿日期:  2016-04-23
  • 刊出日期:  2016-05-24

目录

    /

    返回文章
    返回