论文标题特征与被引的关联性研究
来源:微智科技网
情报学报2017年11月 第36卷第11期 Journal of the China Society for Scientific and Technical Information,Nov 201 7,36(1 1):1 1 48_1 1 56 论文标题特征与被引的关联性研究 魏瑞斌 (安徽财经大学管理科学与工程学院,蚌埠 233030) 摘 要标题是学术论文非常重要的一个组成部分。本文对学术论文标题特征与其被引之间的关系进行探索性研 究。首先提出4个假设,然后分析了1997年到2013年期间,在Journal oftheAssociationfo,Information Science and Technology和Scientometrics两种期刊上发表的5375篇论文的相关数据。研究结果表明,对于发表时间较长的论 文,论文标题长度越长,其被引用的次数越多;发表时间较短的论文,论文标题长度对其被引的影响不明显。从 影响显著的角度看,标题中包括问号的论文,其被引用的次数越多。标题中的冒号对论文被引的影响不明显。高 被引论文中,短标题的论文其被引次数较多,冒号和问号对高被引论文的被引没有明显影响。 关键词标题特征;引用;非字母数字字符;标题长度;高被引论文 Study 0n the Relationship between the Title J ● naracteristics ancI・ ■ ‘ 1 itations ‘・ ・‘ Wei Ruibin (School ofManagement Science and Engineering,Anhui University ofFinance and Economics,Bengbu 233030) Abstract:The title is one of the most important parts of an article because it introduces the Paper to its re. viewers and readers.This study examines the correlation between characteristics 0f the title of an aca— demic article and the number of citations it receives.First,the paper puts forth four hypotheses.Titles of 5375 articles published during the period from 1 997—20 1 3 in two journals,namely,the Journal of the As— sociation for Information Science and Technology and Scientometrics,and the number of citations from 1 997—20 1 6 were retrieved from the b of Science Database.One of the hypotheses was fully substanti. ated and the remaining three were partially substantiated in the data set.The results showed that the hum. ber of words and characters in the title were correlated with the number of citations for articles published longer time and there was no obvious correlation for articles published shorter time.From a significant impact angle,a title including a question mark is usually concurrent with a higher citation count.There is no obvious impact on the citation rates for a title including a colon.In case of highly cited articles.shorter titles seem to be associated with higher citation rates,and characteristics of the titles such as inclusion of a colon or a question mark do not affect the citation rates of published articles. Key words:title characteristics:citations;non—alphanumeric characters;title length;highly cited paper 引 口 标题是学术论文非常重要的组成部分。一个好 的标题通常既能够比较准确地反映论文的内容,也 能非常有效地引起读者的关注。1998年,Elsevier 对全世界5000名期刊读者的调查结果发现,每人每 收稿日期:2017 02.28;修回日期:2017.04—24 基金项目:国家社会科学基金项目“期刊论文创新性评价标准及其计量模型研究”(12BTQ034)。 作者简介:魏瑞斌,男,1973年生,博士,教授,主要研究领域为科学计量学、数据分析与数据可视化,E-mail:rbwxy@126.com。 第11期 魏瑞斌:论文标题特征与被引的关联性研究 Michelson[ 引1149 年全文阅读平均是97篇,文摘阅读平均是204篇, 而标题阅读平均是1 142篇I1]。这份调查虽然过去的 时间较长,但从数据中可以发现标题的重要性。同 、Paiva等[ 、Jamali等[H 发现,标题中 包括问号、冒号等字符的论文,其被引却相对较少。 (3)论文标题结构与论文被引 很多学者从不同角度探讨了论文标题结构。 Lewison等【 、Hartley[ 把包括冒号的标题分为: 时,这个结果也反映了读者的一个阅读顺序:标题、 文摘和正文。 篇论文的被引与很多因素有关,如研究主题 的重要性、论文的创新性、论文的研究方法等内在 一短.长型、长一短型、平衡型3种类型,但没有对论文 被引进行分析。Jamali等【H]把标题分为结论型、描 述型和问题型3种类型。其中,问题型题目的论文 因素,还包括论文的可获得性、期刊的声誉、论文 的语言、作者的声誉等外在因素。那么,论文标题 下载量更多但引用率却相对较少。Paiva等 】把标题 属性与论文被引之间有什么关系呢?很多学者在这 方面做了相关研究。Nair等I 】对这方面的研究成果进 行了综述,并提出了一个论文标题属性与论文引用 关系的综合模型。他们围绕论文标题的长度、字符、 结构、范围和语言共5个属性提出了5个假设。他 们以5种管理学的著名期刊为实证对象,最后结果 表明,只有第2个假设成立;第3个假设部分成立; 第1、第4和第5个假设不成立。 (1)论文标题长度与论文被引 这方面的研究有3种结论。第1种结论是,论 文标题越长,其被引次数越多。如Habibzadeh等I3】 对医学和多学科期刊的论文标题研究;Jacques等【4】 对原始人类研究领域论文标题的研究。他们认为, 论文标题越长,它能够提供给读者的信息更加丰富, 更有利于用户理解论文的内容。第2种研究结论是, 论文标题越短,其被引的次数越多。Paiva 】对公共 图书馆和生物医学领域论文标题的研究;Subotic等 】 对心理学领域论文标题的研究;Gnewuch 7]对经济 学领域论文标题的研究。他们认为,较短的论文标 题能够更加准确、清晰地反映论文的内容,并且让 读者易于理解和记忆。第3种结论是,论文标题长度 与论文的被引次数之间没有关系。如Nair等【2】对管理 科学领域论文标题的研究;Alimoradi等[8】对Web of Science收录的8种著名学术期刊论文标题的研究。 (2)含非数字和字母字符的标题与论文被引 在英文论文的标题当中,经常会出现冒号和问 号等特殊字符。Buter等【 ]列出了29种特殊字符,排 在前三位的是连字符、冒号和逗号。HartleyE加]通过 对不同学科论文标题的比较发现,社会科学领域的 论文中,冒号所占的比例较高。 这些特殊字符的出现是否也会影响到论文被引 用呢?Jacques等【4】发现,在普通医学领域的论文, 标题中包括冒号的论文,其被引相对较多。Hartley[n] 也发现,包括冒号的标题的论文被引相对较多。从 林佳瑜[1 2]的统计结果看,中文论文标题中包括冒号 的论文被引也明显高于标题中不包括冒号的论文。 分为方法描述性和结果描述型两种类型。研究发现, 结果描述型的论文被引较多。但从林佳瑜[】 ]的统计 结果看,描述型和结论型论文的平均被引差别很小, 问题型的平均被引相对较高。 (4)论文标题范围属性与论文被引 在一些论文标题中,作者把其研究内容限定一个 特定的空间范围,如一个国家等。Jacques等【4】、Paiva 等[5】研究发现,标题中包含空间范围信息的论文,其被 引较少。Nair等[2】还考虑了标题中包含公司名称和行 业名称。他们研究发现,标题中包含国家、公司和行 业名称的论文对论文被引负面影响的假设并不成立。 (5)标题语言属性与论文被引 Jacques等【 】研究发现,在医学期刊上,标题中 使用一些缩写的字符对论文被引有正面的影响。Nair 等[0】还考虑了标题中包含谚语和隐喻等词汇与论文 被引的关系。但最终研究发现,标题中包含缩写语 等对论文被引有正面影响的假设也不成立。 本文以Journal ofthe Association fo,Informaition Science and Technology和Scientometrics两种期刊为 研究对象,从不同角度来探讨情报学领域发表的论 文的标题属性与论文被引之间的关系。 2数据和方法 2.1 数 据 本文以Web of Knowledge为数据源,采集 Journal fo the Association fo,.Information Science and Technology(2014年更名,以下简写为JASIST)和 Scientometrics 1997年到2013年期间的论文数据, 共计5735条。JASIST在1997到2000年期间的期刊 名称为Journal of the American Societyfor Informa— tion Science;在2001年到2013年期间,期刊名称为: Journal of the American Societyfo,Information Sci- ence and Technology。JASIST{ ̄tJ刊于1950年,是美 国信息科学技术学会会刊,是国外情报学领域最重 要的学术期刊之一。Scientometrics创刊于1978年, l150 情 报 学 报 第36卷 是科学计量学领域最重要的学术期刊之一。本文以 这两种期刊为研究对象,有一定的代表性和权威性。 发文量在1997年到2005年和2006年到2013年两 个时间段都比较平稳。第2个阶段发文量有一个较 大的提升。Scientometrics从1997年到2013年期间, 该数据集中当包括论文的标题、作者等信息, 还同时采集了每篇论文的总计被引次和平均被引次 数(截至2017年2月15日)。从图1看,JAIST的 发文数量有一定的波动,但整体是一个上升的趋势, 从2011年开始,每年的发文量超过了JAIST。 年份 图1两种期刊1997.2013年发文数量 2.2研究方法 ing trends and transientpatterns in scientiifc literature (3)标题结尾是问号的论文,其被引次数较多 参考Nair等I 1的研究思路,本文预先提出4个 假设。 问号通常用于疑问句、设问句和反问旬结尾。 (1)标题的长度越长,论文被引次数越多 从国外学者的研究看,标题长度统计时,有的 学者 只统计了单词数;有的学者[ ]既统计了标题的 在中文论文的标题中很少出现,但在英文论文中却 可以经常见到。从Buter等[9】的统计结果看,国外期 刊论文中,标题中包含特殊字符(包括问号)的论 文的绝对数量在逐年上升,而相对数量保持稳定。 字符数,也统计了标题的单词数;有的学者[2]还统计 了标题中的实词数等。本文对论文标题的字符数和 Nair等【 ]认为,标题中存在的特殊字符对论文被引起 到的作用的负面的。本文假设标题中包括问号的论 单词数都进行统计,然后分别与论文的总被引进行 分析。论文标题越长,有可能是研究者对相关研究 从研究方法或研究视角等方面进行了限定,通常情 况下可以为读者提供更加丰富的信息。虽然不利于 读者记忆,但应该有利于读者对论文研究内容的理 解。这样的论文有可能更能得到较多的引用。 文更容易被引用。因为,问号的使用可以反映出标 题是一种“问题型”标题,它也能够反映出论文所 要解决的问题,更容易引起读者的注意。 (4)高被引论文对作者有示范效应 Letchford等[1 9]对20000篇高被引论文研究发 (2)标题中包括冒号的论文,其被引次数较多 冒号有论文标题当中,通常起到对其分隔开内 容的进一步解释的说明。这类标题更有利于读者对 论文研究内容有进一步的认识。如下面两个标题中, 现,论文标题长度越短,其被引次数越多。他们认 为这与期刊编辑部对论文标题长度的有关;另 外短标题论文更容易理解。研究人员会有意识关注 高被引论文,并或多或少受到其影响,包括自觉或 不自觉地仿效其写法。如果高被引论文样本中,长 标题、冒号和问号标题较多,则假设成立。 第一个标题冒号后面的内容说明了论文研究的视 角;第二个标题冒号后面的内容则说明了CiteSpace "的功能。读者结合前后两部分内容可以对论文研 3 数据分析 3.1标题长度与论文被引 Science中样本标题的平均长度是1 0.1个单词, 究的内容有更明确的了解。这样更有可能去阅读论 文,论文被引用的机率也会提高。 ( ̄Scientometrics and communication theory."To— wards theoretically informed indicators ②CiteSpace 11:Detecting and visualizing emerg。 Nat“ 中样本标题的平均长度是9.85个单词 们。从 表1看,JASIST单词数的均值是10.1,与Science 第11期 一魏瑞斌:论文标题特征与被引的关联性研究 致,而Scientometrics单词数的均值是1 1.92,要多 于JASIST。Scientometrics的均值、中值和众数都要 大于JASIST。这反映出,Scientometric上发表的论 文标题的平均长度要略大于JASIST。这可能是由于 Scientometric的论文中会使用较多的专业术语,因此 其标题长度相对较长;而JASIST综合性较强,涉及 的研究范围比较宽泛,因此其论文标题的长度相对 较短。 从图2看,两种期刊论文标题字符数的频率呈 现较为明显的正态分布。两种期刊论文标题字符数 频次分布的信度非常接近,整体上都是左偏,即标 题字符数较短(小于平均值)的论文数量稍多一些。 表2中JASIST的峰度要高于Scientometric,这表明 JASIST的论文标题字符数频次分布更为集中。比较 图2和图3可以看出,论文标题字符数频次分布和 单词频次分布趋势是一样的。其差异在于,论文标 题单词数的数量上远低于字符数的数量。 通过SPSS的相关性分析功能发现,标题的字符 数和单词数的Pearson相关性相关系数为0.947,在 置信度(双侧)为0.01时,相关性是显著的。这表 明,尽管每个单词的字符数不同,但在大部分情况 下,单词数越多,其对应的字符数越多。 图2论文标题字符数分布 表1 两种期刊标题字符数统计结果 图3论文标题单词数分布 表2 两种期刊标题单词数统计结果 图4是所有论文合计被引频次出现频率的分布 曲线。该分布曲线整体呈现为一个负幂分布。当直 接用论文长度(字符数或单词数)与论文被引进行 相关性分析后发现,spearman相关系数0.190,两者 几乎没有相关性。另外,这些论文发表的时间不同, 直接把论文长度与论文被引频次进行相关性分析也 不合理。 本文采取了另一种方法来研究论文标题长度与 论文被引的关系。首先按字符数的平均值将论文分 为两组:大于平均值的为长标题,小于平均值的为 短标题。然后分别计算论文在不同时间段的平均被 引频次(表3和表4)。 表3和表4中,C1和D1是短标题论文的平均 被引次数,C2和D2是长标题论文的平均被引次数; C2一C1和D2一D1是两个平均被引次数的差。从表中 数据看,表3中的C2一C1有3个负数,表4中的D2一D1 有2个负数。如果单独从这个角度看,那么绝大多 数情况下,长标题论文的平均被引次要高于短标题 论文的平均被引次数。 另外,表3和表4中还出现一个一致的趋势。 即1997年到2003年期间,表3中C2一C1的值大于 其平均值3.06,而2004年到2013年期间C2一C1都 1152 1000 900 800 情 报 学 报 第36卷 婪700 600 蒹500 型400 dⅡ300 200 100 O 一一 图4论文合计被引频次分布曲线 表3论文平均被引次数(字符分组) 看,标题中包括冒号的论文数量所占比例基本保持 在30%和50%之间,相对比较稳定。这个比例同 Hartley[a ̄]的研究是一致的。 表4论文平均被引次数(单词分组) 小于平均值,C2和c1的差别都比较小。表4中的 数据也呈现出这样的特征。由此可以判断,对于发 表时间较长的论文(1997年到2003年,被引截至 2016年),其标题越长,被引的次数越多。而发表时 间相对较短的论文,也大体表现为标题越长,被引 的次数越多,但不是特别明显。从中也反映出,这 方面的研究结论与数据的时间属性关联性比较强。 这个观点是否具有普遍性,还需要更多的数据来进 从图7看,标题中包括冒号和不包括冒号的论 文的平均被引频次没有呈现出非常明显的特征。如 果以平均被引次数的平均值3.06看,在17年当中, 只有5年的数据表明标题中包括冒号和不包括冒号 有较大有差别。在5组数据中,有3组数据(1999 年、2000年和2003年)是标题中包括冒号的论文的 平均被引频次大于不包括冒号的。而另2组数据 行验证。总体上看,本文的第1个假设成立。 3.2标题中包括冒号的论文被引 从图5看,标题中包括冒号的论文的绝对数量 逐年呈现上升的趋势,而且其数量增加趋势与标题 中不包括冒号的论文数量的趋势比较相近。从图6 (1998年和2004年)则是标题中包括冒号的论文的 平均被引频次小于不包括冒号的。其他年份的数据 则都小于平均值3.06。 第11期 魏瑞斌:论文标题特征与被引的关联性研究 1153 年份 图5标题中不包括冒号和包括冒号的论文数量 羞 衄 年份 图6标题中包括冒号的论文所占比例 20 l5 籍 5 O 图7两类论文被引次数分布图 F1是标题中不包括冒号的论文的平均被引次数;F2是标题中包括冒号的论文的平均被引次数。 如果从冒号对论文被引影响的显著性看,很难 判断冒号在标题中出现,对论文被引的影响情况。 1154 情 报 学 报 第36卷 只是在特定数据集范围之内来探讨两者的关系。总 体看,本文的第2个假设不成立。 括问号有较大的差别。这5组数据(1997年、1998 年、2004年、2005年和2006年),都是标题中包括 问号的论文的平均被引频次大于不包括问号的论 3.3标题中包括问号的论文被引 从图8看,这两种期刊上标题当中包括问号的 论文数量整体是一个不断上升的趋势。从图9看, 其占总体论文的比例在2%到5%。图8与图5相比, 文,而且差别非常明显。 如果从冒号对论文被引影响的显著性看,标题 中包括问号,则其被引的次数较多。这表明本文的 第3个假设成立。 图9与图6相比,都可以发现,标题中包括问号的 论文绝对数量和相对数量都远少于标题中包括问号 论文的数量。 3.4 高被引论文有示范效应 本文选取两种期刊1997年到201 1年期问100 篇高被引文献(占总体的2%)为实证对象。 从统计结果看,100篇高被引论文中有61篇发 从图10来看,在1997年到2013年,除1999 年、2000年、2001年、2003年和2009年外,其他 年份标题结尾是问号的论文其平均被引频次要高于 结尾不是问号的论文。 表在JASIST上,有39篇发表在Scientometrics,但 都约占到各自论文总数的2%。另外,2006年有15 篇论文,2001年有11篇,最少的是2011年,只有 2篇。 如果以平均被引次数的平均值12.6看,在17年 当中,只有5年的数据表明标题中包括问号和不包 年份 图8标题中包括问号的论文数量 年份 图9标题中包括问号的论文所占比例 第11期 魏瑞斌:论文标题特征与被引的关联性研究 1155 耧 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 201 1 2012 2013 年份 图l0两类论文被引次数分布图 Gl是标题中不包括问号的论文的平均被引次数;G2是标题中包括问号的论文的平均被引次数。 100篇论文的标题的字符平均数为75.56,单词个 4结 论 本文利用JASIST和Scientometrics两种期刊上发 数平均为10.72。这两个数据都稍低于全体数据集的 平均值。进一步将1 O0篇论文按标题的字符数平均 值和单词数平均值统计后发现,标题字符数和单词 表论文的标题信息及论文的被引数据验证了4个基 本假设。从结果看,在这个数据集中,第1个和第3 个假设成立,第2个和第4个假设不成立。本文一 方面分析了论文标题特征与被引之间的关系,另一 方面希望通过这项研究对于作者在论文标题优化的 数大于平均值的论文被引平均值都是164.09次;而 小于平均值的论文平均被引分别是197.69次和195.1 次。从中可以看出,在1O0篇高被引论文中,标题长 度短的论文,其被引次数较多。这与整体数据集的结 果正好相反,而与Letchford等[1 9]的研究结果相同。 100篇论文中,有4O篇论文的标题中包括冒号, 时候有一定参考价值。标题是读者首先关注的部分, 一个好的标题对传播作者的学术观点能起到非常重 结合国内外学者的相关研究结果来看,大多数 这个比例(40%)与整体数据集的平均水平39.89% 要的作用。 基本相同。高被引论文中,标题包括冒号的论文平 均被引是182.05次,而不包括冒号的论文平均被引 是179。但这两个被引频次的差异非常小,仅占被引 的研究都说明了论文标题特征与其被引之间是存在 定关系的。但这些研究的结论有时却是矛盾的, 如有的学者认为论文标题长度对论文被引有正面作 一次数最少论文的2%。综合以上两个依据,可以认为 标题中是否包括冒号的高被引论文数量没有明显的 差异。 用,有的学者认为是负面作用。这种结果的矛盾性 是多方面原因造成的。如这些研究通常都是以某一 学科领域期刊上发表的论文为研究对象,学科差异 是影响研究结论的很重要的因素。其次,研究者选 取的数据源、数据的数量、期刊的数量和种类等也 都不一样。原始数据也是导致结论不同的很重要的 100篇论文中,只有4篇论文标题的结尾是问号, 这个比例(4%)与整体数据集的平均水平3.4%也非 常接近。高被引论文中标题中包括问号的4篇论文 在高被引论文中的位次分别是第20位、第36位、 第49位和第63位,其平均被引频次是166次,而 标题中不包括问号的论文的平均被引是182.35次。 综合两个方面的结果,可以认为标题中包括问号在 论文被引方面没有明显的贡献。 综上所述,在100高被引论文中,标题长度较 原因。第三,这些研究所采用的研究方法也存在差 异。研究方法的局限性,也可能是造成结果不一致 的原因。本文只选择了两种期刊为研究对象,其数 据量有限,这对于研究结论的不确定性和矛盾性也 产生一定影响。今后会通过更大的数据量来探索标 短,其被引较多;冒号和问号对于论文被引没有明 显的作用。如果高被引文献集合关于前述三个假说 的特征与总体集合一致,就认为高被引文献具有示 题特征与其被引之间的相关性。 致谢: 感谢中国科学技术发展战略研究院武夷山老师 对本文的悉心指导。 范效应;否则,就认为第4个假说不成立。现在的 实证数据表明假设不成立,即没有示范效应。 1156 Ⅲ 吲 学 报 情 报 第36卷 参考文献 Mabe M A,Amin M.Dr Jeky11 and Dr Hyde:author—reader asymmetries in scholarly publishing[J].Aslib Proceedings,2002, 54(3):149—157. Nair L B.Gibbert M.Ⅵ,llat makes a‘good’title and(how)does it matter for citations?A review and general model of article title attributes in management science[J].Scientometrics,2016,107(3) l331一l359. Habibzadeh F,Yadollahie M.Are shorter article titles more at. tractive for citations?Cross—sectional study of 22 scientific jonr— nals[J].Croatina Medical Journal,2010,5l(2):165—170. Jacques T S.Sebire N J.The impact of article titles on citation hits:An analysis of general and specialist medical journals[J]. JRSM Short Reports,2010,1(1):2. Paiva C E,Lima J P S N,Paiva B S R.Articles with short titles describing the results are cited more often[J].Clinics,2012,67(5) 509.5 l3. Subotic S.Mukherjee B.Short and amusing:111e relationship between title characteristics,downloads,and ciattions in psy— chology articles[J].Journal of Information Science,2014,4O(1): l15—124. Gnewuch M,Wohlrabe K.Title characteristics and citations in economics[J].Scientometrics,2017,l10(3):1573一l578. Alimoradi F,Javadi M,Mohammadpoorasl A,et a1.The effect of key characteristics of the title and morphological features of pub— lished articles on hteir citation rates[J].Annals of Library and In— formation Studies,2016,63:74.77. Buter R K,van Raan A F J.Non-alphanumeric characters in titles of scientiifc publications:An analysis of their occurrence and correlation with citation impact[J].Journal of Informetrics,201 l, 5f4):608—617. [10] Hartley J.Colonic titles![J].Journal of the European Medical Writers Association,2007,l6(4):147—149. Hartley J.Planning that title:Practices and preferences for titles with colons in academic articles[J].Library&Information Sci- ence Research,2007,29(4):553—568. [12】 林佳瑜.论文标题与下载和引用的关系[J].大学图书馆学报, 2012,30(4):14-17. [13] Michelson G.Use of colons in titles and journal status in indus— trial relations journals[J].Psychological Reports,1 994,74(2): 657.658. [14] Jamali H R,Nikzad M.Article title type and its relation with the number of downloads and citations[J].Scientometrics,201 l, 88(2):653—66 1. [15] Lewison G.Hartley J.What’s in a title?Numbers of words and the presence ofcolons[J].Scientometrics,2005,63(2):341—356. [16】 Hartley J.To attract or to inform:What are titles for?[J].Journal ofTechnical Writing and Communication,2005,35(2):203-213. 【17] 武夷山.JASIST的更名说明了什么[EB/OL].[2017—02—23]. http:/Polog.sciencenet.crdblog一1557—780971.htm1. [18】 Fumani M R F Q,Goltaji M,Parto P.The impact oftitle length and punctuation marks on article citations[J].Annals ofLibrary& Information Studies,2015,62(3):126—132. [19】 Letchford A,Moat H S,Preis T.The advantage of short paper titles[J].Royal Society Open Science,2015,2(8):150266. [20] 曹杨,赵硕.科技论文标题的结构和语言特征——以Science 和Nautre为例[J].外语教学,2014,35(2):35—39. (责任编辑宋扬)