
有什么有效的方法来降低论文的重量?论文降重其实是一个很简单的事情,但是很多经验贴都忽略了算法是关键。了解对方的游戏规则再有针对性的修改才能事半功倍。
重复率是如何计算得呢?paperccb的算法为:
整体相似性=相似性字数/系统自动识别的非主体部分(如目录、标题、公式、图表、参考文献等)不参与检测,检测字数一般比论文字数稍小。相似性字数=(句子1字句子1字+句子2字+句子2字+…+句子 n字句子 n字),句子相似性范围为0.00~1.00,绿句相似性计算为0。对于严重的相似句(80%~100%),建议修改;对于轻微的相似句(50%~80%),可适当修改;对于未发现类似句的绿色句,建议修改。
概括归纳:
它
(i句的相似性>50%有效,<50%记作0) 明白容易: 在检查的时候将文章分解成单个小句,根据某个算法计算出单个句子的相似度。 单句相似度×单句总字数即为单句的相似字数。 将相似度在50%以上的句子的相似字总数加总再除以论文中的总字数即为重复率。 单句相似度的概念比较玄学,网站上没有明确的算法说明。 但是在 NLP的实际应用中,文本相似度[1]的算法有很多,如 Jaccard相似度、 Jaro相似度、 Dice系数等,对于人工修改的参考意义几乎是一样的。 例如, Jaccard相似性[2]: 它 也就是说,相似性是用两个句子中汉字的交集除以并集数来定义的。例如”小红正在写论文””小绿正在修改论文”等,交集字符是小/在/论/文(4);并集字符是小/红正在正在修改论文(8)。所以 Jaccard的相似性=4/8*100%=50%。 其中最重要的一点是:相似度>50%的句子会被标记为黄色,相似度>80%的句子会被标记为红色。标记相似性<50%的为绿色,相似性计为0.
它
那么我们的降重目标就非常明确了,总共有两条途径:
(a)减少每个句子的相似性,以减少总的相似性;
将句子的相似性降至50%以下,然后直接将该句的相似性字数降至0。
我们发现这两条途径实际上是相同的。但效果更为显著,因为可以直接使句子变绿(变强)从而大大降低重量,因此对大多数句子来说,我们的目标显然是通过方法②使他变绿…
也有一些句子当然很强,如“如图2-1所示,…”这样的就更难写了,但总的来说,难写的句子并不多,因此将重复率降低到5%以下并不难。
3.具体措施
现在我们所见的大多数降重思想都是基于方法①,即无目的地将同义词替换,或将字句转换成其他字句,试图减少相似字数。但在科学思想的引导下,修改方向更加明确了。
一、首要目标:50出头
类似的黄色句子有50%出头的相似度,是主要的争取对象,因为只需改几个字就可以从50直接变成0,因此在降重工程中最受欢迎(大家都争着要绿他,很可怜)。
用“进一步说明 IIT现象更容易发生在初始要素禀赋相近的国家之间”来形容,绿化是成功的。
(2)短句和增长句的加分母
这个定义引用了类的红色句子,相似性为88%,是不可救药的吗?但查重分解句子是会基于标点的,我删掉句子后面的逗号,将短句连成长句,以增加短句的分母,对语序进行调整,最终竟硬生生把短句定义为“绿化”(叫我绿化小达人)。
修订的句子:“SITC分类规定同一类别中具有一定生产或消费替代性的产品的双向流动”,成功√。虽然不知道这么一改相似性怎么就降到50%以下了,但这种思路还是可以借鉴的,就是短句加长句。同样的道理也可以通过扩句增加分母,其精髓在于用自己的语言去稀释干货(注水绿化法)来降低相似度。例如,将“A引起 B”改为“C引起的 A引起 D现象最终引起 B的结果”,在这种情况下, C和 D可以越长越好,从而使句子的相似性大大降低。
3.将长句拆分为短句弃用
对于一般的专业词组来说,修改是不可能的,而且在句子中所占的比例太大,所以要有策略地放弃修改这些部分,将它们分开成一个短句,以便对后面的句子进行绿化处理。比如:
诺诺和福斯丁诺(2009)利用面板数据模型对葡萄牙和金砖国家贸易中影响产业内贸易水平的因素进行了实证分析,结果表明,资源禀赋数量与国家产业内贸易发展程度之间存在负相关关系。
“Nuno和 Faustino (2009)…”这两个长句的开头部分不能更改(名字也不能换成中文),而且占用了大量的空间,即使后面的内容加起来也很难将整个句子的相似度降低到50%以下。此时可将前半句改为独立句“Nuno和 Faustino (2009)对 IIT影响因素的研究也是一样,”这一点可以忽略。后来他们运用面板数据模型进行的实证研究发现,最初的自然资源对葡萄牙与金砖国家双边贸易中该国对外贸易的 IIT指数有负面影响。如此一来,虽然前句仍然重复,但舍弃了大段不变的重复字后,后句就有可能变得绿色,整体重复率也会下降。
4.不可救药型删除
这句红字估计被无数人用过了,大家也很有可能尝试过用各种姿势来绿他,于是知难而退,索性直接删去,也不影响文章的意思。
第四,经验总结
因为能在线重改功能就能及时看到新的重改率,所以能利用算法技巧不断修改结果,非常好用。但目前该网站的查重率与学术不端查重率不一致,有的查重率偏高。
产生不同重复性率的原因主要有两点:一是算法严格程度不同,二是数据库在站点背后的大小不同。
算法严格程度的不同可能是因为阈值为50%的标绿值大小不同,也可能是因为单句相似度的 Jaccard相似度/余弦相似度/Jaro相似度等指标的选择不同,但是学术不完善的算法通常比外部库要小。这是因为第二点不同。
学术不端数据库比其它查重网站更多。本科学术不端论文查重和其他网站最大的不同之处在于学术不端 pmlc有一个“大学生论文联合对比库”,该数据库收录了其他网站没有的学校历年毕业论文。所以其他网站会采用严格的算法,使得查重结果与学术不端之间达到平衡,这就是为什么很多抄袭、大量粘贴的人,在学术不端与外联网之间的查重率很高。但对自己写的那些有原则的大学生来说,阅读指南系列的查重结果无疑具有参考价值。而且,一些同学在学术不端的情况下,认真写论文的比例很可能低于其他网站。案件 A:某同学前几天写信给我,说 paperccb重复率为39%,但他说自己写得很认真。于是我建议他在学校里的学术不端中尝试一下,结果竟然是6.9%,这说明 paperccb算法太过严格)
相信大部分同学还是坚持原创的,那么用paperccb系列以及上面提到的降重技巧肯定可以满足需求,5~10%的降重并不难。
本科毕业论文查重怎么查,如何找到一个免费查重?在初稿期间选择高性价比的免费论文查重网,如查查呗论文查重免费网站在线查重是一个不错的选择,从中期来看,可以选择一些具有可靠报告结果和强大算法机制的论文查重免费检测系统。最后,学校指定的知网论文查重软件必须被选为终稿论文免费查重软件。毕业论文查重首选查查呗免费论文查重软件。 免责声明:本文内容由互联网用户自发贡献自行上传,本网站不拥有所有权,也不承担相关法律责任。如果您发现本网站中有涉嫌抄袭的内容,请联系客服进行举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。