基于微博数据的网络信息欺诈行为发现及预警
史 可,张光前,郭丽君
(长春理工大学, 长春 吉林 130000)
[摘要] 社交网络作为舆情扩散的主要场所,已成为网络信息欺诈扩散的主要渠道。本文以微博为例,对基于微博数据的网络信息欺诈行为——学术欺诈事件进行分析。主要利用微博数据采集、数据预处理、数据挖掘对学术欺诈事件进行数据分析。研究分析与事件相关的人物角色,通过情感分析给与建议和预警,降低学术欺诈等网络信息欺诈事件的发生率。
[关键词] 网络信息欺诈;舆情分析;社交网络;微博
网络信息欺诈在当今社会并不少见,其中尤以学术欺诈为代表的事件屡见不鲜。学术欺诈,是一件非常恶劣的事情,将其上升至刑事处罚高度,他国在早些时候就已经打破常规。有些国家对于学术欺诈行为者给予开除或者刑罚处罚。韩国国宝级的重量人物——“韩国克隆之父”的黄禹锡,因涉嫌学术造假,直接给予刑法制裁。但在我国,学术欺诈行为一直打击力度不大。从青年学子,到高校教师,甚至个别院士、有威望的科学家都卷入其中。当学术欺诈不再是个案而是一种现象时,单纯依靠刑事处罚来遏制学术欺诈的蔓延,究竟会怎样,不得而知。基于微博社交平台,通过使用数据挖掘及敏感词分析等技术,整理出人物关系网络及学术欺诈中的各类角色,得出舆情传播的特点,分析出各类角色的情感特点,最终以可视化方式展现研究结果。
1 事件舆情分析提取过程
目前,微博数据挖掘技术主要有基于网络解析技术的网络爬虫和基于开放API的数据获取。此案例主要采用基于网络解析技术的网络爬虫,以@小张(化名)为案例中心,挖掘出所有转发者、评论者、粉丝及关注者的主页、粉丝、关注者等数据,从而获得大量原始人物数据。
2 数据可视化处理
以@小张(化名)为案例中心,对数据进行处理,最终以可视化方式展现分析结果。
2.1 文本预处理
首先,对微博文本数据进行筛选及预处理;剔除无关数据后,在R环境中添加词库(如敏感词库,停用词词库等),选择Rwordseg分词包中segmentCN()函数对整理后的数据进行分词;其次,将分词后的数据按频数存储,并统计词频,根据词频按降序排列,构建最终的语料库后可以进行文本聚类、分类、关联分析等挖掘工作。通过分词后的结果,我们可以将词频高的热点词作为关键词,进行抽取。
2.2 情感分析
情感分析方法主要有两类,一类是基于情感词典的情感分析,另一类是基于机器学习的情感分析。案例中选择基于情感词典的情感分析,对获取的数据进行分析。微博属于短文本,首先拆分微博为若干分句,针对句子中的词语进行情感打分,进而来计算整个句子的情感倾向,整合该条微博的所有分句的分值进行累加,就可以获得该条微博的最终得分,分析出相关人物对此事的态度如何,并对与案例相关的微博人物进行分析。
标签云:根据标签或者关键词的出现频率来确定其字体大小,用来展示@小张(化名)的微博关键词。
作为学校,学校在招贤纳士时就应进行全面的评估和考核。不能只看学历文凭和科研成果,也应该对其个人品行和能力做出考核。因为职称和学术地位的评定等都注重论文发表的等级和质量,所以会形成重科研、重论文、轻教学、轻学生的现象,出现“@小张(化名)”这种投机分子。有的高校老师只注重科研、学术论文,对于教学却置之不顾。所以要将老师的个人品行和科研教学能力综合考量,尽量不偏不倚。学校应该完善评定职称后续的考核制度。评完职称以后应该不定期考评,结合学生对老师的综合评价,建立鼓励机制选拔出优秀教职工,争取留下品行兼优、教学能力强的高素质老师。事实上,对于教师来说,科研能力与教学能力是不冲突的、相辅相成的。同时学校不能只用“论文”指标评价教师的能力。长此以往,不仅会产生像@小张(化名)这样的投机分子,也会使得科研的水分变多、教学质量变差,难以形成良性循环。
2.3 可视化方式
@小张(化名)的眼里只有自身利益,毫无一个知名大学教授应该担当的社会责任,身为一个教授没有履行自身的职责,靠抄袭别人的论文来追名逐利,几乎拿到了她那个年龄文科教授可以拿到的头衔,通过各种手段满足自己内心的虚荣心和社会地位罢了。在追求这些虚妄的过程中,她变得麻木不仁了,变得毫无人性了,变得了谁也不认识了。她非但没有意识到自己错误,还“雄赳赳”地叫嚣和挑衅学术权威。这让我们看到了一个完全不负责任的大学教授,不仅如此,@小张(化名)本人对于自己的教育事业也敷衍怠慢,忘记了自己所从事职业的初心和本分。
许振平刚想接话,就听听筒里传来一个女人的声音,吴天成的嗓门就提高了不少。是老林,政协的老林,和我说事呢。接着,声音微弱下来,老林,那事我们明天再说吧,这不,才回来,老婆等我洗澡呢。
一是对绩效考评不重视,长期以来形成了“重要钱、轻管理;重花钱,轻考核”的错误观念,绩效考评工作重形式、走过场。
10月24日,《中国青年报》发表了一篇题为《青年长江学者与她“404”的论文》的文章,报道了某某大学某某学院教授@小张(化名)涉嫌学术不端等师德问题。青年长江学者@小张(化名)过去发表了超过120篇论文,其中至少15篇存在抄袭或一稿多投等问题。@小张(化名)撤稿事件及其个人学术不端、品质不端被曝光之后,微博大V、各大媒体和时事评论家积极响应该事件,一时间将此事带向了风口浪尖,引得网友们竞相转发和评论,朋友圈、微博等传播平台也均被该事件覆盖。从该事件的后续发展中获悉,曾经该学院有六位教授向学院举报过@小张(化名)撤稿、学术不端之事,但未得到实质性反馈结果。学生们甚至联名举报过@小张(化名)在课堂上有严重忽视教学,念课件、吃零食、早退缺课甚至找学生和父亲代课的行为,学院也只是对@小张(化名)进行劝说,并在此后,也并没有实质性的改变,一如从前。而一经媒体曝光,学院却发表声明并表示会立马开始调查并责成有关部门。
3.就业市场不规范,存在着不公平现象。近年来,随着贫富差距加大的趋势日趋严重,“拼爹”现象越来越盛行,人们普遍感到改变命运的渠道越来越窄,这一现象导致了许多平凡家庭出身和贫困家庭出身的大学毕业生在找工作时受到不公平的对待,是否是城乡性质的户口对毕业生的就业有着很大影响。蓝皮书中数据显示,截止 2013 年 9 月底, 来自城市家庭的本科毕业生的就业率是87.7%,而来自农村家庭的本科毕业生的就业率则只有 69.5%。
2.4 分析结果
社交图谱:以@小张(化名)为图谱中心,将与案例相关联的人物关系以可视化的方式展现出来。
微博数据的可视化方式多种多样,目的是直观地把有价值的信息展现出来。
对于如今的教育体制,乃至绝大多数社会环境下的“病态”现象,不论是“高端”造假的学术论文,还是高校评审的考核机制,所展现出来的都是残存的“意志和标准”,就连“最底层”的“无病呻吟”都独具特有的“魅力与成功”,而在如此教育机制下或者说是社会浪潮中的我们,更多的是无奈与失望。@小张(化名)论文抄袭事件所暴露中的学术和品行不端等问题,不止是她本身的问题,还有论文期刊和学校等教育机构乃至教育考核体制的问题。学校的不闻不问正是我们值得反思的。论文期刊等网站监管不严,缺乏管制体制,让一些重复率较高的论文发表在网站上,助长了抄袭之风。更为严重的是,现今的教育考核体制也有很大问题,以发表论文的数量的多少来衡量一位学者学术水平的高低和教师职称的评定。这种学术圈乃至科研体制的弊病环境滋养了一个又一个“@小张(化名)”,只要一天不撼动这样的潜规则,就还有第二个,第三个@小张(化名)。
3 总结和展望
近年来,有关学者学术造假、学术不端等负面事件屡见不鲜,虽然社会在不断进步,人们的整体素质在不断提升但透过@小张(化名)我们发现:现象背后的深层原因除了学者自身品行不端之外,还与学术机制的漏洞以及唯论文衡量标准休戚相关。论文质量与数量成反比,部分学者把学术和科研与利益和名誉挂钩,忽视学术的基本要求,藐视学术权威。学术监督机制的缺失导致学术不端行为频发。这提醒我们要严格审查学术与科研项目,重视对学者的品行与规范教育,积极建立学术规范委员会。为了避免类似@小张(化名)事件的发生,我们提出以下几点不成熟的建议:
胡锦涛指出:文化是民族的血脉,是人民的精神家园。国家富强,民族振兴,人民生活幸福安康,需要强大的物质力量,也需要强大的精神力量。以胡锦涛为总书记的中央领导提出的上面几个新思想、新理念,对于激发全民族文化创造力,提高国家文化软实力,扎实推进社会主义文化强国建设具有重要作用。
希腊“Giorgos Thymus国际钢琴比赛”将于2019年1月10至18日在希腊塞萨洛尼基举行。该比赛每两年举行一次。年龄限制:0至32岁。比赛一等奖奖金为5000欧元。比赛共分为三轮,第一轮:独奏30分钟;第二轮:独奏60分钟。决赛轮:协奏曲。比赛曲目与详情请关注网站。
作为针对发表论文的期刊、网站,@小张(化名)的“落马”如果不加以惩处,反而会激起更多人的侥幸心理。在名利的催化剂作用下,不少投机分子想要复制@小张(化名)的“成功”,铤而走险,认为“只要不出事”就万事大吉。无论是高校还是学术界,这样的影响是可以预见的恶劣。因此各大网站期刊应该加强自己的审查制度,对自己现在已有的查重系统进行改进,提高现有查重系统的性能,同时加强对相关人员的培训,不要为了自己的私利帮助一些抄袭的作者进行一些交易。
作为学者个人,类似@小张(化名)事件的现象在高校中很常见,当论文指标成为主导地位的时候,老师们很容易埋头研究,苦苦挣扎,反而忽略了教学的重要性。想要“上位”就要不停发表论文,但是身为一个老师必须要守好本心,做好本职工作,不能本末倒置。这样才是高校老师该有的态度和风骨。
在中国,论文是获得学位文凭的必经途径。对于毕业的同学来说,完成论文需要面临很大压力。倘若没有安排好论文完成的时间和节奏,很容易产生过度引用、抄袭等行为。但是身为一个学者如果不亲自去写自己的论文,怎会有收获,身为一名学者就应该端正自己的学术作风,不应该“偷懒”而进行一些抄袭行为,从而断送自己以后的路。
此后,中国学术圈的信息欺诈行为已经引起了众多网友的广泛关注,对于学者和导师等学术人物论文导向过于偏重,甚至出现了“学术能力再强,没有论文一票否决,品格作风再差,拥有论文就能上岗”的奇怪现象,大家的态度也十分明显。尽管@小张(化名)事件的发酵带来了恶劣影响,但“某著名演员学术造假”、“某大学教授学术不端”等网络信息学术欺诈事件的层出不穷,也提醒我们更应建立综合考评制度,把解决国家重大需求的实际贡献作为核心标准。最后,希望能够破除我国固有体制,不止于小修小补的“厘米推进”,而应将其置于“科教兴国”的宏观视野进行系统改革来实现网络信息学术欺诈行为的预警,使网络信息学术欺诈预警技术更加成熟并得到更为广泛的应用,从而降低其出现的可能性。
【参考文献】
[1] 孟诗琼,孟诗瑶,尹志.基于R语言的汽车消费数据挖掘及可视化方法 [J] .宁波工程学院学报,2015,27(04):17-23.
[2] 于卫红.基于R+Hadoop框架的微信舆情热点挖掘[J] .情报杂志,2017,36(02):97-101+78.
[3] 吕姣兰.网络舆情评论文本信息的 R挖掘研究[D] .昆明:云南师范大学,2017.
[4] 吴丹露,魏彤,许家清.R语言环境下的文本可视化及主题分析——以社会服务平台数据为例[J] .宁波工程学院学报,2015,27(01): 19-25.
[5] 程翠琼.面向网络游记时间特征的情感分析模型[J] .数据分析与知识发现,2017,1(2).
[中图分类号] F224.33
[文献标识码] C
[文章编号] 2096-1995(2019)21-0200-02
作者简介: 史可(1998.07-),女,宁夏回族自治区银川市人,学生,在校大学生,研究方向:经济管理中的信息管理与社会研究。
指导教师: 国琳。