推荐阅读
八项规定 改变中国

十九大报告指出,全面从严治党永远在路上。一个政党,一个政权,其前途命运取决于人心向背。人民群众反对什么、痛恨什么,我们就要坚决防范和纠正什么。(来源:12月8日,新华社) 十八大以来,党中央坚定不移全面从严治党,全党理想信念更加坚定、党性更加坚强,党和国家的各项事业发展有了更加坚强政治保证。但党面临执政环境的复杂性和复杂性,党内的思想、组织和作风不纯等突出问题。实践证明,管党治党,关系党国家民族前途命运,必须下更大决心、勇气、气力抓紧抓好。 5年前,《八项规定》出台,全面从严治党由此“破题”,开启了一场正风肃纪、激浊扬清、刷新吏治的作风之变。5年后,当初仅仅600余字之规定,却扭转着时代风气的深刻变化,使党风政风焕然一新;而今,它仍具有强大的威慑力,依然是全面从严治党的重要手段,只凭这一点,它已远超当初许众人预期;而且,当时认为公款吃喝等中国官场的“老大难”问题,竟然出现如此显著改善。 作风建设,成绩斐然。5年来,党中央以身作则,率先垂范,身体力行,把八项规定作为作风建设切入点,把全面从严治党为突破口,紧盯重要节点,从件件具体问题抓起,坚决杜绝“节日腐败”。截至今年10月,全国累查处超19.32万起,处理超26.3人,党政纪处分超14.5万人,真是累累硕果,成绩卓著,体现了党中央全面从严治党和狠抓作风建设的坚定决心与毅力。 这5年来,具体到各地,也都交出了作风建设满意“答卷”。一开始就坚持问题导向,从具体的、细小的问题抓,从月饼、粽子等“小事小节”入手,狠刹“四风”。截至今年10月,全国查处违规公款吃喝等三类突出问题共超4.55起。其中,在2013和2014年占68.6%;2015年占17.1%;2016年占10.8%;2017年仅占3.5%。显然看出,违纪存量和增量在大幅度减少,这更足以证明:八项规定,改变中国。 作风建设永远在路上。创新监督手段,充分利用互联网、新媒体和新技术,大大拓宽监督渠道,相信群众,依靠群众,形成群众监督的浓厚氛围;“八项规定”修改实施细则,着重对改进调查研究等方面内容,作了全面规范、细化和完善;中纪委推出八项规定精神“表情包”接地气,换新天。十八大以来,中央十二轮巡视和各级巡视巡察均把作为重要监督内容和监督手段逐渐固化为制度,构筑成反腐“天罗地网”,让隐变“四风”无处藏身。 八项规定,改变中国。只有将八项规定深入人心,彻底转变工作作风,提高干部效率,把好方针政策落到实处,才能不断推动党的事业前进,得到群众的拥护,中国的明天才会希望。才能让百姓感受到了实实在在的变化,不断深入人心,人民满意,世界关注,“八项规定”精神牢牢扎根中国大地,让中国政治生态焕然一新。

更多股市
隔夜欧美股市大跌 A股坚挺走出...

刘有华向21世纪经济报道记者表示,从外因上看,中国的强势反击让投资者看到了信心;从内因来看,现在的A股市场整体环境已经不再支持A股下跌,外资快速流进,而且美股在高位,A股在低位,A股核心资产的估值远低于美股同行业的平均估值。

你现在的位置:首页 > 互联网+ > 正文

“计算”的边界:互联网大数据与社会研究

日期: 2019-09-22 13:15:15    来源: 中国社会科学网   
分享到:

  内容提要:互联网大数据计算,是当前社会研究方法创新的主要方向之一。部分纯数据驱动型学者认为,大数据独立于研究之外生成,不仅能记录下人们的真实态度与自然行为信息,又可以摆脱研究者与研究本身的干扰,由此形成了“总体性”“真实—自然性”与“客观性”三大认识假定。然而,无论是由数字鸿沟造就的年龄与阶层边界和由差异化生产划定的群体与主题边界,还是由数据操纵和数据引导带来的虚假(非真实)与偏态(非自然)状况,以及潜藏在整个数据生产—挖掘—分析过程中的人为干扰,都证明上述假定在很多情况下并不成立。认清互联网大数据的可“计算”边界,对于推动数据计算在社会研究中的应用有着重要的理论与方法意义。

  关键词:互联网/大数据/计算范式/数据缺失/数据偏态/数据操纵

  作者简介:郝龙(1988- ),男,山东新泰人,武汉大学社会学系博士研究生,主要研究方向:数字社会学与计算社会学。武汉 430072

  基金项目:国家社科基金重大项目“大数据时代计算社会科学的产生、现状与发展前景研究”(16ZDA086)。

 

  社会学的量化研究以数据资料为基础,大数据时代的到来,使运用海量数据和新的数据处理技术,对人类行为、群体互动乃至社会复杂适应系统进行研究成为可能。可用于社会研究的大数据,依其生成方式大体可分为三类:第一类是基于人机互动在互联网和移动互联网平台上生成采集的互联网大数据①,包括社交关系数据、网络文本数据、电子踪迹数据等;第二类是通过各种传感器采集而来的物联网大数据,手机位置信息是其典型类型;第三类则是通过数字化与数据化手段由既有信息资料转制而成的大数据,例如谷歌图书语料库(Google Books Corpus)[1]。在三类数据中,互联网大数据由于承载着大规模、长时段、连续关系性和意义性信息,被认为将赋予社会学“改变我们对生活、组织和社会的理解”的潜力[2]。

  单从名称上看,“大数据”好像是在强调与传统量化数据相比所具有的更大个案数量或信息规模。然而实际上,两种数据无论是在数据性质还是生产逻辑上都存在着质的差异:传统计量方法分析的是数值型数据(numerical data),这些数据是出于特定研究目的而运用实验、问卷调查等方法有计划地观测的结果,即数据生产本身就构成了研究的一项重要组成部分。新型计算方法所处理的则是计算机代码型数据(code data)——“作为数据的可解释代码和作为代码的数据”[3],这些数据独立于社会研究之外。数据生产的独立性,也决定了其在社会研究中的边界。在计算范式下,数据分析的焦点不再是能测量到什么,而是“已经生产出什么”;不再是“能否有效且稳定地测量”,而是“是否真实且准确地生产”。[4]在由“可观测性”议题转向“可获得性”议题的过程中,围绕着大数据计算形成了一系列认识假定,其中对社会研究最为重要的有“总体性”“真实—自然性”“客观性”三大假定。“总体性”假定指大数据时代的到来,开启了“样本=总体”的全数据模式,数据代表性问题将不复存在;“真实—自然性”假定指互联网上记录的是人们行为互动的真实踪迹和“自然状态”下的表达;“客观性”假定指基于大数据的研究可以避免研究者个人因素的影响,能够获得传统研究方法无法企及的、带有真理性、客观性和准确性的见解。然而,将大数据运用于社会研究,就会发现实际情况并没有预想的那么乐观。

  一、缺失与分隔:互联网大数据的代表性边界

  “总体性”假定来自迈尔—舍恩伯格和库克耶的《大数据时代:生活、工作与思维的大变革》,他们将大数据理解为不同于抽样数据的全体数据,称“大数据是指不用随机分析法这样的捷径,而采用所有数据的方法”[5](56);并且认为“社会科学是被‘样本=总体’撼动得最厉害的学科”[5](41)。这样笼统地宣称“采用所有数据”的潜台词似乎是——在大数据时代,一切社会科学研究都能够用总体数据来分析。这一观点对传统定量研究者而言无疑有着巨大的吸引力,因为如果真的可以获得“全样本”,就意味着不存在数据代表性问题,社会研究结论的准确性和适用范围将得到显著提升。国内有些学者直接接受了“总体性”假定,认为“抽样误差曾经是长期困扰社会科学研究的重要难题,而全样本作为大数据最重要的特征,甚至可以将抽样误差降为零”[6]。然而,“总体性”假定在表述上是含混不清的,在社会科学研究中,“总体”是相对于研究对象和研究问题而言的,在没有明确研究对象的情况下谈论总体,其实是毫无意义的。迈尔—舍恩伯格等研究者未能对数据的“可计算性”和“可获得性”之间的差异作出清晰的分辨,他们认为随着计算能力的日益强大和数据处理技术的日益进步,对获取到的所有数据已有能力进行有效的分析,无须再因计算条件(能力、成本、时效等)的限制而采取随机抽样方法压缩数据体量。然而,在数据生产与科学研究相分离的背景下,可获得的所有数据不一定等同于研究对象的所有数据。这是不能脱离具体研究问题来下结论的。正因如此,国内有些学者对此问题的论述陷入自相矛盾,他们一方面沿袭舍恩伯格的观点,强调大数据的全样本特性,另一方面又承认很多时候并不能获得总体数据[7-8]。鉴于此,有必要对“总体性”假定进行细致的分析,以矫正相关认知偏差。

  (一)数据缺失:“数字鸿沟”下的年龄与阶层边界

  在现实生活中,计算设备的获得和使用会直接受到支付成本、技能学习、生活需求等社会因素的影响,从而使互联网大数据生产过程本身具有明显的社会属性[9]。对这种社会属性最直接的考察,便是检视网民群体结构与总体人口结构的对应程度。

  据第41次“中国互联网络发展状况统计报告”显示,2017年中国网民规模达到7.72亿,而按照当年总人口数计算,中国互联网普及率只有55.8%,仍有近一半的中国人口未能成为互联网大数据的生产主体。当然,如果这种缺失只是群体比例上的随机缺失,可以通过统计手段加以修正[10](186-187)。但现实情况却不尽然,仅从年龄结构来看,2017年,中国网民群体以40岁以下人口为主,40岁以上网民只占总网民数的23.6%,不到1.82亿人;而同年龄段的实际人口,占总人口数的比例却接近五成[11-12]。以往的研究表明,中国互联网的使用不仅会受到使用者年龄因素的影响,更与其收入、受教育程度和城乡差异等因素紧密相关[13-14]。即便只是对使用者的年龄、收入、受教育程度与城乡结构四个因素的交叉列联也会发现,仅凭40岁以上的网民群体规模是无法实现对同年龄段总人口变异性的整体覆盖,尤其是覆盖那些年龄较大、收入较低、学历不高、居住在农村的群体,其中大部分人的日常行为和态度意见都没有被记录在互联网大数据之中。例如,新浪微博发布的“2016微博用户发展报告”显示,82%的微博用户年龄在30岁以下,40岁以上用户不足7%;77.8%的用户受教育程度为大学及以上层次,初中及以下层次用户同样不足7%[15]。

  “数字鸿沟”(Digital Divided)的一系列研究对数据缺失背后所隐含的社会意义有所揭示。数字鸿沟概念,最初被用于描述因网络设备接入的不均衡所引发的信息分配的不平等现象[16]。对互联网大数据而言,“数字鸿沟”现象的存在意味着部分社会成员作为数据生产主体的缺场,其态度与行为信息无法在网络中获取。“数字鸿沟”不仅出现在网民与非网民群体之间,同样也出现在网民群体内部。随着研究的不断深入,社会学家们普遍意识到,由互联网的接入与否所引发的区隔问题,不过是“数字鸿沟”的表现形式之一。社会的结构性不平等因素,同样会在网民群体之间制造出使用频率、需求程度、技能水平和信息素养等方面的显著差异,由此引发数据生产上的“次级数字鸿沟”问题[17]。

  “数字鸿沟”理论表明,受个人技术能力、经济条件和社会需要等因素的限制,社会大龄群体和底层群体在成为互联网大数据生产主体问题上普遍面临着更多的障碍。这些群体中只有少数成员成为网民,他们无论是在行为方式还是态度意见方面都不足以代表全部成员,其所生产出的数据信息也无法涵盖群体内的所有变异性特征[18]。可以说,“数字鸿沟”现象的存在,使互联网大数据不可避免地存在数据缺失问题。在以往量化研究方法中,数据缺失是指所要观测的变量取值未能被测量到,或测量结果的信度太低而无法使用。然而在大数据研究领域,“缺失”的内涵发生了变化,用以描述受成本支付和主体偏好等因素的影响,社会研究所需要的数据未能在互联网络中生产或储存下来,因而研究者无法获取关于特定社会群体或研究主题的全部必要信息。由此类数据的绝对缺失所带来的信息恒定缺损,以至难以甚至无法以统计学方式来加以弥补或矫正。

本网申明:本网转载此文在于传递更多信息及用于网络分享,并不代表本网赞同其观点,如有侵犯知识产权的文章,请与我方联系必会及时处理。
更多文艺
更多三农在线