舆情应对是重大突发公共卫生应急管理中的重要问题。自2019年底新型冠状病毒肺炎爆发以来,互联网成为这次疫情最大的信息源,网上关于疫情的各种信息真伪混杂、谣言和未经证实的信息的产生与传播引发一波又一波舆情,严重扰乱疫情防控,网络由此被称为此次战“疫”的“第二战场”。因此,亟待对网络舆情进行有效预测,从源头上预防和降低舆情风险、有效防范舆情事件发生及蔓延,为疫情防控营造有利的舆论场。
大数据作为国家基础性战略资源,与人工智能、云计算等数字技术的综合运用,能够精准地助力网络舆情的预测、引导和智能管控,推动决策的科学化,提升重大突发公共卫生事件应急管理能力。充分发挥大数据在重大突发公共卫生事件网络舆情应对中的重要作用,需要做好以下三个方面的工作。
一、舆情数据的采集
首先,需要确定数据的来源渠道。最简单易行的方法是借助于新浪舆情通、众云大数据平台等舆情监测平台,但这些平台数据的实时性取决于其爬取网页的速度。为获取覆盖面更广、更新更为及时的数据,则需要考虑多个媒体平台。中国互联网络信息中心的调查表明,个人即时通信工具中,微信和QQ的用户占比分别高达92.6%和87%,是中国网民使用最多的社交工具,但其中聊天等数据的爬取涉及公民隐私权保护等问题。新浪微博是我国具有代表性的自媒体平台,其使用率达37.1%,被视为舆情监测首选的数据来源。此外,百度贴吧、豆瓣、知乎、天涯社区等社交应用分别占有34.4%、8.1%、7.6%、7.0%的市场份额,为使数据采集更加全面,可以同时从上述更多元化的平台获取数据。另据艾瑞数据研究报告,以抖音和快手等为代表的短视频行业市场规模将进一步扩大,预计2020年短视频市场的同比增长率将达70.9%;视频类媒体的数据采集在视频的解析方面有更高的技术要求,其版权侵权的风险也更大,不同形式的舆情数据采集都可能涉及版权问题,视频成为作品的可能性更大,故侵犯著作权的风险也更大。
其次,选择数据采集的方式。在法律允许的范围内,可以选择目前广泛使用的八爪鱼等爬虫软件;也可以编写网络爬虫、爬取网页资源;或者通过网站提供的数据API接口获得有价值的数据。
最后,清洗数据。为确保数据质量,对于从上述不同渠道采集而来的数据,需要通过观察数据的规律,设定清洗规则、进行数据清洗。
二、舆情数据的提取与结构化处理
为了自动化处理和分析舆情大数据,实时地对舆情进行研判和预测,需要对舆情数据进行提取和结构化处理。
(一)多维揭示数据
在数据特征的提取中,主要考虑的维度有:用户特征、时间特征、空间特征和内容特征。不同人群对同一事件的看法和反应,及其参与讨论所造成的后果呈现出不同特征,有必要提取其性别、年龄、受教育水平、职业、行业等用户特征数据。在时间特征方面,舆情事件生命周期一般分为潜伏期、形成期、波动期、消退期等必经阶段,提取事件生命周期有利于精准地预测舆情所处的发展阶段。某一主题在一天中不同时间段内所受的关注程度也是网络舆情分析的常见要素。关于疫情的舆情和地理空间紧密相关,可以通过舆情的地理分布规律,预测舆情在不同地理区域的分布和某一地理空间的历时变化。内容特征的揭示在这个环节占据重要比重,包括文本主题、文本结构、事件关键字等内容,也包括文本的情感倾向因素。
(二)采用多种相关技术
由于舆情数据的多元化与海量化,传统的对网页信息的人工提取、标引、分类耗费的时间成本高、速度慢、且不可避免地带有主观倾向,不能有效满足快速预测舆情的需要,有必要借助于自动化的分类标引方法、潜在语义标引技术、开放关联数据等技术,如利用自然语言处理与信息检索共享平台(NLPIR)和语言技术平台(LTP)等具备高效和高精度的词法、句法和语义分析与标引功能的开放中文自然语言处理系统,甚至进一步运用词频、逆文档指数(TF-IDF)和隐狄利克雷分配模型(LDA)算法对热点主题进行统计和甄别。
(三)遵循相关的标准
舆情数据的分类、标引质量直接影响到后续的舆情数据分析工作,建议在数据处理工作中遵循一定的质量标准与活动原则。信息资源的分类与标引是图书情报学的核心研究领域,其理论与方法值得借鉴于舆情数据处理中,如分类学要求对信息资源的分类标引工作遵循“准确、一致、适度、实用”的质量标准,即主题分析准确、归类一致、标引深度适中、有针对性。对舆情数据文本主题和事件关键字的内容揭示,可以使用《汉语主题词表》或者《医学主题词表》(MeSH)对舆情主题、关键词进行标引以提高标引的准确度;用资源描述框架(RDF)、网络本体语言(OWL)、统一资源定位符(URL)等关联数据技术存储、发布舆情数据,为其赋予语义以建立与其他数据开放平台的互联互通。对舆情数据的时间特征描述可以采用国际化标准组织(ISO)用于表示日期和时间的国际标准(ISO 8601)或万维网联盟制定的《时间和日期编码规则》(W3CDTF)。对舆情数据空间特征的名称描述可用《Getty地理名称叙词表》、代码可用国际标准组织(ISO)的国家和地区代码国际标准(ISO 3166)。这些标准的应用有助于提升舆情数据分析的效率,增强大规模舆情知识库和舆情查询分析系统的互操作性。
三、舆情数据的分析
舆情数据的分析旨在从海量多源数据中迅速地识别关键信息,厘清民众的主要观点和情绪、揭示舆情事件的事实和趋势,帮助相关部门做出正确的研判和及时应对。
舆情数据分析可从舆情的参与人群、传播路径、情感倾向,以及影响力等角度出发。参与舆情讨论人群的社会角色、利益诉求、认知水平等方面的差异将引导舆情向不同的方向发展,需要利用用户特征数据,通过标签提取和聚合分析等方法构建语义化、标准化的用户画像模型,并进一步分析舆情参与者的群体特征。传播路径分析通过挖掘不同主题舆情的传播路径与舆情平台的关联规则,揭示主题与舆情平台的关联模式,进而发现不同舆情平台的主题倾向性。舆论情感分析则暗示着舆论文本中携带的情感倾向,如在新型冠状病毒肺炎疫情防控中,面对疫情爆发、救援物资紧缺,舆论普遍带有焦虑、不安、恐惧、怀疑等负面情绪;在抗“疫”工作取得进展时,舆论情感倾向则明显转向积极、乐观。
舆情影响力分析是舆情数据分析的重点。有助于识别近期受关注的热点话题、地区和人群关注度,研判与疫情消息、救援进展、政府应对等方面的舆情事件的热点。从空间上来看,舆情影响力可以是单平台的、局限于部分群体的;而在重大突发公共卫生事件中,更有可能具有跨平台、波及全民的特性;从时间上看,在舆情生命周期的不同阶段,舆论影响力程度也存在差别;应从舆情影响力入手,借助图悦等词频分析工具精准定位舆论热点事件、热点区域,展示舆情词云。为了更好地展示数据分析结果,不妨借助百度ECharts、数据观、微博足迹可视化等数据可视化工具,以便直观地观察舆情演化与发展态势;通过回溯舆情传播的信息链、时间链和发展链、确定关键节点,最终锁定舆情生成源头,进一步利用清博舆情系统等舆情分析工具,能够更加全面、多维地挖掘舆情数据,进行科学评估、判断和重大预警。
人工智能相关技术的发展为智能分析舆情数据带来了可能。首先,对结构化的舆情数据进一步语义化,建立用户画像、舆情主题、舆情事件等要素之间的知识关联;然后,经过知识融合、知识加工和质量评估,自动化地构建大规模舆情知识库,使用gStore等图数据库管理系统对知识图谱进行存储和管理,并在此基础上建立基于大规模知识库的舆情查询分析系统,具备语义检索、智能问答、交互分析、知识推理等功能;利用特征抽取技术发现影响舆情事件的重要因素,如主题关注度、情感倾向等,建立舆情预警模型;最后,基于舆情查询分析系统实现舆情事件的智能分析和预警,当模型综合各个特征的计算结果超出阈值,则触发预警,从而支持重大突发公共卫生事件的应急管理和决策。
(作者:黄如花为武汉大学信息管理学院副院长、教授;洪亮,武汉大学信息管理学院副教授;黄雨婷,武汉大学信息管理学院研究生)
- [ 娱乐 ] 红色党课闪耀舞台,是什么打动了台上台下的年轻人?
- [ 国内 ] 建党百年献礼《1921》开机,黄轩刘昊然为革命故事注入青春能量
- [ 国内 ] “回锅肉”被群嘲,这“锅”该谁来背?
- [ 国内 ] 钟求是:要写出一部压得住岁月的东西
- [ 国内 ] 同样是县城,差别真不小(小县城大看点①)
- [ 娱乐 ] 直播带货数据造假百万坑位费坑惨商家!
- [ 国内 ] 吴晨光:如何让账号涨粉?
- [ 国内 ] 中国代表:坚决反对借涉港、涉疆问题干涉中国内政
- [ 国内 ] 联合国安理会通过新冠疫情决议:重申以人民为中心
- [ 国内 ] 香港维护国家安全法将尊重和保障人权置于突出位置
- [ 财经 ] 易建联加冕CBA常规赛得分王广东队20连胜稳居榜首
- [ 财经 ] 外媒:欧冠抽签7月10日进行采用单场淘汰制
- [ 国内 ] 国羽开展体能大比武为党的生日献礼
- [ 国内 ] 中国美术馆线上展览献礼“七一”
- [ 国内 ] 世卫组织:中国以外新冠确诊病例达10272430例
- [ 国内 ] 美药管局批准临床试验4款新冠疫苗
- [ 国内 ] 欧俄关系改善面临障碍
- [ 国内 ] 吴桂春的“奇遇”背后是人与城市的温情互动
- [ 国内 ] 陪读两年半“狼爸”的大生意
- [ 国内 ] 今年三次深改委会议,中央强调了这些卫生领域重点
- [ 国内 ] 我国网络生态治理取得成效
- [ 国内 ] “618”购物节123万多条维权信息在“吐槽”啥
- [ 国内 ] 工业互联网助力制造业升级
- [ 国内 ] 发力新基建激发长三角新动能数据中心二期开建
- [ 国内 ] “智慧农业”助中国人端稳饭碗
- [ 国内 ] 量子计算赋能突破新冠病毒检测痛点
- [ 国内 ] 以“智”取胜湖南长沙下好高质量发展“先手棋”
- [ 娱乐 ] 直播电商成经济发展“新引擎”
- [ 国内 ] 智慧物流e键加速
- [ 国内 ] 统筹推进生态保护和经济发展
- [ 财经 ] 把长江经济带建设成黄金经济带
- [ 国内 ] 免税购物海南风景更好
- [ 国内 ] 文创需要踏实的心境
- [ 国内 ] 放水养鱼,激发市场主体活力
- [ 国内 ] 中印两军第三轮军长级会谈取得积极进展
- [ 国内 ] 中国音协新兴音乐群体轻骑兵“七一”唱响云端
- [ 国内 ] 美军调整全球兵力布势维持霸权
- [ 国内 ] 美空军“敏捷战斗部署”有难度
- [ 国内 ] “穿越”时空,“神探狄仁杰”带你探北朝
- [ 国内 ] 军地同频,拓出一片新天地
- [ 国内 ] 海拔四千一百米,野外极限训练展开
- [ 国内 ] 美寻求延长对伊武器禁运俄伊“呛声”
- [ 国内 ] 山东“军证民考”拓人才培养新路
- [ 国内 ] 浙江文具抽查不合格率28.74%派克笔、晨光文具两款产品上榜
- [ 国内 ] 上海市金山区人武部推开10余项武装工作试点建设
- [ 国内 ] 解放军驻港部队:坚决拥护香港国安法颁布实施
- [ 国内 ] 《流浪地球》等25部口碑佳作入选年度影片
- [ 国内 ] 俄战机在黑海上空拦截美军侦察机
- [ 国内 ] 美若拿到S
- [ 国内 ] 40余国在人权理事会作共同发言支持中国在涉疆问题上的立场
- [ 国内 ] 西藏军区多型火炮高原实弹射击演练画面引关注
- [ 国内 ] 苏丹主要反政府武装组织宣布单方面停火7个月
- [ 国内 ] 聚焦练兵备战矢志强军打赢
- [ 国内 ] 世卫组织:过去一个月的新增病例占确诊病例总数的60%
- [ 娱乐 ] 国际观察:“政治病毒”是新冠病毒帮凶应同步消杀
- [ 国内 ] 亚足联确认5国有意申办2027年亚洲杯
- [ 国内 ] 挖掘消费潜力还需各方协力
- [ 国内 ] 这样的爱,在感动中传递(体坛观澜)
- [ 国内 ] 5国有意申办2027年亚洲杯
- [ 国内 ] 中国棋手丁立人暂时落后
- [ 国内 ] 成都大运会13处新建场馆全部完成主体结构封顶
- [ 财经 ] 新赛季中超本月25日开赛
- [ 国内 ] 国象网络奥林匹克赛将启动
- [ 国内 ] 吕会会投出本赛季世界最好成绩
- [ 国内 ] 除了《共产党宣言》这些译作也曾指引我们前进
- [ 财经 ] 十四运开幕式场馆及游泳跳水馆完成竣工验收
- [ 国内 ] 新媒体时代的文学读写(文学聚焦)
- [ 国内 ] 新华社:中超“归来”唤燃亿心
- [ 国内 ] 今天,您“低碳”了吗?
- [ 财经 ] 梅西打进职业生涯第700球
- [ 国内 ] 首钢队大胜北控队惨败
- [ 娱乐 ] 直播带货"割韭菜"套路调查:卖惨收割粉丝低俗表演博出位
- [ 国内 ] 6月OPEC石油产量降至20年来最低超预期执行减产协议
- [ 国内 ] 奏响昂扬奋进的旋律
- [ 国内 ] 如何依法织密个人信息保护网
- [ 国内 ] 退保产业藏玄机:有团伙伪造证据逼迫保险公司全额退保
- [ 国内 ] 山东26批次食品抽检不合格盒马青岛销售猪肉样品在列
- [ 财经 ] ?麻辣财经:海南自贸港,一大拨税收优惠来了!
- [ 娱乐 ] 梵蜜琳冠名热门综艺爆火背后:产品成分存疑口碑折戟
- [ 财经 ] 五问妙可蓝多:净利润亏损一千多万,却狂砸两个亿打广告?
- [ 娱乐 ] 吴京、赵涛、黄觉成奥斯卡今年新增会员
- [ 国内 ] 重塑线下价值百货店疫中寻发展秘钥
- [ 国内 ] 遭遇史无前例冲击全球航空业忙自救
- [ 国内 ] 汪涵代言的爱钱进被调查律师:自己没用过的产品别碰
- [ 国内 ] 国家卫健委:7月1日新增确诊病例3例其中北京1例
- [ 娱乐 ] 直播带货刷量已是业内公开秘密虚假宣传屡见不鲜
- [ 国内 ] 北青报:“避险停诊”对医患双方都是保护
- [ 国内 ] 北青报:以法律责任追究遏制公职人员档案造假
- [ 财经 ] 北青报:央行试点大额现金管理意味着什么
- [ 国内 ] 北青报:“任性APP”该管管了
- [ 财经 ] 央行在河北试点大额现金管理个人存取款超10万需登记
- [ 国内 ] 文创需要踏实的心境(新语)
- [ 国内 ] 红色文物在创新传承中活起来(传承・红色基因时代风华)
- [ 国内 ] 《见证初心和使命的“十一书”》外文版上线
- [ 国内 ] 电影《1921》在上海开机
- [ 财经 ] 严惩债券违约央行再出招
- [ 财经 ] 年报逾期未发神州优车或遭资本市场抛弃
- [ 社会 ] 疫情下的新机会外卖消费驶入快车道
- [ 国内 ] 南方日报:贩卖他人朋友圈信息岂止无德
- [ 国内 ] 北京日报:国产偶像团体散场即被遗忘?