Skip to content

zhusleep/weibo_sentiment_analysis

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

11 Commits
 
 
 
 
 
 
 
 

Repository files navigation

SMP2020微博情绪分类技术评测(SMP2020-EWECT)

Baseline 运行方法

环境:python3,pytorch

python3 sentiment_analysis.py

欢迎

    欢迎来到SMP2020微博情绪分类技术评测(The Evaluation of Weibo Emotion Classification Technology,SMP2020-EWECT)。

    “第九届全国社会媒体处理大会(The Ninth China National Conference on Social Media Processing)”2020年9月4-6日在浙江杭州召开。全国社会媒体处理大会专注于以社会媒体处理为主题的科学研究与工程开发,为传播社会媒体处理最新的学术研究与技术成果提供广泛的交流平台,旨在构建社会媒体处理领域的产学研生态圈,成为中国乃至世界社会媒体处理的风向标,会议将以社交网络的形式改变传统的学术会议交流体验。全国社会媒体处理大会每年举办一次,现已成为社会媒体处理的重要学术活动。第九届全国社会媒体处理大会(SMP2020)由中国中文信息学会社会媒体处理专委会主办,浙江大学承办。

    在本届SMP会议上,我们将举办微博情绪分类技术评测。情感分析技术一直是自然语言处理领域研究的重点内容之一。2020年,新冠肺炎疫情成为了全国人民关注的焦点,众多用户针对此次疫情在新浪微博等社交媒体平台上发表自己的看法,蕴含了非常丰富的情感信息。基于自然语言处理技术自动识别社交媒体文本中的情绪信息,可以帮助政府了解网民对各个事件的态度,及时发现人民的情绪波动,从而更有针对性地制定政策方针,具有重要的社会价值。尽管之前的社交媒体情感分析技术已经取得了不错的进展,但是如何将之前的研究成果快速高效地应用到疫情相关的数据当中,仍然是一个值得研究的问题。本次评测任务中,参赛成员不仅需要分析普通微博中的情绪,还要专门针对疫情相关微博进行情绪分析。

    本届微博情绪分类技术评测由中国中文信息学会社会媒体处理专委会主办,哈尔滨工业大学承办并提供标注数据集,微热点大数据研究院提供原始数据及奖金,旨在促进社交媒体情感分析相关研究的发展,为本领域的学术研究人员和产业界从业人员提供一个良好的沟通平台。

评测内容

评测任务概述

本届微博情绪分类评测任务一共包含两个测试集:第一个为通用微博数据集,其中的微博是随机收集的包含各种话题的数据;第二个为疫情微博数据集,其中的微博数据均与本次疫情相关。

任务描述如下:

    微博情绪分类任务旨在识别微博中蕴含的情绪,输入是一条微博,输出是该微博所蕴含的情绪类别。在本次评测中,我们将微博按照其蕴含的情绪分为以下六个类别之一:积极、愤怒、悲伤、恐惧、惊奇和无情绪。

    两个数据集的各类情绪微博举例如下表所示

情绪 通用微博数据集 疫情微博数据集 积极 哥,你猜猜看和喜欢的人一起做公益是什么感觉呢。我们的项目已经进入一个新阶段了,现在特别有成就感。加油加油。 愿大家平安、健康[心]#致敬疫情前线医护人员# 愿大家都健康平安 愤怒 每个月都有特别气愤的时候。,多少个瞬间想甩手不干了,杂七杂八,当我是什么。 整天歌颂医护人员伟大的自我牺牲精神,人家原本不用牺牲好吧!吃野味和隐瞒疫情的估计是同一波人,真的要死自己去死,别拉上无辜的人。 悲伤 回忆起老爸的点点滴滴,心痛...为什么.接受不了 救救武汉吧,受不了了泪奔,一群孩子穿上大人衣服学着救人 请官方不要瞒报谎报耽误病情,求求武汉zf了[泪][泪][泪][泪] 恐惧 明明是一篇言情小说,看完之后为什么会恐怖的睡不着呢,越想越害怕[吃驚] 对着这个症状,没病的都害怕[允悲][允悲] 惊奇 我竟然不知道kkw是丑女无敌里的那个 我特别震惊就是真的很多人上了厕所是不会洗手的。。。。 无情绪 我们做不到选择缘分,却可以珍惜缘分。 辟谣,盐水漱口没用。

数据集说明

本次技术评测使用的标注数据集由哈尔滨工业大学社会计算与信息检索研究中心提供,原始数据源于新浪微博,由微热点大数据研究院提供,数据集分为两部分。

    第一部分为通用微博数据集,该数据集内的微博内容是随机获取到微博内容,不针对特定的话题,覆盖的范围较广。

    第二部分为疫情微博数据集,该数据集内的微博内容是在疫情期间使用相关关键字筛选获得的疫情微博,其内容与新冠疫情相关。

    因此,本次评测训练集包含上述两类数据:通用微博训练数据和疫情微博训练数据,相对应的,测试集也分为通用微博测试集和疫情微博测试集。参赛成员可以同时使用两种训练数据集来训练模型。

    每条微博被标注为以下六个类别之一:neural(无情绪)、happy(积极)、angry(愤怒)、sad(悲伤)、fear(恐惧)、surprise(惊奇)。

    通用微博训练数据集包括27,768条微博,验证集包含2,000条微博,测试数据集包含5,000条微博。

    疫情微博训练数据集包括8,606条微博,验证集包含2,000条微博,测试数据集包含3,000条微博。

    注意:实际发布的测试集中会包含混淆数据,混淆数据不作为测点,在最终结果评测时会预先去除。

    训练数据集以xlsx格式发布,包含三列:数据编号,文本,情绪标签。示例如下:

数据编号 文本 情绪标签 1 每个月都有特别气愤的时候。,多少个瞬间想甩手不干了,杂七杂八,当我是什么。 angry

比赛原始地址 http://39.97.118.137/

http://39.97.118.137/rank

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages