Book a Demo!
CoCalc Logo Icon
StoreFeaturesDocsShareSupportNewsAboutPoliciesSign UpSign In
HJHGJGHHG
GitHub Repository: HJHGJGHHG/CCF-BDCI-AQYI
Path: blob/main/README.md
153 views

CCF-BDCI系列赛——剧本角色情感识别

一、概述

  赛题地址:https://www.datafountain.cn/competitions/518/datasets   **数据简介:**比赛的数据来源主要是一部分电影剧本,以及爱奇艺标注团队的情感标注结果。   数据说明:     **1.训练数据:**tsv 格式,首行为表头。各字段数据:

字段名称类型说明
idString-
contentString文本内容,对白或动作描写
characterString角色名,文中提到的角色
emotionString各情感的强弱值

    本题情感共六类:爱、乐、惊、怒、恐、哀;     情感识别结果:上述6类情感按固定顺序对应的情感值,情感值范围是[0, 1, 2, 3],0-没有,1-弱,2-中,3-强,以英文半角逗号分隔;     **2.测试数据:**类似,无情感列

  **数据探索:**原始训练集共42790条数据;测试集共21376条数据。含有情感项的完整数据共36782条,测试集全为含有角色的数据。没有角色与情感项的为旁白或环境描写,官方解释为:可以当作上下文环境参考,也可以忽略。我将其忽略了,之后可以将其作为上下文看看效果。

二、思路

  为多标签多分类问题,6个标签(六种情感),4分类(0,1,2,3)。一种思路是将六种情感分开,即六个多分类问题,比较麻烦。此处的处理是将原问题视为多标签二分类问题。注意到情感值为2或3的占极少数,绝大部分是0与1,精度损失不大。   **Baseline:**通过继承 transformers 中的 BertForSequenceClassification 构建新类,损失函数取 nn.BCEWithLogitsLoss()。在预训练模型为 hfl/chinese-roberta-wwm-ext 时线上分数可达 0.6935。