股票财经直播行情分析网-阿牛直播

股票直播视频行情分析

学习炒股票、牛股预测、短线炒股技巧、股票学习视频教程、最新股市消息、股票行情分析

面向量化投资的金融文本分类

阿牛智投 来源:阿牛智投 21-01-27 17:35

采用预训练语言模型的文本分类算法难以区分细粒度的语义信息,尚无法在金融量化投资领域获得成功应用。近日,瞰点科技与华东师范大学、哈佛大学、上海交通大学的研究人员合作,将论文发表在ACM CIKM2020上的面向量化投资的细粒度金融文本分类框架正式对外发布。该方法采用针对目标任务的全局和模块信息编码融合的思想,有效地提升了针对金融领域的细粒度文本分类精度。

面向量化投资的金融文本分类

文本分类任务(text classification)是指根据文本内容自动地将文本分配到预定义类别的过程,是自然语言处理最基本的任务。文本分类的应用很多,如新闻分类、情感识别等,并且能够为更复杂的语言理解任务提供基础,如意图识别、关系抽取、事件检测等。

金融领域的文本分类任务尤其引起关注,股票投资机构的研究者每日分析大量的与投研分析相关的文本,以此来把握行业动态、做出合理的投资决策。因此,准确地将每日产生的大量金融文本自动分到规定类别以供研究人员进一步研究十分必要。

尽管已有市场上已经涌现许多基于文本分类的应用,这些模型大多基于大型预训练语言模型,对于复杂的类别体系,往往采用增加训练数据的方式提高模型的效果。但是金融领域不同类别之间语义上十分相似,仅在金融概念上有所区别。现有模型处理这类文本分类时,面临以下几项挑战:

分类体系类别数量多。在真实的工业应用中,例如金融领域,分类体系往往是类别繁多的复杂体系,类别体系最下端的叶子类别往往只有较少的训练数据,通过增加训练数据提升分类效果的方法成本较高且效果不可控;我们服务于量化投资的分类体系涉及 500 多个类别,分别分布于 7 个层级中;

分类体系类别粒度细。金融领域文本分类的类别体系往往类别之间相关性很大,无法直接通过文本信息进行分类。例如在我们的分类体系中,宏观 - 行业栏目下的 C4.2.5.1 产业支持政策 与公司 - 经营活动栏目下的 H2.9.3 产品结构调整与 H2.9.4 业务转型存在较强的相关性;

分类涉及领域的知识。金融领域文本分类任务往往设计许多领域相关的知识,例如垂直领域的实体,这些实体对文本分类的结果起十分关键的作用,忽略这些实体信息而将其当作普通的文本叙述,导致分类效果难以提升。

因此,在本文中,瞰点科技联合华师、哈佛、交大等机构的研究者提出了一种名为 GraphSEAT 的文本分类框架,可以为中国顶级金融信息服务供应商提供金融文本分类服务。具体来讲,他们创建了用于建模目标金融文本全局结构的异构图,其中文本和金融命名实体被视为节点(node)。并且,利用边缘(edge)将文本连接到包含的命名实体,然后利用注意力机制训练图卷积网络(GCN)以学习包含文本域信息的嵌入表征。

此外,研究者利用神经序列编码器从文本的词序列中提取语义信息,并通过注意力机制融合文本学得的两个表征,最终形成了文本的整体嵌入表征并进行预测。

最后,研究者在自己发布的真实金融新闻数据集和其他 3 个公开数据集上进行大量实验,以评估 GraphSEAT 框架的性能。结果表明,该框架优于全部 8 个同类型的基准模型,特别是在研究者自己的数据集上。

面向量化投资的金融文本分类

论文地址:https://dl.acm.org/doi/10.1145/3340531.3412707

代码地址:https://github.com/finint/graphSEAT

模型和方法

本文提出一种解决细粒度金融领域文本分类任务的方法 GraphSEAT :Fusing Global Domain Information and Local Semantic Information to Classify Financial Documents。模型结构如下图所示。模型主要包括三部分,分别是全局领域信息编码器、局部语义信息编码器和一个 Attention 模块。

面向量化投资的金融文本分类

模型结构图。

全局领域信息(Global Domain Information)编码器:本文使用金融领域的实体信息作为全局信息,例如公司、人名、地点、时间和产品等。研究者构建一个文本(document)和命名实体(entity)的异构图来建模全局领域信息,如果实体存在于文章中,那么该实体节点和该文章节点就在异构图的邻接矩阵中产生连接,那么不同的文章将通过异构图中的同一个实体联系起来。文章和文章之间、实体和实体之间的都存在着直接连接关系。

本文使用图卷积(GCN)来提取全领域信息,GCN 对于中心节点的每一个邻居的上一层的表征取平均作为当前的节点的表征,但在真实的金融文本中,不同的邻居节点对于文本的正确分类并不同等重要。因此,本文使用注意力机制动态地计算每一个邻居节点的权重。实体节点的初始化表征为词向量,文章节点的初始化表征为文本词向量的均值。

局部语义信息(Local Semantic Information)编码器:金融新闻除了金融领域有关的全局领域信息之外,最基本的语义是文本本身所包含的语义,本文称为局部语义信息。对于局部语义信息,本文采用双向的 GRU 作为编码器,并将正反向的表征合并,作为最终的结果。

在合并上述两部分信息作为文章的最终表征时,本文使用注意力机制,动态地计算每部分的权重。最后,将加权求和作为分类器的输入用于文本分类。

实验

本文在两类数据集上进行了实验,第一类是金融领域的文本数据集 FGCNews(Fine-Grained Chinese Financial News)。该数据集由瞰点科技与华师联合发布,并已由预训练好的命名实体识别模型识别出其中的实体。同时为了证明该模型的普适性,本文方法还在通用文本分类数据集(Movie Review、AGNews 和 Reuters 两个子数据集)上进行了广泛的验证。对于通用数据集,由于没有特殊的领域信息,本文使用词表作为全局领域信息。

下表 2 和表 3 汇总了以上数据集在本文模型和对比方法上的实验结果:

面向量化投资的金融文本分类

实验结果表。

从表中可以看出,本文模型在文本分类任务上有着优于基线的效果,尤其在金融文本数据集 FGCNews 上。在通用文本分类数据集上,虽然全局信息编码器仅仅使用了词表信息,但是本文模型仍然比基本方法有一定的提升效果,验证了本文方法在细粒度分类任务中的有效性。

为了探究模型每一部分的效果,本文进行了控制变量实验,实验分别研究了消去局部文本信息编码器、消去全局领域信息编码器、消去异构图上的注意力机制、消去语义合并处的注意力机制以及同时消去两部分注意力机制的效果,实验效果如下表 4 所示:

面向量化投资的金融文本分类

表 4:控制变量实验结果。

未来展望

本文讨论了面向量化投资的金融领域细粒度文本分类任务,通过建立文本和命名实体的异构图,将实体这一领域特征信息加入文本表征,但是本文仍然留有以下工作可以探索:

1. 本文所识别的实体包含公司、产品、人物、地名等,但是本文在处理实体信息时将其视为一个整体的集合,实际上,实体类型包含了更丰富的领域知识;

2. 本文依赖上游预训练好的实体识别模型,不是一个端到端的训练任务,采用端到端的学习或多任务学习是本论文的一个未来研究方向。

瞰点科技 (www.seek-data.com) 是位于上海的金融高科技企业,主要研究知识图谱、自然语言处理等 AI 与大数据技术在量化投资领域的应用,并且上线和发布多款 AI 技术驱动的策略产品。在后续的研究中,研究者将会继续探讨和介绍自然语言处理服务于量化投资的创新算法。

参考文献

[1]. Yao, Liang, Chengsheng Mao, and Yuan Luo. "Graph convolutional networks for text classification." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 33. 2019.

[2]. PetarVelickovic, GuillemCucurull, ArantxaCasanova, AdrianaRomero, Pietro Lio, and Yoshua Bengio. 2017. Graph attention networks. arXiv preprint arXiv:1710.10903 (2017).

[3]. Linmei, Hu, et al. "Heterogeneous graph attention networks for semi-supervised short text classification." Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). 2019s

[4]. Lai, Siwei, et al. "Recurrent convolutional neural networks for text classification." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 29. No. 1. 2015.

[5]. Kipf, Thomas N., and Max Welling. "Semi-supervised classification with graph convolutional networks." arXiv preprint arXiv:1609.02907 (2016).

[6]. Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, ukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you need. In NIPS. 5998–6008.

[7]. Joulin, Armand, et al. "Bag of tricks for efficient text classification." arXiv preprint arXiv:1607.01759 (2016).

[8]. Minaee, Shervin, et al. "Deep learning based text classification: A comprehensive review." arXiv preprint arXiv:2004.03705 (2020).

来源:机器之心Pro

内容如涉及个股仅供参考,不构成任何投资建议!投资风险自负。投资有风险,入市须谨慎。

推荐

    点击输入您的评论(文明发言、理性评论,勿发恶意评论,禁止人身攻击)   请勿发任何形式的广告、勿私自建群、发布群号、QQ号或其他联系方式! 请勿向他人索要联系方式。请所有用户小心非官方QQ号,谨防上当受骗!
    

    精品说说更多

      推荐课程

        风险提示:观点仅供参考学习,不构成投资建议,操作风险自担。

        友情链接: 股市大盘 股票投资
        版权所有: 上海点掌文化科技股份有限公司 (2012-2022)
        互联网ICP备案 沪ICP备13044908号-1 广播电视节目制作经营许可证(沪)字第0428号 沪ICP证:沪B2-20150089 互联网直播服务企业备案号:201708210015
        沪公网安备 31010702001519号 违法和不良信息举报热线:021-31268888 网站安全值班QQ:800800981 举报邮箱:

        您还未绑定手机号

        请绑定手机号码,进行实名认证。

        立即绑定

        X

        您修改的价格将提交至后台审核审核时间为1个工作日,请耐心等待

        确定 取消
        X

        互联网跟帖评论服务管理规定

        第一条 为规范互联网跟帖评论服务,维护国家安全和公共利益,保护公民、法人和其他组织的合法权益,根据《中华人民共和国网络安全法》《国务院关于授权国家互联网信息办公室负责互联网信息内容管理工作的通知》,制定本规定。

        第二条 在中华人民共和国境内提供跟帖评论服务,应当遵守本规定。

        本规定所称跟帖评论服务,是指互联网站、应用程序、互动传播平台以及其他具有新闻舆论属性和社会动员功能的传播平台,以发帖、回复、留言、“弹幕”等方式,为用户提供发表文字、符号、表情、图片、音视频等信息的服务。

        第三条 国家互联网信息办公室负责全国跟帖评论服务的监督管理执法工作。地方互联网信息办公室依据职责负责本行政区域的跟帖评论服务的监督管理执法工作。

        各级互联网信息办公室应当建立健全日常检查和定期检查相结合的监督管理制度,依法规范各类传播平台的跟帖评论服务行为。

        第四条 跟帖评论服务提供者提供互联网新闻信息服务相关的跟帖评论新产品、新应用、新功能的,应当报国家或者省、自治区、直辖市互联网信息办公室进行安全评估。

        第五条 跟帖评论服务提供者应当严格落实主体责任,依法履行以下义务:

        (一)按照“后台实名、前台自愿”原则,对注册用户进行真实身份信息认证,不得向未认证真实身份信息的用户提供跟帖评论服务。

        (二)建立健全用户信息保护制度,收集、使用用户个人信息应当遵循合法、正当、必要的原则,公开收集、使用规则,明示收集、使用信息的目的、方式和范围,并经被收集者同意。

        (三)对新闻信息提供跟帖评论服务的,应当建立先审后发制度。

        (四)提供“弹幕”方式跟帖评论服务的,应当在同一平台和页面同时提供与之对应的静态版信息内容。

        (五)建立健全跟帖评论审核管理、实时巡查、应急处置等信息安全管理制度,及时发现和处置违法信息,并向有关主管部门报告。

        (六)开发跟帖评论信息安全保护和管理技术,创新跟帖评论管理方式,研发使用反垃圾信息管理系统,提升垃圾信息处置能力;及时发现跟帖评论服务存在的安全缺陷、漏洞等风险,采取补救措施,并向有关主管部门报告。

        (七)配备与服务规模相适应的审核编辑队伍,提高审核编辑人员专业素养。

        (八)配合有关主管部门依法开展监督检查工作,提供必要的技术、资料和数据支持。

        第六条 跟帖评论服务提供者应当与注册用户签订服务协议,明确跟帖评论的服务与管理细则,履行互联网相关法律法规告知义务,有针对性地开展文明上网教育。跟帖评论服务使用者应当严格自律,承诺遵守法律法规、尊重公序良俗,不得发布法律法规和国家有关规定禁止的信息内容。

        第七条 跟帖评论服务提供者及其从业人员不得为谋取不正当利益或基于错误价值取向,采取有选择地删除、推荐跟帖评论等方式干预舆论。跟帖评论服务提供者和用户不得利用软件、雇佣商业机构及人员等方式散布信息,干扰跟帖评论正常秩序,误导公众舆论

        第八条 跟帖评论服务提供者对发布违反法律法规和国家有关规定的信息内容的,应当及时采取警示、拒绝发布、删除信息、限制功能、暂停更新直至关闭账号等措施,并保存相关记录。

        第九条 跟帖评论服务提供者应当建立用户分级管理制度,对用户的跟帖评论行为开展信用评估,根据信用等级确定服务范围及功能,对严重失信的用户应列入黑名单,停止对列入黑名单的用户提供服务,并禁止其通过重新注册等方式使用跟帖评论服务。国家和省、自治区、直辖市互联网信息办公室应当建立跟帖评论服务提供者的信用档案和失信黑名单管理制度,并定期对跟帖评论服务提供者进行信用评估。

        第十条 跟帖评论服务提供者应当建立健全违法信息公众投诉举报制度,设置便捷投诉举报入口,及时受理和处置公众投诉举报。国家和地方互联网信息办公室依据职责,对举报受理落实情况进行监督检查。

        第十一条 跟帖评论服务提供者信息安全管理责任落实不到位,存在较大安全风险或者发生安全事件的,国家和省、自治区、直辖市互联网信息办公室应当及时约谈;跟帖管理服务提供者应当按照要求采取措施,进行整改,消除隐患。

        第十二条 互联网跟帖评论服务提供者违反本规定的,由有关部门依照相关法律法规处理。

        第十三条 本规定自2017年10月1日起施行。

        请前往个人中心进行实名认证

        立即前往
        请选择打赏数
        • 10牛
        • 30牛
        • 50牛
        • 其它
        砖家也不容易,有你打赏更精彩

        该文章您还未购买,确定要打赏吗?

        付100牛即可查看有谁在踩

        您还未绑定手机号

        请输入手机号码,获取验证码进行手机绑定。

        获取验证码

        您的个人信息将严格保密,请放心填写

        赠人玫瑰 手有余香
        感谢您的鼓励,点赞之余再留个言吧!
        换一组 换一组