中文信息学报新刊概览年第

↑点开查看清晰大图

语言分析与计算

?融合全局和局部信息的汉语宏观篇章结构识别

作者:范亚鑫,蒋峰,朱巧明,褚晓敏,李培峰

摘要:作为宏观篇章分析中的基础任务,篇章结构识别的目的是识别相邻篇章单元之间的结构,并层次化构建篇章结构树。已有的工作只考虑局部的结构和语义信息或只考虑全局信息。该文提出了一种融合全局和局部信息的指针网络模型,该模型在考虑全局语义信息的同时,又考虑局部段落间的语义关系密切程度,从而有效提高宏观篇章结构识别的能力。在汉语宏观篇章树库(MCDTB)的实验结果表明,该文所提出的模型性能优于目前性能最好的模型。

关键词:宏观篇章分析;结构识别;自顶向下;指针网络

引用格式:范亚鑫,蒋峰,朱巧明,褚晓敏,李培峰.融合全局和局部信息的汉语宏观篇章结构识别[J].中文信息学报,,36(3):1-9.FANYaxin,JIANGFeng,ZHUQiaoming,CHUXiaomin,LIPeifeng.IdentificationofChineseMacroDiscourseStructurewithGlobalandLocalInformation[J].JournalofChineseInformationProcessing,,36(3):1-9.

?基于多粒度语义交互理解网络的幽默等级识别

作者:张瑾晖,张绍武,林鸿飞,樊小超,杨亮

摘要:幽默在人们日常交流中发挥着重要作用。随着人工智能的快速发展,幽默等级识别成为自然语言处理领域的热点研究问题之一。已有的幽默等级识别研究往往将幽默文本看作一个整体,忽视了幽默文本内部的语义关系。该文将幽默等级识别视为自然语言推理任务,将幽默文本划分为“铺垫”和“笑点”两个部分,分别对其语义和语义关系进行建模,提出了一种多粒度语义交互理解网络,从单词和子句两个粒度捕获幽默文本中语义的关联和交互。在Reddit公开幽默数据集上进行了实验,相比之前最优结果,模型在语料上的准确率提升了1.3%。实验表明,引入幽默文本内部的语义关系信息可以提高模型的幽默识别性能,而该文提出的模型也可以很好地建模这种语义关系。

关键词:幽默等级识别;自然语言推理;多粒度;语义交互理解

引用格式:张瑾晖,张绍武,林鸿飞,樊小超,杨亮.基于多粒度语义交互理解网络的幽默等级识别[J].中文信息学报,,36(3):10-18.ZHANGJinhui,ZHANGShaowu,LINHongfei,FANXiaochao,YANGLiang.AMulti-GranularitySemanticInteractionUnderstandingNetworkforHumorLevelRecognition[J].JournalofChineseInformationProcessing,,36(3):10-18.

?基于跨语言数据增强的事件同指消解方法

作者:程昊熠,李培峰,朱巧明

摘要:事件同指消解是一个具有挑战性的自然语言处理任务,它在事件抽取、问答系统和阅读理解等任务中发挥着重要作用。现存的事件同指消解语料库的一个问题是标注规模较小,无法训练出高效能的模型。为了解决上述问题,该文提出了一个基于跨语言数据增强的事件同指消解神经网络模型ECR_CDA(EventCoreferenceResolutiononCross-lingualDataAugmentation)。该模型通过中英文语料互译来增强语料,并通过共享模型参数的方式实现中英文模型的跨语言学习,从而提高了事件同指消解的性能。在ACE英文语料上的实验结果表明,ECR_CDA优于目前最先进的基准系统。

关键词:事件同指;事件实例短句;中英跨语言学习;全局优化方法

引用格式:程昊熠,李培峰,朱巧明.基于跨语言数据增强的事件同指消解方法[J].中文信息学报,,36(3):19-26.CHENGHaoyi,LIPeifeng,ZHUQiaoming.Cross-lingualDataAugmentationBasedEventCoreferenceResolution[J].JournalofChineseInformationProcessing,,36(3):19-26.

民族、跨境及周边语言信息处理

?基于端到端的蒙古语异形同音词声学建模方法

作者:陈艳,李图雅,马志强,谢秀兰,王洪彬

摘要:蒙古语声学模型的训练过程是模型学习发音数据与标注数据之间关系的一个过程。针对以音素为建模粒子的蒙古语声学模型建模,由于蒙古语词的发音与语义存在一对多映射现象,会造成解码出的蒙古语文本错误,进而导致蒙古语语音识别系统识别率降低的问题。对此,该文以端到端模型为基础,以蒙古语音素、字母为蒙古语声学模型建模粒子,设计了基于BLSTM-CTC的蒙古语声学模型,并给出了动量训练算法。实验结果表明,基于蒙古语字母的BLSTM-CTC蒙古语声学模型可以有效降低蒙古语语音识别系统中异形同音词的词错率。

关键词:词异形同音词;建模粒子;端到端;蒙古语声学模型;语音识别

引用格式:陈艳,李图雅,马志强,谢秀兰,王洪彬.基于端到端的蒙古语异形同音词声学建模方法[J].中文信息学报,,36(3):27-35.CHENYan,LITuya,MAZhiqiang,XIEXiulan,WANGHongbin.AnEnd-to-EndAcousticModelingApproachtoMongolianHeteromorphicHomophones[J].JournalofChineseInformationProcessing,,36(3):27-35.

?融入主题特征的中越跨语言情感分类模型

作者:施忆雪,余正涛,相艳,张亚飞

摘要:越南语网络评论的情感分类是越南语事件观点分析的基础。越南语资源匮乏,标注困难,可借助中文标注语料进行跨语言情感分类,实现越南语评论的情感极性预测。但现有的跨语言情感分类模型忽略了主题信息对加强情感表征学习、减小语言差异的作用。为此,该文提出了一种融入主题特征的中越跨语言情感分类模型。将中文①和越南语的主题词分布作为外部知识引入模型,利用门控机制将主题表征与语义表征进行融合编码,并通过对抗过程使模型学习到语言分布差异最小的表征,最终完成情感分类任务。实验结果表明,该模型能更快拟合出语言分布差异,其宏F1值较多个基线模型均有明显提高。

关键词:跨语言情感分析;主题模型;社交媒体评论;对抗学习

引用格式:施忆雪,余正涛,相艳,张亚飞.融入主题特征的中越跨语言情感分类模型[J].中文信息学报,,36(3):36-44.

SHIYixue,YUZhengtao,XIANGYan,ZHANGYafei.AChineseandVietnameseCross-lingualSentimentClassificationModelIncorporatingTopicFeatures[J].JournalofChineseInformationProcessing,,36(3):36-44.

?基于多粒度特征的文本生成评价方法

作者:赖华,高玉梦,黄于欣,余正涛,张勇丙

摘要:近年来,基于预训练语言模型的文本生成评价方法得到了广泛

转载请注明:http://www.abuoumao.com/hykh/117.html

网站简介| 发布优势| 服务条款| 隐私保护| 广告合作| 网站地图| 版权申明

当前时间: 冀ICP备19029570号-7