AAAI 2018 有什么值得关注的亮点?

哈工大在1月6日举办AAAI 2018 预讲会,有来自15所高校和研究单位的25篇文章在预讲会上做了报告。 @刘朋伯 列的几篇文章的研究确实非常有意思。AI 科技评论接下来将呈现全部25篇文章。

(也欢迎论文作者随时指正!)

!!!NOTE!!!

AAAI 2018 将要开始。

届时雷锋网 AI 科技评论也将到现场进行一线报道。如果你也有论文被 AAAI 录用 ,欢迎和我们联系,并进行更多交流!

~~~~~~~~~~

(这是上篇)

1 月 6 日,由中国中文信息学会青年工作委员会(简称「青工委」)主办,哈尔滨工业大学社会计算与信息检索研究中心(HIT-SCIR)承办的『AAAI 2018 预讲会』在哈尔滨工业大学成功举办。本次会议由华为和云孚科技提供赞助,雷锋网作为独家合作媒体,提供了在线直播,并对本次预讲会做全程报道。

AAAI 2018 是人工智能领域的顶级国际会议,每年举办一次。今年 AAAI 会议将于 2 月 2 日至 2 月 7 日在美国新奥尔良举行。鉴于国内学者在各大国际顶会中发表的文章越来越多,青工委希望能在顶会之前将国内学者汇聚一堂,共同探讨最新研究进展,所以从 2013 年开始就举办了许多次顶会预讲会。

本次 AAAI 2018 预讲会邀请了来自全国各地 15 所高校和研究单位的老师和同学分享他们在 AAAI 2018 中接收的 25 篇论文,内容覆盖有聊天机器人、语义依存图、文本摘要、机器翻译、信息抽取、表示学习等多个领域的最新研究成果。会议吸引了 200 多名老师和学生来此参会并进行交流。

预讲会伊始,首先由中国中文信息学会青年工作委员会主任刘洋副教授、副主任车万翔副教授分别代表主办方和承办方致欢迎辞。云孚科技 CEO 张文斌先生代表赞助方致辞。开幕式由东道主哈尔滨工业大学社会计算与信息检索研究中心刘铭副教授主持。

会议议程整体分为四个 Session,每个 Session 包含 6-7 个报告,每个报告限时 10 分钟;在每个 Session 之间有 80-90 分钟的休息和 poster 环节。会议现场节奏可谓有松有紧,节奏感极为鲜明。讲者们除了在报告中深入讲解他们的研究工作外,在 poster 环节还有大量的时间与现场的参会者进行互动和讨论,与会人员可谓获益颇多。

下面 AI 科技评论根据现场报告为你详细解读 25 篇 AAAI 2018 接收论文。

(由于内容较多,我们将分为上、下两篇介绍)

论文速览列表:

上 篇

AAAI 2018预讲会在哈工大成功举办,25篇顶会文章讲了什么(上)

Session 1

[1] Adversarial Learning for Chinese NER from Crowd Annotations
作者:杨耀晟,张梅山,陈文亮,张伟,王昊奋,张民
单位:苏州大学人类语言技术研究所
[2] Adaptive Co-attention Network for Named Entity Recognition in Tweets
作者:张奇,傅金兰,刘晓雨,黄萱菁
单位:复旦大学
[3] Large Scaled Relation Extraction with Reinforcement Learning
作者:曾祥荣,何世柱,刘康,赵军
单位:中科院自动化所
[4] Event Detection via Gated Multilingual Attention Mechanism
作者:刘健,陈玉博,刘康,赵军
单位:中国科学院自动化研究所
[5] Neural Networks Incorporating Dictionaries for Chinese Word Segmentation
作者:张奇,刘晓雨,傅金兰
单位:复旦大学
[6] Learning Multimodal Word Representation via Dynamic Fusion Methods
作者:王少楠, 张家俊, 宗成庆
单位:自动化所

Session 2

[7] Inferring Emotion from Conversational Voice Data: A Semi-supervisedMulti-path Generative Neural Network Approach
作者:周素平,贾珈,王琦,董宇飞,尹宇峰,雷克华
单位:清华大学
[8] Long Text Generation via Adversarial Training with Leaked Information
作者:郭家贤,卢思迪,蔡涵,张伟楠,汪军,俞勇
单位:上海交通大学
[9] Style Transfer in Text: Exploration and Evaluation
作者:付振新,谭晓烨,彭楠赟,赵东岩,严睿
单位:北京大学计算机科学技术研究所
[10] Meta Multi-Task Learning for Sequence Modeling
作者:陈俊坤,邱锡鹏,刘鹏飞,黄萱菁
单位:复旦大学
[11] RUBER: An Unsupervised Method for Automatic Evaluation of Open-DomainDialog Systems
作者:陶重阳,牟力立,赵东岩,严睿
单位:北京大学计算机科学技术研究所
[12] Exploring Implicit Feedback for Open Domain Conversation Generation
作者:张伟男,李凌志,曹东岩,刘挺
单位:哈尔滨工业大学

下 篇

AAAI 2018预讲会在哈工大成功举办,25篇顶会文章讲了什么(下)

Session 3

[13] Neural Character Dependency Parsing for Chinese
作者:李浩楠,张智松,琚毓琪,赵海
单位:上海交通大学
[14] A Neural Transition-Based Approach for Semantic Dependency Graph Parsing
作者:王宇轩,车万翔,郭江,刘挺
单位:哈尔滨工业大学
[15] Asynchronous Bidirectional Decoding for Neural Machine Translation
作者:张祥文,苏劲松,秦悦,刘洋,纪荣嵘,王鸿吉
单位:厦门大学
[16] Knowledge Graph Embedding with Iterative Guidance from Soft Rules
作者:郭舒,王泉,王丽宏,王斌,郭莉
单位:中国科学院信息工程研究所
[17] Embedding of Hierarchically Typed Knowledge Bases
作者:张日崇,孔繁爽,王晨玥,茆永轶
单位:北京航空航天大学
[18] Faithful to the Original: Fact Aware Neural Abstractive Summarization
作者:曹自强,韦福如,李文婕,李素建
单位:香港理工大学
[19] Twitter Summarization based on Social Network and Sparse Reconstruction
作者:贺瑞芳,段兴义
单位:天津大学

Session 4

[20] Improving Review Representations with User Attention and ProductAttention for Sentiment Classification
作者:吴震 ,戴新宇,尹存燕,黄书剑,陈家骏
单位:南京大学
[21] Chinese LIWC Lexicon Expansion via Hierarchical Classification of WordEmbeddings with Sememe Attention
作者:曾祥楷,杨成,涂存超,刘知远,孙茂松
单位:清华大学
[22] Learning Structured Representation for Text Classification withReinforcement Learning
作者:张天扬,黄民烈,赵立
单位:清华大学
[23] Assertion-based QA with Question-Aware Open Information Extraction
作者:闫昭,唐都钰,段楠,刘树杰,王文迪,姜大昕,周明,李舟军
单位:微软亚洲研究院
[24] End-to-End Quantum-like Language Models with Application to QuestionAnswering
作者:张鹏,牛嘉斌,苏展,王本友,马力群,宋大为
单位:天津大学
[25] EMD Metric Learning
作者:张子昭,张宇博,赵曦滨,高跃
单位:清华大学

Session 1(6场报告)

主持人:刘铭副教授,哈尔滨工业大学


[1] Adversarial Learning for Chinese NER from Crowd Annotations

作者:杨耀晟,张梅山,陈文亮,张伟,王昊奋,张民

单位:苏州大学人类语言技术研究所

首先是由来自黑龙江大学的张梅山副教授做了首场报告。

在训练命名实体识别系统时,往往需要大量的人工标注语料。为了保证质量,通常需要雇佣专家来进行标注,但这样会造成代价成本高且规模难于扩大。另一种方式是采用众包标注方法,雇佣普通人员来快速低成本完成标注任务,但这样获取的数据含有很多噪音。

张梅山在报告中提出了一种利用众包标注数据学习对抗网络模型的方法,来构建中文实体识别系统。受对抗网络学习的启发,他们在模型中使用了两个双向 LSTM 模块,来分别学习标注员的公有信息和属于不同标注员的私有信息。对抗学习的思想体现在公有块的学习过程中,以不同标注员作为分类目标进行对抗学习。从而达到优化公有模块的学习质量,使之收敛于真实数据 (专家标注数据)。算法框架如下:


最终构建的中文实体识别系统 (Crowd-NER) 在真实数据上的性能比传统 CRF 模型高 7.2%(F1):

[2] Adaptive Co-attention Network for Named Entity Recognition in Tweets

作者:张奇,傅金兰,刘晓雨,黄萱菁

单位:复旦大学

随后由来自复旦大学的傅金兰介绍了他们在命名实体识别任务中的工作。

在 tweet 命名实体识别中,传统的方法往往只使用了文本内容。但是许多推文还包含图像等内容。这种视觉信息在实体识别任务中是极有价值的。例如下面的例子,


在只使用文本信息时可能会把「Rocky」识别为人名;但是结合 tweet 图片,我们知道「Rocky」其实是一条狗。

为了充分利用文本和视觉信息,傅金兰等人在论文中提出了一种处理 tweet 中包含多种信息的方法。具体来说,他们利用了条件随机场和 Adaptive Co-attention Network 扩展了一个双向 LSTM 网络。


为了评估这种方法,他们构建了包含多模态推文的大规模标记数据集。实验结果表明,这种方法在大多数情况下可以比以前的方法获得更好的效果。

(感谢傅金兰指正!)

[3] Large Scaled Relation Extraction with Reinforcement Learning

作者:曾祥荣,何世柱,刘康,赵军

单位:中科院自动化所

随后来自中科院自动化所的陈玉博助理研究员代表同组的何世柱助理研究员做了关于使用增强学习进行大规模关系抽取的报告。

从文本中进行关系抽取在 NLP 领域是一个重要的任务。目前主要有两种方法:句子级的关系抽取和基于知识库的 bag 级关系抽取。

前者需要有人工标注,难以大规模应用;后者虽然能够大规模进行关系抽取,但是它只有
bag 的 label,而没有具体句子的 label。作者使用增强学习的方法,将包中的句子看成增强学习的 state,将关系看成
action,将关系抽取分类器看成 agent,从而构建了一个能够依据大规模自动回标的包数据训练出一个高质量的句子级的关系抽取的分类器。


基于这种方法构建的两个模型在公开发布的数据集上进行实验,结果证明所提方法与基线模型相比有 13.36% 的显著提升。

(感谢陈玉博助理研究员指正!)

[4] Event Detection via Gated Multilingual Attention Mechanism

作者:刘健,陈玉博,刘康,赵军

单位:中国科学院自动化研究所

随后陈玉博助理研究员又做了关于通过门控多语言注意机制进行事件检测的报告。

在 NLP 应用(例如信息提取系统)中,如何从文本中识别出事件非常重要。但目前这项任务的大多数现存方法只关于单一语言的特定语言线索,却忽略了其他语言提供的大量信息。这些方法会受困于单语歧义性以及数据稀缺的影响。

本文提出了一种新颖的多语言方法(称之为门控多语言注意(GMLATT)框架)来同时处理前面两种问题。具体来说,作者通过上下文关注机制,利用多语言数据的一致性信息缓解了数据稀缺的问题;同时他们提出了跨语言的门控注意,利用多语言数据传递的补充信息来解决单语歧义问题。


他们在实验部分选择了 ACE 2005 基准进行了广泛的实验。结果表明这种方法显著优于当前最先进的方法。

(感谢陈玉博助理研究员指正!)

[5] Neural Networks Incorporating Dictionaries for Chinese Word Segmentation

作者:张奇,刘晓雨,傅金兰

单位:复旦大学

第五个报告由来自复旦大学的刘晓雨介绍了他们在中文分词中深度神经网络方面的工作。

近年来深度神经网络在中文分词领域取得了很大的成功,但目前这种类型的方法大部分是端到端的训练系统,它们可以有效地处理和学习大规模标记的数据集,但在处理低频词汇和领域专有名词时的表现并不是很好。

另一方面,统计方法在中文分词领域的成功表明,人类的知识在上面两种情况下能够提供极有价值的信息。所以作者提出词典(人类知识)结合神经网络的方法,利用人类知识来提升神经网络在分词任务中的表现。


具体来说,作者提出了两种扩展 Bi-LSTM-CRF 模型的方法来引入词典信息,如下:


实验结果表明,这种方法在在大多数领域文本的分词中表现比 state-of-art 方法更好,在多领域的文本分词中相对 state-of-art 方法有显著提升。此外,当要把训练好的模型应用到特定领域的分词任务时,我们只需要添加额外的领域词典即可,模型的参数保持不变,不需要再重新训练。

(感谢刘晓雨指正!)

[6] Learning Multimodal Word Representation via Dynamic Fusion Methods

作者:王少楠, 张家俊, 宗成庆

单位:自动化所

Session 1 的最后一个报告由来自中科院自动化所的王少楠所做,她介绍了他们组在基于动态融合方法的多模态词汇表示模型上的研究工作。


在学习语义词汇表示任务中,多模态模型要比单纯的基于文本的模型表现要好,例如下图从融合文本、图像、声音、情感的信息中学习词汇表示明显要优于单纯的从文本中学习词汇表示。


之前的多模态词汇表示模型会将各种模态信息平等对待。但很明显,来自不同模态(例如图像和文本)的信息对不同类型的词汇有不同的贡献,理应有不同的权重。比如对于抽象词如「快乐」,文本模态对词义的贡献要大于感知觉模态的贡献;而对于具象词如「桌子」,文本和感知觉模态都会极大地影响词汇的含义。

基于这种考虑,作者建立了可以根据不同类型的词汇对不同模态的信息加以区分的多模态词汇表示模型,模型中有三种动态融合机制,可以分别针对模态、词类和词汇对不同模态赋予不同的权重。其中,作者间接利用相关或相似词对作为弱监督信号来自动学习不同模态的权重。


实验的结果表明,这种动态融合方法可以极大地提高词汇表示的质量。定性的结果分析表示,该模型可以针对不同类型的词汇赋予不同的权重。这一结果也符合认知科学的研究结论,即抽象词更依赖文本模态,而具象词的词义学习依赖文本和感知觉模态。这个研究表明,利用计算模型对数据的规律进行挖掘可以帮助认知科学的相关研究。

(感谢王少楠的指正!)



Session 2(6场报告)

主持人:靳婷副教授,海南大学


[7] Inferring Emotion from Conversational Voice Data: A Semi-supervised Multi-path Generative Neural Network Approach

作者:周素平,贾珈,王琦,董宇飞,尹宇峰,雷克华

单位:清华大学

经过一个多小时的茶歇和 poster 后,来自清华大学的周素平开启了第二个环节的首场报告。报告中她介绍了他们组在语音对话应用程序(VDA)中推断情感方面提出的半监督多路径生成神经网络方法的工作。

为了在语音对话应用(VDAs)中给出更人性化的回应,从用户查询中推断用户的情绪状态是一个重要的任务。在 VDAs 问题中有两大挑战:1)多模态信息所带来的特征向量维数很大;2)大量的用户和巨大的未标记数据(有限的标记数据)。

针对这些问题,在这篇论文中作者提出了一种半监督的多路径生成神经网络,框架流程如下:


为了避免高维输入,他们将原始特征分别输入到局部分类器中进行训练,然后再将每个局部分类器的高级特征作为全局分类器的输入。这两种分类器通过一个单一的目标函数同时进行训练,以达到更有效、更有区别的情感推理。

为了进一步解决标记数据稀缺的问题,作者在上面的多路径深度神经网络上扩展了一个基于半监督变分自动编码器(semi-VAE)的生成模型,这个模型能够同时训练标记和未标记的数据。

基于从搜狗 Voice Assistant1(SVAD13)和基准数据集 IEMOCAP 收集到的 24,000 个真实世界的数据集进行的实验表明,该方法明显优于现有的最新结果;更为关键的是,该方法可以直接应用在真实数据中。

[8] Long Text Generation via Adversarial Training with Leaked Information

作者:郭家贤,卢思迪,蔡涵,张伟楠,汪军,俞勇

单位:上海交通大学

随后,来自上海交通大学的郭家贤分享了他们在长文本生成方面的研究工作。

在长文本生成中,现有的模型(GAN 方法)的标量引导信号只有在文本完整生成后才可以使用,并且在生成过程中缺少关于文本结构的中间信息,这些因素会限制长文本生成的效果。


本文提出了一种名为 LeakGAN 的框架,也即在生成的过程中 Discriminator 会将提取到的高级特征「泄露」给 Generator,以进一步指导下一步的生成。在 Generator 中,通过一个额外的 Manager 模块将这些信息整合到所有生成步骤中,并将当前生成的字的提取特征输出为一个潜在的向量,用来指导 Worker 模块进行下一代词的生成。

这个模型来源于一种想法,即人在说一句较长的话时,不是一下子把所有的词都想完整了后再说,而是在说的过程中不断根据前面内容生成接下来要说的话。

其实验证明,LeakGAN 在长文本生成中非常有效,并且在短文本生成场景中也提高了性能。

[9] Style Transfer in Text: Exploration and Evaluation

作者:付振新,谭晓烨,彭楠赟,赵东岩,严睿

单位:北京大学计算机科学技术研究所

接下来,来自北京大学计算科学与技术研究所的本科生付振新做了一项文本风格转换方面探索性的报告。

在风格转换方面,文本风格转换的研究要落后与其他领域(如计算机视觉),其主要原因是由于缺乏并行数据和可靠的评估指标。

针对缺乏平行数据的挑战,作者提出两种模型来实现无平行语料数据集的风格转换方法。模型背后关键的思想为使用对抗网络来分别学习内容表示和风格表示。


针对缺乏可靠的评估指标的问题,作者提出了「转换强度」和「内容保持(content preservation)」两项评估指标。

他们选择了两种风格转换任务来进行试验,分别为:论文-新闻标题的风格转换和正负面评论的风格转换。


结果显示,且通过对自动编码器的对比等,发现所提模型既能迁移风格,又能保留内容。

(感谢付振新指正!)

[10] Meta Multi-Task Learning for Sequence Modeling

作者:陈俊坤,邱锡鹏,刘鹏飞,黄萱菁

单位:复旦大学

随后来自复旦大学的陈俊坤做了关于序列建模的元多任务学习的报告。

语义组合函数(Semantic composition functions)在文本序列的神经表示学习中起着举足轻重的作用。在这个任务中已经有许多模型,尽管它们取得了很大成功,但是也都存在 underfitting 的问题:它们在序列中的所有位置上使用相同的共享组合函数,因此会由于无法捕捉到合成的丰富性而缺乏表达能力;另外,不同任务的组合函数也是独立的,每次都需要从头开始学习。

在这篇文章中,作者提出了一个跨多个任务组合函数的共享方案。具体来说,作者使用一个共享的元网络来捕获语义组合的元知识,并生成任务特定的语义组合模型的参数。

作者对两个任务(文本分类和序列标签)进行了实验。实验结果表明,这个模型学到的共享元知识可以被看做是现成的知识,也很容易迁移到新的任务上。

(感谢陈俊坤指正!)

陈俊坤:

原先的多任务学习可视为学习出更好的表示特征,即 feature-level 的共享模式,如果一个 layer 的作用可以视为 layer =\sigma(W*x)的话,那么之前的多任务学习旨在得到更好的 x,而我们的模型则保持 x 与单任务时相同,利用一个共享的小网络控制 W,我们称为 function-level 的共享模式。

[11] RUBER: An Unsupervised Method for Automatic Evaluation of Open-Domain Dialog Systems

作者:陶重阳,牟力立,赵东岩,严睿

单位:北京大学计算机科学技术研究所

来自北大计算科学与技术研究所的助理教授严睿做了关于开放域对话系统无监督自动评估的报告。



开放域对话系统目前还不存在标准的自动评估指标。研究者通常会使用人工标注进行模型评估,但这种方法费时费力。在这篇文章中,作者提出了一种 referenced 度量和 unreferenced 度量混合评估的 RUBER,它通过同时考虑一个 ground truth 答复和一个查询(先前用户发出的话语)来评估一个答案。这种指标是可以学习的,它的训练并不需要人类满意的标签。所以 RUBER 比较灵活,可以扩展到不同的数据集和语言上。

在对检索和生成对话系统的实验表明,RUBER 与人类标注有很高的相关性。

[12] Exploring Implicit Feedback for Open Domain Conversation Generation

作者:张伟男,李凌志,曹东岩,刘挺

单位:哈尔滨工业大学

Session 2 的最后一个报告由来自哈工大 SCIR 的张伟男副教授分享了 SCIR 在开放域对话生成隐式反馈探索方面的工作。

在人机对话过程中,人们通常会表现出某种立场、情绪以及尴尬等状态,我们称之为用户在人机对话过程中的隐式反馈。

相比于任务型人机对话在对话结束后通过问卷的形式显式地获取用户的反馈,隐式反馈更加自然且不需要用户作出对话之外的反馈操作。在开放域人机对话中,用户的隐式反馈普遍存在。

这篇文章探寻了人机对话过程中的用户隐式反馈对于开放域对话生成的作用,在强化学习的框架下,将隐式反馈建模到对话奖励函数中,获得比 baseline 更好的对话生成效果。

(感谢张伟男副教授指正!)

来张讲者合照镇楼!其中有教授、博士、研究生、本科生,覆盖了学术研究的各个年龄层。(照片由哈工大李家琦博士提供)



Session 3(7场报告)

主持人:杨亮副教授,大连理工大学

[13] Neural Character Dependency Parsing for Chinese

作者:李浩楠,张智松,琚毓琪,赵海

单位:上海交通大学

经过一个半小时的午间休息和讨论后,Session 3 由来自上海交通大学的赵海教授开启。

2009 年,赵海教授针对中文分词过程中会受到词义模糊影响的问题,提出了字符级依存分析的方案。这种方案有两个好处:1)使用字符级树避免了中文分词不存在通用标准的问题;2)单词内部的深层次结构为更深层次的处理提供了额外的信息,能够更好地理解整个句子。

在此基础上,这篇文章利用神经模型来探索字符依存分析,提出了一个开放的字符级依存树库 SCDT(首次提供了丰富的字符级 POS 标签和依存类别标签)以及首个字符级别的神经中文依存分析器。

实验显示字符级 POS 标签和依存标签对解析性能起着重要的作用。另外在主分析指标方面,神经字符依存分析要比无神经网络的分析器更有效。

(感谢赵海教授指正)

[14] A Neural Transition-Based Approach for Semantic Dependency Graph Parsing

作者:王宇轩,车万翔,郭江,刘挺

单位:哈尔滨工业大学

随后由来自哈工大 SCIR 的王宇轩博士分享了他们在语义依存图上的研究工作。

语义依存图是近年来提出的对树结构句法或语义表示的扩展,它与树结构的主要区别是允许一些词拥有多个父节点,从而使其成为有向无环图 (directed acyclic graph,DAG)。因此要获得句子的语义依存图,就需要对这种 DAG 进行分析。目前大多数工作集中于研究浅层依存树结构,少有人研究如何对 DAG 进行分析。

这篇文章提出一种基于转移的分析器,使用 list-based arc-eager 算法的变体对依存图进行分析。

[15] Asynchronous Bidirectional Decoding for Neural Machine Translation

作者:张祥文,苏劲松,秦悦,刘洋,纪荣嵘,王鸿吉

单位:厦门大学

来自厦门大学的张祥文介绍了他们在机器翻译中一项有趣的工作。

传统的机器翻译中都是按照单向顺序编码。这种方法的一个缺点就是,一旦中间出现翻译错误,随后的内容就会出现很大的差错。本文作者提出了一种双向编码的新思路。


实验结果相较之前的方法有显著提升。但是这种效果的提升是以消耗计算量为代价的。Poster 环节中,张祥文也表示他们也曾考虑过跳序编码的方法。

[16] Knowledge Graph Embedding with Iterative Guidance from Soft Rules

作者:郭舒,王泉,王丽宏,王斌,郭莉

单位:中国科学院信息工程研究所

随后由来自中科院信息工程研究所的王泉副研究员报告了他们在知识图谱表示学习方面的研究。

学习知识图谱在低维向量空间中的分布式表示是当前研究的热点。最近,将分布式知识表示与传统符号逻辑相结合引起了越来越多的关注。但是,以往的大多数尝试采用一次性注入逻辑规则的方式,忽略了分布式知识表示学习和逻辑推理之间的交互性。此外,以往的方法只专注于处理硬规则,即那些总是成立、不能被违反的规则。这类规则通常需要耗费大量的人力来编写或验证。

本文作者提出了一种新的知识图谱分布式表示学习方法——规则引导嵌入(rule-guided embedding,简记为 RUGE),借助软规则的迭代引导完成知识图谱表示学习。所谓软规则,是那些不总是成立、带置信度的规则。这类规则可以经由算法从知识图谱中自动抽取。




具体来说,RUGE 同时利用标注三元组、未标注三元组、自动抽取出的软规则这三种资源以迭代的方式进行知识图谱表示学习。每一轮迭代在软标签预测和表示修正这两个步骤间交替进行。前者利用当前学到的表示和软规则为未标注三元组预测软标签;后者进一步利用标注三元组(硬标签)和未标注三元组(软标签)对当前表示进行修正。通过这个迭代过程,RUGE 可以成功建模分布式知识表示学习和逻辑推理二者间的交互性,逻辑规则中蕴含的丰富知识也能被更好地传递到所学习的分布式表示中。

(感谢王泉副研究员指正!)

[17] Embedding of Hierarchically Typed Knowledge Bases(孔繁爽,北航)

作者:张日崇,孔繁爽,王晨玥,茆永轶

单位:北京航空航天大学

孔繁爽是来自北京航空航天大学的硕士生。她在报告中介绍了他们在 embedding 过程中考虑实体类型的研究工作。

Embedding 已经成为基于知识库和各种嵌入模型的预测、推理、数据挖掘和信息检索的重要手段。但是大多数模型都是「无类型的」,也即将知识库仅仅视为一个实例集合,而不考虑实体的类型。


在这篇文章中,作者研究了实体类型信息在知识库 embedding 中的应用。他们提出了一个框架,将一个通用的「无类型」嵌入模型添加到一个「有类型」嵌入模型中。这个框架将实体类型解释为对所有实体集合的一个约束,并使这些类型约束在嵌入空间中同构地引入一组子集。然后引入额外的 cost 函数来模拟这些约束与实体和关系的嵌入之间的适应性。

(感谢孔繁爽指正!)

[18] Faithful to the Original: Fact-Aware Neural Abstractive Summarization

作者:曹自强,韦福如,李文婕,李素建

单位:香港理工大学

来自香港理工大学的曹自强博士在随后的报告中提出,生成摘要不仅要保持信息充分,更重要的是信息的忠实性。

与抽取摘要不同,生成式摘要在融合原文本的过程中往往会创造出虚假的事实。曹自强在报告中介绍,目前有近 30% 的最先进的神经系统都会受到这种问题的困扰。以前生成式摘要主要着眼于信息性的提高,但作者认为忠实性(也即「信」)是生成摘要的前提,非常重要。


为了避免在生成摘要中产生虚假事实,作者使用了开放的信息抽取和依存分析技术从源文本中提取实际的事实描述,然后提出 dual-attention sequence-to-sequence 框架来强制以原文本和提取的事实描述为条件的生成。实验表明,他们的方法可以减少 80% 的虚假事实。

(感谢曹自强博士指正!)

[19] Twitter Summarization based on Social Network and Sparse Reconstruction

作者:贺瑞芳,段兴义

单位:天津大学

来自天津大学的贺瑞芳副教授介绍了她们基于社交网络和稀疏重构的 Twitter 摘要研究工作。

随着 Twitter 等微博服务的快速增长,数百万用户产生了大量短小而嘈杂的信息,使得人们很难快速掌握自己感兴趣话题的概要信息。作者通过 Twitter summarization 来尝试这个问题的解决,即从大量 Twitter 文本中提取摘要信息。

传统摘要方法一般只考虑文本信息,现有推特摘要方法考虑了社会媒体的用户级静态特性,但却忽视了推文之间的社交关系。受社会学理论的启发(在社会网络中有表达一致性和表达传染性),作者提出了一种新的称之为 Twitter Summarization based on Social Network and Sparse Reconstruction(SNSR)的微博摘要方法,这种方法能够用于社交媒体情景中大规模、短小和嘈杂的文本上,采用稀疏重构进行推理。

作者在文章中将推文之间的关系建模为社会正则,将其整合到组稀疏优化的微博摘要框架之中,并设计了多样性正则来消除社交网络带来的强冗余信息。

由于缺乏公共语料库,作者构建了 12 个不同话题的标准 Twitter 摘要数据集。在这个数据集上的实验结果表明,这个框架在处理社交媒体中大规模、短小及嘈杂消息的有效性。

(感谢贺瑞芳副教授指正!)


Session 4(6场报告)

主持人:丁效副教授,哈尔滨工业大学

[20] Improving Review Representations with User Attention and Product Attention for Sentiment Classification

作者:吴震 ,戴新宇,尹存燕,黄书剑,陈家骏

单位:南京大学

来自南京大学的吴震在 Session 4 环节介绍了他们在文档级别情感分类方面的研究工作。

在网络平台上有大量由用户写的文档类型的评价,其中有些是表达用户情感的,有些则是对产品本身的评价。如何根据这些评价信息推断出用户的情感表达是一个非常有意思的工作。

在这方面,唐都钰等人(2015)在 CNN 网络的基础上添加了用户和产品的偏置矩阵和表示矩阵来表示这些信息;陈慧敏等人(2016)在层次网络中融入用户和产品的这些信息。这两个研究都获得了很好的提升。

作者注意到,评论文本中有些词表现出很强的用户喜好,而有些词则倾向于评价产品特点。其中观点(理性评价)与产品更相关,而情绪(感性评价)则与用户喜好关系更紧密。在此基础上,作者提出了一个对称的网络模型:

在这个网络中,左边用来抽取用户喜好的感性评价,右边用来抽取产品评价的理性评价。此外为了综合两种视角,作者补充了一个组合策略。整体来看,损失函数表示为

其中三个参数可以调整以观看不同的效果。其实验表明,这种模型要比目前 state-of-art 的一些模型有更好的效果。

[21] Chinese LIWC Lexicon Expansion via Hierarchical Classification of Word Embeddings with Sememe Attention

作者:曾祥楷,杨成,涂存超,刘知远,孙茂松

单位:清华大学

来自清华大学孙茂松组的杨成博士报告了他们在中文语言查询和字数统计(LIWC)词义扩展的研究工作。

LIWC是一个字数统计软件工具,已被用于许多领域的定量文本分析之中。由于其成功和普及,核心词典已被翻译成中文和许多其他语言。然而,其中的词典只包含数千个单词,与汉语常用单词的数量相比是远远不足的。目前的方法通常需要手动扩展词典,但是这往往需要太多时间,并且需要语言专家来扩展词典。

为了解决这个问题,作者提出了自动扩展 LIWC 词典的方法。具体而言,作者认为这个问题是一个层次分类的问题,并利用 seq2seq 模型来给词典中的单词分类。另外,作者还使用关注机制的义元信息来捕捉一个词的确切含义,以便可以扩展一个更精确、更全面的词典。

(感谢杨成博士指正!)

[22] Learning Structured Representation for Text Classification via Reinforcement Learning

作者:张天扬,黄民烈,赵立

单位:清华大学

随后杨成博士代表黄民烈副教授介绍了他们在学习文本分类的结构表示方面的研究内容。

表征学习是自然语言处理中的一个基本问题。这篇文章研究如何学习文本分类的结构化表示。

与大多数既不使用结构也不依赖于预定义结构的现有表示模型不同,作者提出了一种强化学习(RL)方法,通过自动地优化结构来学习句子表示。

作者在文章中提出两种结构表示模型:Information Distilled LSTM (ID-LSTM) 和 Hierarchically Structured LSTM (HS-LSTM)。其中 ID-LSTM 只选择重要的任务相关的单词,HS-LSTM 则去发现句子中的短语结构。两种表示模型中的结构发现被表述为一个顺序决策问题,结构发现的当前决策影响随后的决策,这可以通过策略梯度 RL 来解决。

结果表明,这种方法可以通过识别重要的词或任务相关的结构而无需明确的结构注释来学习任务友好的表示,从而获得有竞争力的表现。

[23] Assertion-based QA with Question-Aware Open Information Extraction

作者:闫昭,唐都钰,段楠,刘树杰,王文迪,姜大昕,周明,李舟军

单位:微软亚洲研究院

接下来由哈工大的冯骁骋博士代替微软亚洲研究院的唐都钰博士,介绍了他们在自动问答方面的研究工作。

在这项工作中,作者提出了一个基于断言的问答任务(Assertion-based QA),这是一个开放的领域问题问答任务。在搜索引擎中,用户提出问题后,引擎会反馈回一个相关的段落作为响应。但是这并不利于用户快速得到想要的信息。为了简化引擎反馈信息,作者提出将问题和段落作为输入,输出包含主、谓、宾三元组表示的断言的 ABQA 问题。


为了解决这个问题,作者构建了一个名为 WebAssertions 的数据集,其中包括 55960 个(question,passage)和 358427 个(question,passage,assertion)。


随后为了从段落中提取出断言,作者开发了提取式和生成式两种方法。实验结果表明,这两种方法都能够较好地直接从段落中给出问题的具体答案,并包含部分支撑信息。(文中断言泛指三元组)

(感谢冯晓骋博士指正!)

[24] End-to-End quantum language models with Application to Question
 Answering

作者:张鹏,牛嘉斌,苏展,王本友,马力群,宋大为

单位:天津大学

来自天津大学的苏展做了一场极为有意思的报告,他们的工作是通过借鉴量子统计物理中的方法来表示语言模型,并用于语问答任务。

语言建模(LM)是自然语言处理领域的基础研究课题。最近(Sordoni,Nie 和 Bengio 2013)利用量子统计物理中的数学形式,提出了量子语言模型(Quantum Language Model,QLM)。具体来说就是,QLM 借鉴了量子力学中密度矩阵的概念,将 single term 和 term dependency 的概率不确定性 encoding 到密度矩阵中,且与传统 n-gram 模型相比,量子语言模型在表示 n 阶 dependency 时不会增加参数规模。

这种方法在理论上是非常重要的,因为它是首次用量子理论的公式来推广 LM。但是其也有一些限制:1)QLM 中每个词的表示是一个 one-hot 向量,它只能编码 local 事件,而不能考虑全局语义信息;2)QLM 通过密度矩阵表示文本(例如 query, document),它通过迭代求解而非解析求解,因此在端到端的设计中很难更新和优化密度矩阵;3)QLM 中密度矩阵的表示、训练和匹配,这三个步骤无法共同优化,限制了 QLM 的适用性。

针对这些问题,这篇文章首次将词向量作为单个词的状态向量,单个词表示一个纯态系统,整个句子就可以对应于由密度矩阵表示的混合态系统。这样就可以在没有迭代估计的情况下导出密度矩阵,密度矩阵表示也可以被集成到神经网络结构中并通过反向传播算法自动更新。


基于这种思想,作者提出了一种端到端的模型(即基于神经网络的类量子语言模型(NNQLM)),并设计了两种不同的体系结构。

迹内积 (Trace Inner Product) 可表示两个量子系统的相似度。在问答任务中,Question (Q) 和 Answer (A) 所对应的两个密度矩阵的乘积可作为 Q 和 A 的联合表示,其联合表示的迹(即迹内积)可计算 Q 和 A 的相似度,每个对角线元素表示各个潜在语义子空间的相似度。

作者将这个模型用在经典的 QA 任务中,即答案选择(从预选的候选答案中找出正确的答案)。实验结果表明,NNQLM 在 WIKI 数据集上显著提升了 QLM 的效果,并在 TREC-QA 数据集接近了 state-of-art 的结果。

目前,量子力学和神经网络的交叉领域已经衍生出量子机器学习和量子人工智能等新兴研究方向,已有相关重要论文发表在 Science 等高水平期刊。该论文以语言模型为切入点,对量子力学和神经网络这一交叉领域进行研究,并在自然语言处理领域的问答任务中实现了端到端训练的类量子语言模型,扩展了量子语言模型的理论和应用。

(感谢苏展指正!)

[25] EMD Metric Learning(张子昭,清华)

作者:张子昭,张宇博,赵曦滨,高跃

单位:清华大学

最后来自清华的本科生张子昭做了本次预讲会的最后一个报告,报告内容为对 EMD 度量的一个优化工作。

Earth Mover's Distance (EMD) 是 2000 年 IJCV 期刊文章《The Earth Mover's Distance as a Metric for Image Retrieval》提出的一种多维分布相似度量方法,被广泛应用于计算机视觉等任务当中。所谓 EMD,是传统运输问题的最优解问题,简单来说就是给定两个 signature(P 和 Q),把一个变成另一个所需要的最小工作量。EMD 越小,实体之间就越相似。

EMD 求解公式为

目前大多数设计 EMD 的工作都集中在 EMD 的加速和应用上,很少有工作对 EMD 进行优化。为了解决这样的问题,这篇文章提出了一个 EMD 度量学习的算法。

从上面的公式可以看出 ground distance matrix D 对 EMD 有很大影响。所以要想优化 EMD,那么就去优化 D。从另一方面 D 又由相应的度量 A 来决定,因此可以通过优化 Ground Distance Metric A 来优化 EMD。

其方法是从训练数据中选择出一个子集,对这些数据进行采样,得到一些三元组来减少整个方法的计算量;随后构建一个目标函数,通过交替优化模型,最后得到一个稳定的度量 A。

在实验部分,作者将这种方法应用于多视角对象分类和文档分类当中。实验结果表明,与传统的 EMD 方法和最新的方法相比,他们提出的 EMD 度量学习方法具有更好的性能。此外,这种 EMD 度量学习方法也可以应用于其他领域。

(感谢张子昭指正!)



来源:知乎 www.zhihu.com
作者:AI科技评论

【知乎日报】千万用户的选择,做朋友圈里的新鲜事分享大牛。 点击下载

此问题还有 4 个回答,查看全部。
延伸阅读:
真正喜欢做一件事,或者确信对某一件事有兴趣,是一种怎样的体验?
高频交易和统计/机器学习套利模型,哪个技术含量高?

没有评论:

发表评论