谷歌开源文本生成新方法LaserTagger直击seq2seq效率低、推理慢、控制差三大缺陷!

雷锋网 AI 开发者按:目前,在序列到序列( seq2seq )的自然语言生成任务中,主流预训练模型仍然面临一些重大缺陷,例如:生成输出与输入文本之间长度匹配问题、需要大量训练数据才能实现较高性能、推断速度慢等。

因此,Google 提出了一种新型的文本生成模型 LaserTagger,该模型旨在解决 seq2seq 模型运行过程中的上述缺陷,可以预测将将源文本转换为目标文本的一系列生成操作。Google 发布了相关文章介绍了这一开源文本生成模型,雷锋网 AI 开发者内容整理编译如下。

另外,学习英语,不要企图用任何投机取巧来代替你应该具备的基础词汇量,所以,同学们在家的时间要多记忆高频词汇和高中必备词汇,有一定的词汇量再加上一定的答题技巧,就会为我们保证做题时间,提升做题质量。同时,考生要关注细节本身,关注语言本身,这一点在这次适应性测试的完形填空题型中有非常好的体现。语言表达能力也很重要,要把自己的所知所感用语言表达出来。

在所有任务 中,LaserTagger 的性能与使⽤⼤量训练示例的基于 BERT 的强⼤seq2seq 基线相当;并且在训练示例数量有限时,其结果明显优于该基线。

从难度上来看,这次英语测试的难度系数预计在0.7左右。另外,考生需重点关注大小作文。

免责声明:文章仅代表作者观点,不构成任何投资建议。投资者据此操作,风险自担。

序列到序列(seq2seq,https://en.wikipedia.org/wiki/Seq2seq)模型最初由软件⼯程师 Eric Malmi 和 Sebastian Krause 开发,这一模型一经推出后,为机器翻译领域带来了巨大的技术革新,并成为了各种⽂本⽣成任务(如摘要生成、句⼦融合和语法错误纠正)的主流模型。

最后,顺应我国金融市场对外开放的潮流,进一步放开国债期货准入限制进一步与国际接轨。同时也可以吸引更多的外资流入国内市场中来。2010年股指期货的推出,带动了券商深度参与期货市场,并引发了我国期货市场的第一次扩容。此次允许商业银行和保险机构参与国债期货,他认为在一定程度上也将带来期货市场更大规模的扩容。

可控性强 通过控制输出短语词汇(也可以⼿动编辑或整理),LaserTagger ⽐ seq2seq 基线模型不易产⽣幻觉。 推理速度快 LaserTagger 计算预测的速度⽐seq2seq 基线模型快 100 倍,使其适⽤于实时应⽤。 数据效率高 即使仅使⽤⼏百或⼏千个训练示例进⾏训练,LaserTagger 也可以产⽣合理的输出。在实验中,seq2seq 基线模型需要成千上万个示例才能获得可比拟的性能。

国内俱乐部人员特别是球员、教练员要不要减薪?中国足协的确很难做出答复。首先,和发达欧洲职业联赛从业者的劳动权益受各种足球组织及成熟行业与社会保障制度保护不同,国内职业联赛从业者的薪酬发放问题带有比较单一的“俱乐部说了算”色彩。举例来说,在珀斯光荣对本俱乐部人员大幅减薪后,澳大利亚球员工会决定起诉该俱乐部替俱乐部人员维权,但中国足坛没有类似“球员工会”组织帮球员维权。中国足协作为行业管理机构参与制定联赛竞赛规则及必要的监督,中超公司负责中超联赛整体经营。而不负责俱乐部具体人员的薪酬发放。

此外,通过引入银行和保险机构,也可以反过来提高国债期货的定价能力。商业银行持有国债现券的规模通常超过国债存量的60%,而经过接近7年的发展,国债期货运行平稳,整体表现较为成熟,可以承载银行与保险机构资金入市,银行和保险资金的加入将有利于国债期货的价格发现功能得到更充分地发挥,期货市场服务国民经济的能力也必将提到显著提升。

其中添加到⽬标⽂本的唯⼀必要单词仅来⾃词汇表,短语词汇量受限制会使输出决策的空间变⼩,并防⽌模型添加任意词,从⽽减轻了「幻觉」问题。

俱乐部投入锐减 各方“减薪”易产生默契

今日下午,2020年高考适应性英语测试结束。作为从上学期期末考试到现在唯一一次正式统考,本次测试释放了哪些新高考信息,以及对新高考英语备考有什么指导性作用?新浪全国五星金牌教师、精华学校鼎级班英语教研组长刘颖第一时间对本次英语测试进行解析。

中超是否减薪 俱乐部把“球”踢给足协?

下图说明了此过程,该图显示了 LaserTagger 在句⼦融合中的应⽤:

根据实验结果,研究人员将 LaserTagger 与传统的 seq2seq⽅法相⽐,总结出该新型模型具有以下优点: 

2020年高考英语的主题语境没有变化,还是人与自我、人与自然、人与社会之间的关系,这三点将侧重体现在完形填空、记叙文阅读和写作中。另外,新高考对英语词汇量要求没有太大变化。

(1)最⼩化词汇表的⼤⼩;

回望中国足坛摸索职业联赛发展的历程,不难发现,虽然早年业内亦没有成立“职业联盟”,但中国足协对于联赛重大问题的决策及决策执行曾推出比较严格的规定,并先后设立了诸如中超联赛委员会、中甲联赛委员会、职业联赛理事会等议事决策机构。而如今类似机构已不复存在,“联盟”又尚未挂牌成立,于是在处理各类联赛疑难问题上,无论足协还是俱乐部都遭遇“真空地带”。

其次,银行与险资是利率债现券市场的主要参与人,国债期货准入限制的不断放开可以优化市场的投资者结构,促进债券期现货市场的投资者主体匹配。不同投资群体具有不同的资金成本、期限特征和风险偏好,投资群体的丰富可以实现交易需求互补,增强市场的深度,国债期货的相关交易策略也可以得到更好的运用。

解读专家:新浪全国五星金牌教师、精华学校鼎级班英语教研组长刘颖

当在 100 万个示例的完整数据集上训练模型时,LaserTagger 和基于 BERT 的 seq2seq 基线模型均具有可⽐的性能,但是在 10,000 个或更少示例的⼦样本上进⾏训练时,LaserTagger 明显优于基线模型(SARI 得分越⾼越好)

新浪全国五星金牌教师、精华学校鼎级班英语教研组长刘颖认为,和高三上学期期中考试、期末考试对比,本次高考适应性测试英语试卷的变化性较小,考察点、试卷结构、题型都没有太大变化。题型仍为语法填空、完形填空、阅读、7选5和写作。

文本生成神经网络架构发展;其中,BERT是深双向的,OpenAI GPT是单向的,ELMo是浅双向的

中国职业足坛目前虽没有照搬“欧足联财政公平法案”,但中国足协近年来在规范联赛财务及治理职业俱乐部经营环境上还是付出了巨大努力,在规则制定方面也逐步向国际先进区域靠拢。比如2018年12月20日在上海举行的当季中超、中甲联赛总结会上,对三级职业联赛俱乐部从2019至2021赛季的单季总投入额度、投资方注册额度、俱乐部亏损额度都设定了比较明确的数字。此外,对各级俱乐部单季薪酬发放额度所占总投入的比率也作了具体约定。如2020赛季中超俱乐部(含一线外援、国内球员、预备队球员)薪酬比例不得超过总投入的60%。那么从这个角度来说,“减薪”与联赛环境治理方向一致,同时也满足俱乐部减负之需。

雷锋网(公众号:雷锋网) AI 开发者

输⼊和输出⽂本的⾼重叠特性也可以得到⼀个推论,即:所需的修改往往是局部的并且彼此独⽴。这意味着编辑操作可以⾼精度地并⾏进⾏预测,与顺序执⾏预测的⾃回归 seq2seq 模型相⽐,可以显着提⾼端到端的速度。

这次英语适应性测试对即将到来的新高考英语和考生复习备考带来哪些启示? 刘颖表示,2020年高考英语没有《考试说明》等指导性文件,其命题依据及指导标准是《普通高中2017年英语学科教学指导意见》以及 《普通高考英语课程标准2017版》。今年高考英语的命题理念是以情景任务为重要依托,以语言能力为主要推动力,以学以致用为直接导向,以核心素养为终极目标。

全球掀“减薪风暴” 亚洲足坛紧跟节奏

建议考生在复习时夯实基础,逐个击破,从弱项开始解决问题。抓语言能力,强化语言理解能力,即对考题中所给出的文章有自己的理解,能与作者保持思想对路;提升语言表达能力,不光能理解考题及材料,还要能用语言把自己的理解更好地表达出。

雷锋网原创文章,。详情见转载须知。

足协“接球”也犯难 决策遭遇“真空地带”

对于商业银行和保险机构而言,罗旭峰指出,国债期货将有效满足商业银行和保险机构的避险需求。就保险机构而言,当市场有回调风险时,保险资金可以通过国债期货来开展套期保值或调整久期,通过较低的成本来降低损失,增强保险资金资产管理的稳定性;就商业银行来说,因包销等因素持有债券,需要国债期货来对冲利率风险。而在一些现券价格波动较大时,银行可以通过国债期货套期保值来规避风险,降低资产管理成本,提高其资产和负债管理能力。

小作文的题目是要求考生写参加“学农”活动的感受,并把参加活动的信息与参加活动之后的感受表达出来。估计有考生会有印象,2019年高考英语情景作文考察了“劳动最光荣”的主题,讲的是到郊区去摘西瓜。这道题也是“学农”,体现了“劳动精神”。这提醒考生,往年考过的内容是非常宝贵的复习资料,考生要学会通过出题方式来找未来考试的出题方向。

因此,LaserTagger 会产⽣⼀系列的编辑操作,⽽不是实际的单词。我们使⽤的四种编辑操作类型是: Keep(将单词复制到输出中),Delete(删除单词)和 Keep-AddX / Delete-AddX(添加短语 X)标注的单词之前,并可以选择删除标注的单词)。

由此可见,LaserTagger 的优势在⼤规模应⽤时变得更加明显。研究人员表示:通过减少响应的⻓度并减少重复性可以用于改进某些服务中语⾳应答格式。

还有一点影响国内俱乐部“减薪”问题,那就是在国内职业足坛经历多年摸索与沉淀后,俱乐部特别是中超俱乐部从最近两个赛季开始,投入渐趋理性。一位俱乐部投资人代表对北京青年报记者透露,在去年底、今年初沟通过程中,多家中超俱乐部投资人都表达了“缩减投入”的想法。而由于“职业联盟”迟迟未能推出,部分投资人对于未来联赛前景充满了不确定性,在这种情况下,他们甚至产生了“不求有功但求无过”的经营想法。今年国内职业足坛转会市场的相对冷清,以及标王身价呈大幅度缩水的现实就是上述想法很好的佐证。这位俱乐部负责人说,“我感觉今年国内转会市场已经回到了大概10年前的样子。对于一些经营上有资金压力的俱乐部来说,‘减薪’符合他们的利益诉求,他们需要找到一个合理‘出口’去落实这个想法。”

疫情对亚洲足坛的打击同样明显。亚足联3月初出台的一份评估报告显示,仅亚冠联赛小组赛及中、日、韩三国联赛的推延,造成的直接经济损失就不少于9亿美元。而随着疫情延续发展,这一数字还会被不断改写。亚足联各会员协会国(地区)及其联赛既然短期内“开源”无门,也只能主动“节流”,管理机构及俱乐部的减薪成为必然。比如韩国足协3月26日就已经宣布部门及以上级别高管自动减薪20%,直到今年底。一天后,澳大利亚足协也宣布,其七成员工回家待岗。韩国足协在40强赛暂停进行后,面临了和澳大利亚足协同样的经济困境。3月30日,泰国足协也宣布减薪,就连泰国队日本籍主帅西野朗也减薪五成。越南足协同样计划削减其国家队教练组人员的薪酬。

3月6日20时至3月7日20时,甘肃本地无新增病例。截止3月7日20时,甘肃本地累计报告新冠肺炎确诊病例91例,累计治愈出院87例,累计死亡病例2例。现有2例在定点医院进行隔离治疗,其中兰州市1例、定西市1例。甘肃本地目前无疑似病例。目前,甘肃本地累计追踪到密切接触者4337人,已解除医学观察4266人,其余71人正在接受医学观察。

和欧洲及亚洲其他国家(地区)足坛一样,中国足坛受疫情影响遭受的经济损失直接而巨大。没有比赛的日子里,各级国内足球俱乐部在财政方面入不敷出,关于“减薪”的呼声于是渐渐在国内足坛响亮起来。在此之前,中国足协一直没有就此问题作出公开回应。一方面,国际足联虽对足球界“减薪”表达了一定观点,但发声仅限于“建议或意见”层面,并不具备严格的强制力或约束力。在由球员与俱乐部构成的足坛劳资关系中,其薪酬发放问题的责任主体不是各会员协会而是俱乐部。

“批准银行和保险机构入市,对于期货公司和期货市场具有重大而深远的影响”罗旭峰表示。首先,银行与保险公司持有利率债的体量巨大,加入后可以极大程度上提升国债期货的流动性,增加各类债券通过国债期货设计利率类产品的可能性,增强国债期货的定价能力。

疫情持续发展背景下,球员减薪在足球界已形成全球性话题。截止到4月初,全球已有多个国家(地区)联赛俱乐部推出了人员减薪措施。在各大洲中,欧洲足球技术水平及职业化程度最发达,在“减薪”方面迈的步子也最大。从瑞士锡永俱乐部主席直接解雇9名不愿接受降薪球员开始,“减薪风暴”在全欧洲足坛范围内迅速掀起。在他们当中,来自意甲的尤文图斯、德甲的拜仁、西甲的巴塞罗那、马德里竞技均旗帜鲜明地竖起“减薪”大旗。拥有C罗的“老妇人”甚至决定停发全员3月至6月的4个月薪水。巴塞罗那一线球员也“放弃”接受“ERTE(临时就业条例)”的保护,同意在疫情期间减薪70%且不会在疫情结束后追讨此部分薪酬的方案,并同意额外拿出2%的薪水,确保俱乐部其他人员正常酬劳的发放。

研究人员在实验中对 LaserTagger 实现的四个文本生成任务进行了评估,四个任务分别为:句⼦融合、拆分和改述、抽象总结和语法纠正。

说到欧洲主流联赛大量俱乐部加入“球员减薪”阵营,就不得不提到于2013/2014赛季正式实施的《欧足联财政公平法案(FFP)》。欧足联制定该法案,旨在规范各俱乐部的财政行为,控制俱乐部财政赤字,并对违反规定的球队予以处罚。2014年5月17日,欧足联宣布,英超曼城及法甲巴黎圣日耳曼因违反该法案有关收支平衡的规定被重罚6000万欧元,两队同时被要求降低工资标准、限制单笔交易最大额。从该法案落实情况看,欧洲足坛打击“俱乐部非理性消费”的力度与决心都很大。于是不难理解,当下各欧洲豪门俱乐部在收入锐减情况下大幅降低球员薪资的用意。

球员受聘于俱乐部,亦是企业的一员,其工资发放标准严格来说不该由足协来定。那么中国足协即便就减薪问题提出意见,也只能带有“建议性或指导性”。

LaserTagger 适⽤于句⼦融合。预测的编辑操作对应于删除「.Turing」,然后替换为「and he」,注意输⼊和输出⽂本之间的⾼度重叠

下图显示了 WikiSplit 数据集上的结果,其具体任务是将⼀个⻓句⼦改写为两个连贯的短句⼦:

大作文写的是“学生讲坛”,整体场景对考生们来说并不陌生,所以提醒大家要通过对往常的学习来进行高频场景总结,这么做是非常有必要的。

这次测试的难度上比期末考试小一些,但是很多细节的地方需要大家重点关注。因为对于细节的把控,容易对学生进行区分,不同学生在语言运用及语言理解方面能关注到的细节不一样。比如说,考生在做完形填空题时,虽然整篇难度不大,就是跟“看雪”这件事有关系,但是考察的是英语基础词汇原本的英文释义,所以这需要考生重点了解和把握。

但根据实际使用情况,将 seq2seq 模型⽤于⽂本⽣成也有一些实质性的缺陷,例如:⽣成输⼊⽂本不⽀持的输出(称为幻觉,hallucination)、需要⼤量的训练数据才能到达很好的效果;此外,seq2seq 模型通常需要逐字⽣成输出,因此其推断时间较长。

而较⾼的推理速度使该模型可以插⼊现有技术堆栈中,并且不会在⽤户端增加任何明显的延迟;除此之外,改进的数据效率可以收集多种语⾔的训练数据,从⽽使来⾃不同语⾔背景的⽤户受益。

按照计划,中超公司将于本周四举行董事会议、股东会议,而利用这样难得的线上聚首之机,俱乐部想必也会对“减薪”问题敞开心扉。不过,中国足协回答此类问题要谨言慎行,合理把握“意见”与“规定”之间的度。文/本报记者 肖赧 统筹/杜锐

针对银行和保险机构获准参与国债期货交易,罗旭峰认为,国债期货作为一种利率衍生品工具,它具有可以主动规避利率风险、价格发现、促进国债发行和优化资产配置等功能。可以用较低的交易成本来规避利率风险,这是国债期货最吸引商业银行和保险机构的功能。同时,银行和保险机构可以利用国债期货的低保证金水平和高流动性来调整组合久期、实现资产管理目标。

所有添加的短语均来⾃受限制的词汇表。该词汇表是⼀个优化过程的结果,该优化过程具有两个⽬标:

许多⽂本⽣成任务的显着特征是输⼊和输出之间经常存在⾼度重叠。例如:在检测和纠正语法错误、或者是在融合句⼦时,⼤多数输⼊⽂本可以保持不变,并且仅⼀⼩部分单词需要修改。

和2019年高考相比,2020年高考的试卷结构和难度保持稳定。考生要注意的是,今年命题要求和命题理念与往年高考有些不一样,且略有提高,会更多地体现在阅读板块上,这就要求学生们有更好的阅读能力,能在有限的时间内阅读更多英文。

(2)最⼤化训练示例的数量;

另一方面,和欧洲、亚洲俱乐部情况不同,虽然国内各项正式足球赛事也处于停摆,但教练员、球员及俱乐部其他工作人员并没有停止工作。相关业内人士分析,球员在疫情警报没有完全解除的情况下,坚持训练,足协及有关方面也提出“春季大练兵”的具体要求,那么如何给球员减薪?俱乐部很难开口。他们受资金运营压力所致希望减薪,也需要找到一个合适的“出口”来落实具体措施。于是不难理解他们向中国足协“索求”减薪指导意见的举动。

该模型的核心思想在于:不从头开始⽣成输出⽂本,⽽是通过使⽤预测的编辑操作标注单词来⽣成输出;然后在单独的实现步骤中将这些单词应⽤于输⼊单词。这是处理⽂本⽣成的⼀种不太容易出错的⽅法,而且它可以通过更易于训练和更快执⾏的模型架构来处理文本。