博狗游戏平台活动
明朝版“今日头条”这个北航校友的开源AI脑洞很
发布人: 博狗游戏平台活动 来源: 博狗游戏平台官网 发布时间: 2021-02-01 18:29

  小本生意免税条约未能落实,小商贩被严重剥削,以致百姓聚众并火烧衙门,造成多人伤亡。王炀 抢救出公章。

  这些明朝的“一句话”新闻,都是一个名叫HistSumm的AI算法,根据文言文提炼出来的摘要。

  生成文本摘要的NLP见得多了,古汉语摘要总结还是第一次。这项研究来自就读于英国谢菲尔德大学的北航校友,以及北航计算机系的团队,和英国大学。

  《万历邸抄》,是明万历年间的“今日头条”,自当时的“邸报”。内容包括诏谕、民生百态、军事外交等等。

  对于像中文这样的表意语言,基于笔画(类似于字母语言的单词信息)训练的词嵌入是实现最佳性能的途径。因此团队利用笔画信息来提取汉字的特征向量。

  此外,还有一点很重要。与简化字(在训练资源中占主导)相比,繁体字通常有更丰富的笔画,例如,“葉”字,包含艹(植物)和木(木)的语义相关成分,而它的简化版本(叶)则没有。

  繁体字的这些特性,有利于基于笔画的嵌入方式。所以为了提高模型的性能,团队还对繁体化的汉字进行了额外的实验。

  对于特征向量,主要采取两种引导策略:完全无监督(UspMap)的方式和相同词汇对(IdMap)方式。

  团队直接将编码器的嵌入权重替换为向量空间中的古汉语特征向量,得到一个新的模型。这个模型可以用古汉语输入,但输出现代汉语句子,并且整个过程不需要任何外部并行监督。

  简单的总结一下,团队让模型能理解古文的关键,是在特征向量空间中,建立互相联系的古汉语-现代汉语词汇对。然后再用现代汉语数据训练模型,之后替换掉对应的特征向量。

  本研究的第一作者Xutan Peng,目前是英国谢菲尔德大学在读博士生,研究方向是自然语言处。

博狗游戏平台,博狗游戏平台官网,博狗游戏平台活动