破译「罗塞塔石碑」要几十年?华裔MIT博士开发新系统,快速解密「死语言」

原创 PC4f5X  2020-10-22 23:21 

要说大英博物馆里最出名的文物,罗塞塔石碑(Rosetta Stone)绝对名列前三。它矗立在橱窗里,古老、神秘,沉默不语,但身上密密麻麻的字,却记载着古埃及的历史。

当时拿破仑的部队远征埃及,有人在尼罗河附近发现了这块石碑,上面刻有3种文字,1种是古希腊语,记录了年幼的托勒密五世登基成为法老一周年。

但另外2种看不懂,连拿破仑都想方设法破译上面的文字。

之后,一个叫商博良的「语言天才」历时约20年,终于破译了上面的其他文字。原来,这三种语言写的是同一件事。

如果商博良出生在现代,也许他20年的钻研NLP很快就能解决。

MIT新研究:无需「裙带关系」,就能破译语言

时至今日,世界上至少有12种语言仍未被破译。破译失传语言,很多时候要靠它和其他语言的关系。

商博良能破译象形文字,也是靠着他会多门语言的天赋。

麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员声称,已开发出一种系统,该系统可以在不知道丢失的语言与其他语言的关系的情况下,对其进行解密。

而且他们还表明,他们的系统本身可以确定语言之间的关系,并用它来证实最近的学术研究——伊比利亚语言与巴斯克语确实无关。

巴斯克语

是一种使用于巴斯克地区(西班牙东北部的巴斯克和纳瓦拉两个自治州,以及法国西南部)的孤立语言。

作为西欧唯一的孤立语言巴斯克语与现存语言是否有关争议很大

伊比利亚语

伊比利亚语是一个土生土长的西欧人的语言,经希腊和罗马资料证实,他们在前移民时代(约公元前375年)居住在伊比利亚半岛的东部和东南部地区。

破译「死语言」的两个难点

大多数未被破译的失传语言都有两个特点,这对破译工作构成了重大挑战:

(1)分割不够细致,没有被完全分割成「字符」

(2)不知道「近亲」是哪种,尚未确定最接近的已知语言

为此,MIT的研究人员创立了译码模型。通过学习基于国际音标(IPA)的字符嵌入来获取答案。

该项目建立在作者去年写的一篇论文基础上,该论文解密了乌加里特文(Ugaritic)和线性语言B,后者需要数十年的时间才能被人类解码。

在这个项目里,这两种语言都已知与与希伯来语和希腊语的早期形式有关。

这次作者挑战的是语言间的未知关系。

通过学习基于国际音标(IPA)的字符嵌入来获取答案

该算法学习将语音嵌入到一个多维空间中,语音的差异通过对应向量之间的距离反映出来。这种设计使他们能够捕获语言变化的相关模式,并将它们表示为计算约束。

生成的模型可以在一种古老的语言中分割单词,并将它们映射到相关语言中的对应单词。

模型概述:

生成丢失的文本从较小的单位-从字符到标志,从标志到铭文。字符映射首先在已知语言的音标上执行。根据这些映射,已知词汇表y中的一个标记y根据潜在对齐变量a被转换为丢失语言中的标记x。最后,所有生成的标记以及未匹配的跨越中的字符被连接起来,形成丢失的碑文。

蓝色框显示与模型的每一级相关联的语言属性

x范围的生成图形模型:一个生成span x的图模型表示:

不匹配的字符将按照独立同分布的条件生成,而匹配的字符范围以两个隐变量为条件:y表示已知的同源字符,a表示x和y之间的字符级对齐

IPA嵌入图

每个音位首先由一个音位特征向量表示。该模型首先嵌入每个特征,然后将所有相关的特征嵌入连接起来,得到IPA嵌入。例如,电话[b]可以表示为voiced,stop和labial嵌入的连接

虽然给定的语言很少添加或删除一个音,但某些音替换可能会发生。在父语言中带有「p」的单词在后代语言中可能会变成「b」 ,但是由于发音上的巨大差距,变成「k」的可能性较小。

提出的算法可以评估两种语言之间的接近度。事实上,当测试已知语言时,它甚至可以准确地识别语族。

DeepMind早有开发,识别石头上的希腊碑文

这并不是唯一将人工智能应用于失传语言领域的。 

DeepMind 开发了一个名为Pythia的系统,该系统可以识别35000件包含300多万个单词的文物中的模式。

它设法从包括石头、陶器和金属在内的希腊碑文中猜出了1500年至2600年前遗失的单词或字符。

残损铭文:雅典议会关于管理雅典卫城的法令

人类现存语言约为5615种,如同象形文字一样,大多数曾经存在过的语言现已不再使用了,其中几十种也被认为已经消失,或未被破译。

如果没有它们,我们就有可能失去关于历史上使用它们的人的大量知识。团队的目标更为远大,他们希望日后能够靠几千个单词就能破译语言。

作者介绍

Jiaming Luo

CSAIL的一名博士生,也是MIT NLP小组的成员。在来MIT之前,他也在北大做过一些情绪分析和总结的工作。

参考链接:

https://venturebeat.com/2020/10/20/mit-csails-ai-revives-dead-languages-it-hasnt-seen-before/

https://news.mit.edu/2020/translating-lost-languages-using-machine-learning-1021

http://people.csail.mit.edu/j_luo/assets/publications/DecipherUnsegmented.pdf

本文地址:http://www.kangmiyun.com/57.html
版权声明:本文为原创文章,版权归 PC4f5X 所有,欢迎分享本文,转载请保留出处!

发表评论


表情