• 智能翻译解决方案提供商
    memoQ中国区销售服务商

阿拉伯语的阿拉伯人名数据库

阿拉伯文字的复杂性能产生各种阿拉伯语拼写变体和拼写错误,这可能导致阿拉伯语信息处理中的各种问题。为了解决此问题,我们创建了阿拉伯语阿拉伯的阿拉伯人名数据库DANA),这是一种独一无二的资源,涵盖了几十万种阿拉伯文字变体和常见的拼写错误,如以下数据样本所示。

DANA的关键特征是将每个阿拉伯语名称都进行标准化和语音处理,以生成一个无错误且经过完全净化的阿拉伯语规范形式的数据库。语音处理是由编辑人员在技术工具的辅助下完成的,这些工具旨在实现最大效率。规范形式被用作为我们的阿拉伯名称数据库(DAN)创建准确的罗马化变体的基础,该数据库包含超过650万个阿拉伯名称的罗马化变体以及DANA的阿拉伯语拼写变体。

阿拉伯语名称在alif上拼有hamza,有时会出现shadda,有时不会出现,有时不会在alif上没有写madda,等等。除变体外,还存在一些常见错误,例如yaa’alif maqsuura取代,而taa’marbuutahaa’取代。

以下是两个男性姓氏的阿拉伯语变体示例。

数据样本

阿拉伯语变体

频率

عبدالله

77248500

عبدالله

35427490

عبدلله

536060

عبداللّه

239

عبداللّه

123

عبداللاه

115

عبداللاه

109

عبدلله

81

عبدألله

33

عبدللّه

30

عبدألله

10

 

阿拉伯语变体

频率

أبوعلي

2210880

ابوعلي

985

أبوعلي

963

ابوعلي

495

ابوعلى

408

ابوعلى

379

أبوعلى

164

أبوعلىّ

35

أبوعليّ

30

أبوعلى

17

 

更多阿拉伯资源:

 

阿拉伯地名数据库

阿拉伯人名数据库

阿拉伯语的地名数据库

阿拉伯语的外国人名数据库