阿拉伯文字的复杂性能产生各种阿拉伯语拼写变体和拼写错误,这可能导致阿拉伯语信息处理中的各种问题。为了解决此问题,我们创建了阿拉伯语阿拉伯的阿拉伯人名数据库(DANA),这是一种独一无二的资源,涵盖了几十万种阿拉伯文字变体和常见的拼写错误,如以下数据样本所示。
DANA的关键特征是将每个阿拉伯语名称都进行标准化和语音处理,以生成一个无错误且经过完全净化的阿拉伯语规范形式的数据库。语音处理是由编辑人员在技术工具的辅助下完成的,这些工具旨在实现最大效率。规范形式被用作为我们的阿拉伯名称数据库(DAN)创建准确的罗马化变体的基础,该数据库包含超过650万个阿拉伯名称的罗马化变体-以及DANA的阿拉伯语拼写变体。
阿拉伯语名称在alif上拼有hamza,有时会出现shadda,有时不会出现,有时不会在alif上没有写madda,等等。除变体外,还存在一些常见错误,例如yaa'被alif maqsuura取代,而taa'marbuuta被haa'取代。
以下是两个男性姓氏的阿拉伯语变体示例。
阿拉伯语变体 |
频率 |
عبدالله |
77248500 |
عبدالله |
35427490 |
عبدلله |
536060 |
عبداللّه |
239 |
عبداللّه |
123 |
عبداللاه |
115 |
عبداللاه |
109 |
عبدلله |
81 |
عبدألله |
33 |
عبدللّه |
30 |
عبدألله |
10 |
阿拉伯语变体 |
频率 |
أبوعلي |
2210880 |
ابوعلي |
985 |
أبوعلي |
963 |
ابوعلي |
495 |
ابوعلى |
408 |
ابوعلى |
379 |
أبوعلى |
164 |
أبوعلىّ |
35 |
أبوعليّ |
30 |
أبوعلى |
17 |
更多阿拉伯资源:
© Copyright 2023. 大辞科技 沪ICP备17050550号-1 沪公网安备 31011402006110号