阿拉伯人名数据库(DAN)涵盖了超过650万个条目,包括阿拉伯人的个人姓名和姓名变体,这些变体映射到原始的阿拉伯语脚本,并提供了大量的补充信息。词汇数据库以权威的语言资源为基础,由阿拉伯语本地编辑团队编写,包括许多拼写变体和其他属性,如网络搜索频率、名称类型代码和规范化表单。
阿拉伯人名数据库在帮助软件开发人员(特别是安全应用程序和自然语言处理工具),在增强其技术方面发挥了重要作用,支持命名实体识别和提取、机器翻译、变体规范化和阿拉伯名称的信息检索。
阿拉伯人名数据库包含大量和持续增长的罗马化的阿拉伯名字变体集合,映射到原始的阿拉伯文字。我们持续地进行广泛的扩充和校对。
2008年3月,我们发布了版本 2.0,覆盖了大约150万个条目。从那时起,我们的编辑和程序员团队就一直在努力进行进一步的扩展和验证,现在3.0版本已经覆盖了超过650万个经过验证的条目。
全面的覆盖范围之外,阿拉伯人名数据库还提供了一些独特的功能,例如对每个阿拉伯名字提供发音,支持各种罗马字母系统,以及根据出现频率对所有罗马字母变体进行验证。该数据库包含数百万个变量的每个网络搜索频率统计信息。使用相关词汇资源中的频率数据来扩展该数据库,可以提高它用于区分名称和非名称的有效性。通过包含相关的频率数据,DAN可以用于确定任意形式出现的阿拉伯字符串。
阿拉伯人名数据库也有阿拉伯名字的发音版本和非发音版本,有时同一个名字会有多种发音。提供了完整而准确的变音符号,即使是像alif-wasla和dagger alif这样比较少见的变音符号。这不仅具有学术意义,而且可以确保提供非常精确和多样化的罗马化版本。
阿拉伯人名数据库既作为一个独立的数据库存在,也可以与我们的阿拉伯语姓名数据库(DANA)相匹配,后者包含规范的、完全净化的阿拉伯姓名的正字法变体。
SUB ID |
VARIANTS |
FREQUENCY |
U000261 |
Abderrahim |
382000 |
U000763 |
Abderrahim |
382000 |
U000425 |
Abdurrahim |
172000 |
U000928 |
Abdurrahim |
172000 |
U000385 |
Abdulrahim |
82100 |
U000887 |
Abdulrahim |
82100 |
U000236 |
Abdelrahim |
54200 |
U000739 |
Abdelrahim |
54200 |
U000359 |
Abdul Rahim |
40000 |
U000370 |
Abdul-Rahim |
40000 |
STANDARD |
ARABIC |
VARIANTS |
Abd-al-‘Aziz |
عبدالعزيز |
1,122 |
Isam-al-Din |
عصام الدين |
181 |
Bin-Jabr |
بن جبر |
24 |
Mahmud |
محمود |
69 |
Abu-Hurayrah |
أبو هريرة |
272 |
Mubarak |
مبارك |
24 |
Khalil |
خليل |
69 |
Muhammad |
محمد |
151 |
Qawmuq |
قوموق |
45 |
Yusif |
يوسف |
56 |
更多阿拉伯资源:
© Copyright 2023. 大辞科技 沪ICP备17050550号 沪公网安备 31011402006110号