• 智能翻译解决方案提供商
    memoQ中国区销售服务商

阿拉伯人名数据库

数据库概览

  • 650万个经过验证的阿拉伯人名变体。
  • 基于超过2500万个源名称。
  • 不断更新和扩展。
  • 由当地的阿拉伯编辑校对。
  • 通过web和语料库进行了验证。
  • Fully vocalized 阿拉伯语。
  • 基于网络频率的统计。
  • 各种罗马字系统支持。
  • 类型和性别等属性。
  • 支持OFAC SDNs和别名。
  • 支持各种非英语语言系统。

应用场景

  • 信息检索和查询处理。
  • 实体识别和提取。
  • 机器翻译。
  • 合规和风险管理。
  • 反洗钱和反欺诈侦查。
  • 反恐和移民控制。

超过650万个名称和变体

阿拉伯人名数据库(DAN)涵盖了超过650万个条目,包括阿拉伯人的个人姓名和姓名变体,这些变体映射到原始的阿拉伯语脚本,并提供了大量的补充信息。词汇数据库以权威的语言资源为基础,由阿拉伯语本地编辑团队编写,包括许多拼写变体和其他属性,如网络搜索频率、名称类型代码和规范化表单。

阿拉伯人名数据库在帮助软件开发人员(特别是安全应用程序和自然语言处理工具),在增强其技术方面发挥了重要作用,支持命名实体识别和提取、机器翻译、变体规范化和阿拉伯名称的信息检索。

不断扩大覆盖范围

阿拉伯人名数据库包含大量和持续增长的罗马化的阿拉伯名字变体集合,映射到原始的阿拉伯文字。我们持续地进行广泛的扩充和校对。

20083月,我们发布了版本 2.0,覆盖了大约150万个条目。从那时起,我们的编辑和程序员团队就一直在努力进行进一步的扩展和验证,现在3.0版本已经覆盖了超过650万个经过验证的条目。

独特的功能

全面的覆盖范围之外,阿拉伯人名数据库还提供了一些独特的功能,例如对每个阿拉伯名字提供发音,支持各种罗马字母系统,以及根据出现频率对所有罗马字母变体进行验证。该数据库包含数百万个变量的每个网络搜索频率统计信息。使用相关词汇资源中的频率数据来扩展该数据库,可以提高它用于区分名称和非名称的有效性。通过包含相关的频率数据,DAN可以用于确定任意形式出现的阿拉伯字符串。

阿拉伯人名数据库也有阿拉伯名字的发音版本和非发音版本,有时同一个名字会有多种发音。提供了完整而准确的变音符号,即使是像alif-wasladagger alif这样比较少见的变音符号。这不仅具有学术意义,而且可以确保提供非常精确和多样化的罗马化版本。

阿拉伯人名数据库既作为一个独立的数据库存在,也可以与我们的阿拉伯语姓名数据库(DANA)相匹配,后者包含规范的、完全净化的阿拉伯姓名的正字法变体。

数据样本

SUB ID

VARIANTS

FREQUENCY

U000261

Abderrahim

382000

U000763

Abderrahim

382000

U000425

Abdurrahim

172000

U000928

Abdurrahim

172000

U000385

Abdulrahim

82100

U000887

Abdulrahim

82100

U000236

Abdelrahim

54200

U000739

Abdelrahim

54200

U000359

Abdul Rahim

40000

U000370

Abdul-Rahim

40000

 

STANDARD

ARABIC

VARIANTS

Abd-al-‘Aziz

عبدالعزيز

1,122

Isam-al-Din

عصام الدين

181

Bin-Jabr

بن جبر

24

Mahmud

محمود

69

Abu-Hurayrah

أبو هريرة

272

Mubarak

مبارك

24

Khalil

خليل

69

Muhammad

محمد

151

Qawmuq

قوموق

45

Yusif

يوسف

56

更多阿拉伯资源:

阿拉伯地名数据库

阿拉伯语的阿拉伯人名数据库

阿拉伯语的地名数据库

阿拉伯语的外国人名数据库