在数据关系的力量

||评论(

你是否曾接到银行的电话,因为他们怀疑你有欺诈行为?大多数银行可以自动识别消费模式或地点,并立即采取行动。很多时候,受害者甚至还没注意到什么东西出了问题。因此,身份盗窃对个人银行账户和生活的影响可以在它成为问题之前就得到控制。

在你的数据关系的深刻理解是强大的那样。

考虑疾病和基因相互作用的关系。通过了解这些连接,您可以搜索模式的蛋白质途径中发现可能与疾病相关的其他基因。这种信息可以帮助提前疾病的研究。

关系的更深层次的理解,更强大的见解。有了足够的关系的数据点,你甚至可以对未来做出预测(像一个推荐引擎)。但随着越来越多的数据连接,以及大小和连接的数据复杂性的增加,关系变得更加复杂,存储和查询。

今年八月,我写了一篇关于现代应用程序开发必威体育精装版app官网而分崩离析一个尺寸适合所有的整体式数据库入的值特制的数据库。专门构建的数据库支持各种数据模型,并允许客户构建用例驱动的、高度可伸缩的分布式应用程序。导航数据中的关系是一个很好的例子,说明了为什么为工作使用正确的工具很重要。和一个图形数据库是用于处理高度连接数据的工具。

图数据模型

在图表的数据模型,关系数据模型,这意味着你可以直接的关系,而不是使用外键或连接表的核心部分。该数据被建模为节点(顶点)和链接(边缘)。换言之,焦点不在上的数据本身,而是如何将数据涉及到彼此。图是用于构建过程的关系,因为你可以更容易地表示和数据之间的关系遍历应用的自然选择。

节点通常是一个人,地方或事物,并链接它们是如何连接的所有。例如,下面的图中,Bob是一个节点,蒙娜丽莎是一个节点,并且鲁佛尔宫是一个节点。它们是由许多不同的关系进行连接。例如,Bob的爱好蒙娜丽莎,蒙娜丽莎位于鲁佛尔宫,和鲁佛尔宫是博物馆。这个例子图是一个知识图。它可以用来帮助别人谁是达芬奇在卢浮宫兴趣蒙娜丽莎发现其他艺术作品。

应用这一进程的关系

当您必须创建数据之间的关系并快速查询这些关系时,图是一个不错的选择。知识图是一个好的用例的例子。这里还有一些:

社交网络

社交网络应用程序需要跟踪大量的用户配置文件和交互。例如,您可能正在应用程序中构建一个社会提要。使用图表来提供结果,优先向用户显示他们的家人、他们“喜欢”的朋友以及住在附近的朋友的最新更新。

推荐引擎

推荐引擎存储信息之间的关系,例如客户兴趣、朋友和购买历史。有了图表,您可以快速查询它,以提供个性化的、与您的用户相关的建议。

欺诈识别

如果你正在构建一个零售欺诈探测应用程序,一个图可帮助您构建查询很容易地检测的关系模式。一个例子可能是使用个人电子邮件地址相关联的多个人,或者多人共享同一IP地址,但居住在不同的物理地址。

存储图的挑战

图表可以存储在许多不同的方式:关系数据库,键值存储或图形数据库。很多人开始使用图形与小规模的原型。这通常开始时很好,但随着数据规模的增加变得具有挑战性。基于图形的工作负载往往具有高度的随机访问。如您遍历关系(图扇出),并回答一个图形查询所需的数据往往不是在内存中(非本地)的缓存节点的数量增加访问显著。甚至看似简单的图形的查询可以要求访问和扫描大量的数据。这意味着,缩放和操作图形数据库通常需要手动显著性能调整和优化。

谁使用关系数据库或键值存储了图形人们必须使用SQL连接(或等同的)来查询的关系。由于加入可以慢慢执行,他们往往必须非规范化的数据模型(换句话说,改善的写入性能为代价的读取性能)。然而,非规范化的数据模型,每添加一个新的关系需要一个数据模型的变化和减少发展的步伐。必威体育精装版app官网

图形数据库是专门设计来存储图表,并直接查询在直接链接的节点和关系数据。这可以很容易地创建一个没有数据的非规范化的新关系,并使其更容易为开发者更新他们的数据模型必须查询高度连接的数据应用。必威体育精装版app官网它极大地提高了导航数据的关系查询性能。

一个专用的图形数据库

去年,AWS启动了亚马逊海王星,这是一种用于处理在高度关联的数据中发现的关系优化的快速,可靠的专用图形数据库。海王星是,通过跨越三个可用性区域复制数据的六份,提供高可用性,全面管理的图表服务。它支持多达15低延迟读副本查询图形与毫秒延迟和尺度存储自动存储数十亿的关系。

自海王星推出以来,我们一直在继续创新。上周,在AWS重新:创造2019,我们宣布亚马逊海王星工作台。现在,您可以从AWS管理控制台创建一个Jupyter笔记本,这是一个开放源代码的web应用程序,允许您创建和共享包含实时代码、方程式、可视化和叙述性文本的文档。一旦创建了笔记本,您就可以使用Gremlin或SPARQL协议和RDF查询语言(SPARQL)查询图形数据库。Neptune最近增加了对流和搜索的支持,使您可以很容易地将图形与其他应用程序构建块连接起来。海王星流提供一种简单的方法来捕获图中的更改并支持与其他专用构建的数据库的集成。当文本搜索是合适的工具时,Neptune现在允许您使用an外部文本索引用于Gremlin或SPARQL图形查询。

它令人着迷观看我们的客户使用海王星。我们期望他们建立社会,欺诈检测,并使用海王星推荐型的解决方案,与客户喜欢耐克,Activision公司和NBC环球是在生产与今天海王星这些应用程序。

但是,当你给开发者一个特定的高性能和专业工具一件有趣的事情发生了作业,他们开始寻找新的和令人兴奋的东西来必威体育精装版app官网构建。从知识图表来标识解析,客户已经表明,他们可以使用图形来建立有趣的新应用。汤森路透是用图来理解复杂的监管模式。Netflix的具有通过使用改进的数据基础设施的可靠性基于图的系统,以构建和规模数据沿袭。和Zeta全球已建成使用基于图形标识解析到涉及多个设备和用户的客户智能平台。

以长远的眼光:两型支持

我们已经知道,图形是模型关系的有效途径,并分析关系的价值是不是新的。事实上,网络数据库早关系的。图形数据库的早期使用主要是在学术或公共部门的应用,这是研究型或专业性强(如语义数据管理或复杂的电信分析)。然而,这些解决方案并不普遍,图形数据库还没有成为开发人员的主流数据库选项。必威体育精装版app官网

因此,我们预计海王星针对某些客户的重要服务。我们采取了长远来看,使用数据的关系应用战略,而客户会来采用它来,因为有更多的数据和更多的数据的时间。

作为该长图的一个例子中,有两个主要的模型实现用于图形属性的图形(PG)和W3C时资源描述框架(RDF)。这两个图都由节点(有时称为“顶点”)和有向边(有时称为“链接”)组成。这两个图形都允许属性(属性/值对)与节点关联。属性图也允许这些边,而RDF图仅仅将节点属性视为更多的边(尽管有几种技术可以用RDF表示边的属性)。由于这种差异,各个图中的数据模型最终看起来略有不同。

首先,这些差异的存在是有充分理由的。属性图类似于独立应用程序或用例中的传统数据结构,而RDF图最初是为支持独立开发的应用程序之间的互操作性和交换而开发的。必威体育精装版app官网RDF图可以表示为“三元组”(边缘起始点、标签和终点,通常称为“主题”、“谓词”和“对象”),RDF图数据库也称为“三元存储”。

目前,属性图支持可以通过流行的开放源码和供应商支持的实现获得,但是没有用于模式定义、查询语言或数据交换格式的开放标准。另一方面,RDF是W3C的一套标准化规范的一部分,它建立在其他现有的web标准之上。这些标准统称为语义Web或链接数据。这些规范包括模式语言(RDFS和OWL)、声明性查询语言(SPARQL)、序列化格式和一系列支持规范(例如,如何将关系数据库映射到RDF图)。W3C规范还描述了一个用于推理的标准化框架(例如,如何从以图表形式表示的数据中得出结论)。

我们发现的是,开发商最终只想做图表,他们需要这两种必威体育精装版app官网模型。我们看到,有一个独立的应用程序的性能曲线开始的客户,但后来发现他们必须与其他系统进行互操作。我们看到的客户,建立互操作性和转乘RDF,但随后必须建立在一致的数据独立,业务应用程序的性能曲线图。我们做了一个明确的选择与海王星同时支持财产图形和RDF,这样就可以选择哪个是最适合你的。

放在一起的积木

在我们的客户使用海王星创新的方法是,当开发人员在一个工作的工具发生了什么很好的例子。必威体育精装版app官网AWS的原因有最特制的数据库任云供应商的是让客户有更多的选择和自由。除了图中,你可能有其他数据集的工作更好地在不同的数据库类型,如关系,时间序列,或在内存中。那也没关系,这是现代应用开发。必威体育精装版app官网

例如,海王星是我们使用,不断拓宽Alexa的知识图数千万客户的工具包的一部分。Alexa的还使用其他数据库一样,亚马逊DynamoDB对于键值和文档数据和亚马逊极光对关系数据。不同类型的数据来与不同类型的挑战,并挑选每一个独特的使用情况下,正确的数据库允许更大的速度和灵活性。

对于高度连接的数据,图形数据库可以很容易理解数据的关系,以获得新的见解。使用图形数据模型,开发人员可以快速构建必须查询高度连必威体育精装版app官网接的数据应用。和一个专用的图形数据库极大地提高了导航的关系查询性能。因为开发商最终只必威体育精装版app官网想做图表,你可以选择做快阿帕奇TinkerPop有关为属性图表或调谐的Gremlin遍历SPARQL在查询RDF图。此外,您可以访问参考架构,代码示例和实施例

要了解更多关于利用你的数据之间的关系,见亚马逊海王星

评论

博客评论由Disqus