南宁区块链开发公司:Data Lake与数据仓库,哪个是最佳数据架构?

2018/7/11 13:43:58


对于数字转换业务,数据架构是一个重大决策。南宁区块链开发公司,南宁鸿业软件发现选择正确的模型是任何此类计划的首要和最重要的选择之一。但考虑到广泛的选择和令人困惑的术语,选择满足公司需求而不会超出预算的解决方案并非易事。

两个最受欢迎的选项通常被称为“数据仓库”和“数据湖泊”。想象一下像购物中心这样的数据仓库。它内部有离散的“商店”,用于存储结构化数据 - 将数据分类为数据库软件可以与之交互的格式。

相比之下,  数据湖就像一个混乱的跳蚤市场。 它有“摊位”,但是一个停止而下一个停止的地方就不那么清楚了。与数据仓库不同,数据湖可以包含结构化和非结构化数据。顾名思义,非结构化数据是指“杂乱”的数字信息,例如音频,图像和视频。

进一步复杂化的是“数据市场”。与前两个概念不同,这不是一个架构,而是一个数据湖的接口,使IT团队以外的人(如业务分析师)能够访问其内容。通过搜索功能,它允许用户从湖中捕获他们需要的东西。想想数据市场,如跳蚤市场的个人导游,向购物者展示哪里可以找到最优惠的价格。南宁区块链开发公司,开发区块链系统模板的时候也了解到,区块链并没有数据库而是将数据存储在区块中,同步到所有的节点上的。

在数据仓库和Data Lake内部

对于希望分析大型但结构化数据集的公司而言,数据仓库是一个不错的选择。事实上,如果公司只对描述性分析感兴趣 - 只是总结数据的过程 - 数据仓库可能就是它所需要的。

例如,软件开发公司领导者希望查看特定时间段内的销售数据,产品查询的数量或各种营销视频的视图。数据仓库非常适合这些应用程序,因为所有相关数据都以结构化数据的形式存储。应用程序开发,南宁软件开发,南宁区块链开发公司,南宁鸿业软件。

但对于大多数开展大数据计划的网站开发公司而言,结构化数据只是故事的一部分。每年,企业都会产生大量非结构化数据。事实上,451 Research与Western Digital一起发现,  63%  的企业和服务提供商保留至少25 PB的非结构化数据。对于这些公司而言,数据湖泊是有吸引力的选择,因为它们能够存储大量此类数据。

更重要的是,数据湖泊使分析师能够超越描述性分析,进入令人兴奋且高度回报的  预测性或规范性分析领域。应用程序开发,南宁软件开发,南宁区块链开发公司,南宁鸿业软件。预测分析是使用现有数据预测与一个企业相关的未来趋势的做法,例如明年的收入。

规范分析更进了一步,使用人工智能技术来响应预测提出建议。对于预测和规范分析,数据湖是必须的。通常,领导者使用Apache Hadoop等软件来管理数据湖,Apache Hadoop是一个流行的分析工具生态系统。

在涌现数据湖或数据仓库之前,请考虑谁将进行数据分析以及他们需要哪种数据。数据仓库通常只能由IT团队访问,而数据库可以配置为供整个公司的分析师和业务人员访问。应用程序开发,南宁软件开发,南宁区块链开发公司,南宁鸿业软件。

例如,南宁区块链开发公司最近与之合作的医疗机构要求提供数据仓库解决方案。不过很快,很明显公司会需要一个数据湖。它不仅对预测建模感兴趣,而且还试图输入所有类型的非结构化数据,例如手写医生的笔记。

医疗保健公司的分析师可能会从数据湖中提取治疗数据来预测患者的预后。他们可能会添加一个规定层,然后为每位患者的需求推荐最佳治疗方案 - 在提供最高质量的护理的同时将成本和风险降至最低。

充分利用数据湖

鉴于它们能够存储两种类型的数据以及它们是否适合未来的分析需求,人们很容易认为数据湖是明显的答案。但由于结构松散,它们有时被嘲笑为“沼泽”而不是湖泊。

事实上,NoSQL数据库Basho的首席执行官兼总裁Adam Wray  将  其描述为“邪恶,因为他们不守规矩”和“难以置信的代价”。在Basho的经验中,“[数据湖泊]的价值提取与数据湖相比是无穷小的。承诺的价值。“

但是,人们不应该只计算数据湖。数据市场可以通过为最终用户组织数据湖来挽救数据湖的承诺。应用程序开发,南宁软件开发,南宁区块链开发公司,南宁鸿业软件,数据管理网站开发。就像互联网在谷歌之前更难以浏览一样,数据市场解锁了强大的数据湖架构。在分析领域,没有一个适合所有人的系统。数据仓库可以让更小的公司体验数据分析,而数据湖(与数据市场结合在一起)可以使企业一头扎进大数据。这些系统也不是相互排斥的。如果其分析需求发生变化,选择仓库的公司可以在以后添加湖泊和市场。

最重要的是开始走向更加数据化的业务。许多高管都会记得,十年前,数据甚至没有在IT团队之外进行过讨论。现在,随着可用的分析需求和工具的范围,它的高管们开始引导对话。


图标