Microsoft多维数据集使用范围和最佳做法

问题描述 投票:5回答:1

因此,我们正在考虑在组织中使用多维数据集。

现状:

  • DWH(Azure MS SQL)查询语言-SQL
  • Microsoft列存储(不是真正的多维数据集)查询语言DAX(有MDX支持,但看起来实现得不好-效率低下]
  • Tableau(BI系统,报告)可以使用SQL和MDX

已知问题:

  • 当我们使用MDX时,按日期存在聚合问题(我们应该在查询中显示年,月,日期层次结构,而DAX则没有这种问题。
  • Microsoft列存储效率低的运行总计计算。

我们现在如何解决问题:

  • 使用Microsoft Column Storage,实现总运行量,但不会在所有报表中使用这种“多维数据集”,仅用于确实需要它的少数人
  • 在DWH中实现运行总计。使用它的所有Tableau报告]
  • [在DWH中,我们有每日制粒的数据(例如:我们有一条记录在11月1日,11月5日,11月15日发生了变化,在DWH中有3条记录之前,现在有15条记录)。我们需要像这样才能真正快速地获取任何日期数据(基本上,我们正在实现自己的多维数据集行)]

专业人士:

  • 没有人需要深入了解DAX和MDX语言
  • 我们不应该重构任何东西

Cos:

  • DWH上载(更新)将比现在更长。>
  • DWH将变大(用于记录的日常数据)
  • 我们需要手动维护正在运行的总计字段
  • 已知替代方法:

  • Microsoft Power BI-可以真正有效地使用DAX和MDX
  • Microsoft Analysis Services多维数据集(Real多维数据集)-只要我们关注,MDX就可以高效运行,而不是像Microsoft Column Storage中那样)>
  • 问题:

  • 首先:如果有可能,我真的很想让您对您用来理解在开发和维护解决方案时会导致痛苦的原因以及原因的技术印象。
  • 第二:如果您对我们当前的方法有任何批评,将不胜感激-为什么这样不好?
  • 第三:立方体死了吗?我的意思是Google不会展示自己的多维数据集,也许本身的技术是死胡同?
  • 最后:如果您对我们需要使用的东西有任何建议,那就太好了。
  • 因此,我们正在考虑在组织中使用多维数据集。情况按原样:DWH(Azure MS SQL)查询语言-SQL Microsoft列存储(非真实多维数据集)查询语言DAX(有MDX支持,...

我正在尝试根据我的经验逐步回答它,对于单个技术人员或个人来说,问题太大了。

首先:如果有可能,我真的很想让您对您用来了解导致疼痛的原因的技术在开发和维护解决方案时。

仓储,多维数据集,报告,查询在不同的分布式技术上发展迅速,这些技术可以在相对便宜的硬件上水平扩展,按需扩展/缩减并且还可以快速扩展。另外,随着Internet带宽,全球化,社交网络和各种原因的增加,数据大小也在不断增加。 Hadoop和Cloud最初填补了分布式技术的空白,该技术可以在水平分布式上发展,并且可以轻松地向上/向下扩展。

具有一个具有高计算量和高RAM的sql服务器来存储内存中的高数据,mdx,多维数据集通常是垂直扩展,成本高昂,即使我们在云上安装了SQL Server,也无法像水平分布那样容易地缩减规模。

现在,有了优势,开发大数据解决方案,学习曲线和维护变得很复杂,对于至今为止还不熟悉它的新采用者来说,这又是一个巨大的挑战。

第二:如果您有任何批评,将不胜感激。我们当前的方法-为什么这么糟

[没有任何解决方案可以解决您遇到的每一个问题,而又不会遇到一些自己的问题。根据您当前的组织结构,您的方法再次可行并且具有优缺点。我假设您的团队熟悉SQL Server,mdx,多维数据集和列存储,并且还进行了可行性分析。我看到的唯一问题是,当数据量增加时,SQL需要更多的计算能力和RAM,而这通常可以通过升级VM /计算机来完成。垂直缩放成本高昂,而且有时会受到限制。同样,在这种基础设施上进行故障转移/灾难恢复的代价也更高。

第三:立方体死了吗?我的意思是Google不会展示自己的多维数据集,也许技术本身就是一个死胡同?

[如果您能找到对它的支持,没有技术会死,即使是汇编,C,C ++,Cobol在旧项目中以及在比其他方法更合适的情况下,都仍然很强大。

最后:如果您对我们需要使用的东西有任何建议,那将是很棒。

至少对3-4种类型的解决方案/体系结构进行POC(概念验证),最适合您的成本/技能/时间框架,您将是最好的判断者。

我可以建议您是否愿意使用基于云的解决方案,如果可以满足您的要求,请尝试使用其他解决方案,例如使用天蓝色数据工厂的Data Lake进行概念验证。

而且我最近还通过了Microsoft的一个现成的解决方案,值得一看:Azure Synapse Analytics

https://azure.microsoft.com/en-in/services/synapse-analytics/)。它具有内置的数据仓库支持,查询,对AI / BI,流,数据湖探索,安全性,规模,对Spark的支持以及PowerBI对各种来源的支持,见解/可视化显示。
sql-server database-design architecture data-warehouse cube
1个回答
1
投票

我正在尝试根据我的经验逐步回答它,对于单个技术人员或个人来说,问题太大了。

© www.soinside.com 2019 - 2024. All rights reserved.