用于大数据商业智能报告的开源数据库?

     2023-04-18     241

关键词:

【中文标题】用于大数据商业智能报告的开源数据库?【英文标题】:Open Source DB for business intelligence reporting on big data? 【发布时间】:2012-08-21 05:47:41 【问题描述】:

我们公司有独特的报告需求。我们每 X 分钟收集一个文件中的大量数据。这些文件的大小可能在 1 到 5MB 之间,包含多达一百万行。数据类似于从不更新且结构化的日志数据。虽然我们需要灵活性来支持数据模型的变化。我们需要提供一些预制(静态)报告以及一些报告作为交互式仪表板的一部分。

对于预制报告,数据只需每天刷新一次。所以我将为此使用 Hive。到一天结束时,文件大小将达到几个 Gbs,届时它将被推送到 Hadoop 中,因此我们不会遇到 hadoop 的小文件问题。由于报告是静态的,因此即使 Hive 需要几秒钟/分钟来返回数据也没关系。

但 Hive 无法满足我们的交互式仪表板需求,因为这些报告需要在几秒钟内加载。这些报告将主要是时间序列报告,时间序列数据将存储长达一年。我想知道哪些其他数据库可用于数据仓库/BI 目的?我们需要一个稳定的开源数据库,它可以很好地处理大数据,允许快速写入和读取,有一个体面的查询语言来实现以最少的编码进行报告。由于我们将使用 Hadoop+Hive 来生成罐头报告,因此如果该数据库可以直接与 Hadoop 一起使用将是理想的。

我查看了 Hbase,但不确定它是否能很好地处理每 X 分钟传入的小文件。 Hbase 是正确的选择吗?也欢迎任何其他 DB 的建议。

我们的报告非常基础,我们希望解决方案非常简单。 附言我们不想使用 MySql。

【问题讨论】:

【参考方案1】:

理想情况下,您正在寻找的是 MPP 数据库,例如 Netezza、Greenplum 等。它们都是商业的。换句话说 - 我不知道开源解决方案。最接近的可能是 infobright - 它有 MySQL 的柱状引擎 没有好的分析开源数据库。我的意思是具有下降并行查询能力+集群的数据库。 所以我会建议一些中间解决方案,其中 Hive/Hadoop 正在做大量的聚合(构建多维数据集)并且 RDBMS 用于提供交互式查询。

【讨论】:

谢谢大卫。 Hbase怎么样?文档说它非常适合随机读取。大多数情况下,我们的交互式仪表板将读取原始数据。 我预计仪表板将需要聚合数量。而这里的 HBase 并不是那么好(尽管它会随着协处理器版本的变化而变化)。如果您确定您将始终通过 Key 或 Key 范围访问数据 - 可以考虑 HBase 设计。【参考方案2】:

我还建议使用 Greenplum 数据库。它不是开源的,但它有一个单节点版本,可以毫无问题地提供 TB 级数据。它有一个相当好的数据加载引擎和一个查询执行引擎——两者都是并行的。 HP Vertica 还将推出社区版

Greenplum 和 Vertica 都有与 hadoop/hbase/hive 的接口。

如果您只对开源感兴趣,请尝试 MonetDB。它是开源的,但我没有使用它的经验。

【讨论】:

其实greenplum数据库开源了

开源“摩尔定律”即将打破,《2022开源大数据热力报告》重磅发布

11月5日,在2022云栖大会一体化大数据智能峰会上,由开放原子开源基金会、X-lab开放实验室和阿里巴巴开源委员会联合出品的《2022年开源大数据热力报告》重磅发布。开放原子开源基金会副秘书长刘京娟女士对报告进行... 查看详情

apachesuperset开源商业智能大数据可视化

...heSuperset是一款现代化的开源大数据工具,也是企业级商业智能Web应用,用于数据探索分析和数据可视化。        ApacheSuperset是一个适合企业日常生产环境中使用的商业智能可视化工具。它具有快速、轻量、直观的特... 查看详情

最好的商业智能软件是啥,为啥?

参考技术A推荐几款开源的大数据商业智能工具!虽然商业智能通常被认为是大数据的一个元素,事实上商业智能工具的市场远远领先于快速增长的大数据市场。以下这些供应商中,有一家被Gartner称为“CoolVendor”。而在更大的企... 查看详情

《开源大数据热力报告2022》入围项目公示

在开源大数据技术飞速发展的十数年,我们见证了多元化技术的兴起和变迁。如何从海量数据中,通过数据处理和可视化的手段,对开源大数据技术的过去、现在和未来,做出深刻洞察?如何为开发者在开源... 查看详情

2022开源大数据热力报告

研究遵循如下阶段:1、公开数据初筛2、项目技术分类3、专家审议4、入围公示&征集修正5、热力值计算和关联分析6、数据洞察和课题研究7、报告审议项目初筛Github上TopicTag满足如下条件且开源的大数据项目:TopicTag... 查看详情

2022开源大数据热力报告

...查询和分析分类聚焦大数据分析类型项目,不包括OLTP数据库、OLTP能力为主的HTAP数据库和NoSQL数据库数据可视化分类中需具备数据源链接和处理能力,不包括可视化框架工具项目数据管理/安全/中间件分类中,项目较... 查看详情

2022开源大数据热力报告

...查询和分析分类聚焦大数据分析类型项目,不包括OLTP数据库、OLTP能力为主的HTAP数据库和NoSQL数据库数据可视化分类中需具备数据源链接和处理能力,不包括可视化框架工具项目数据管理/安全/中间件分类中,项目较... 查看详情

开源大数据热力榜单top30

...热力榜单。Kibana以989.40的热力值高居榜首。ClickHouse(数据查询与分析)、Airflow(数据调度与编排)、Flink(流处理)、Airbyte(数据集成)分别摘得各自细分领域的TOP1。Pulsar、Doris、StarRocks、DolphinSc... 查看详情

开源大数据热力榜单top30

...热力榜单。Kibana以989.40的热力值高居榜首。ClickHouse(数据查询与分析)、Airflow(数据调度与编排)、Flink(流处理)、Airbyte(数据集成)分别摘得各自细分领域的TOP1。Pulsar、Doris、StarRocks、DolphinSc... 查看详情

elasticsearch大数据搜索选开源还是商业软件?elasticsearch对比splunk(代码片段)

1.概述转载:大数据搜索选开源还是商业软件?ElasticSearch对比Splunk述本文就架构,功能,产品线,概念等方面就ElasticSearch和Splunk做了一下全方位的对比,希望能够大家在制定大数据搜索方案的时候有所帮... 查看详情

5大领先的商业智能解决方案,国产上榜!

2016年是商业智能元年,从企业应用和市场推广的角度来看,各家企业开始逐步上线商业智能,用于企业经营业务的分析。对于目前市面上所提供的商业智能解决方案,传统BI、大数据BI以及自助型敏捷BI保持着并行发展的趋势。... 查看详情

报表工具都有哪些

...:1、思迈特软件Smartbi经过多年持续自主研发,凝聚大量商业智能最佳实践经验,整合了各行业的数据分析和决策支持的功能需求。满足最终用户在企业级报表、数据可视化分析、自助探索分析、数据挖掘建模、AI智能分析等大... 查看详情

开源大数据可观测性方案实践-助力集群运维智能化便捷化

前言在过去的20年时间,大数据技术蓬勃发展,从最开始大公司内部的秘密武器,到现在广泛作用于几乎所有行业。通过使用大数据技术分析存量和实时的数据,能够更加全面清晰地洞察商业的本质。在商业节奏... 查看详情

易于使用和学习的大数据报告工具

...我是一个网页的财务团队。这个项目下有很多数据在多个数据库中。财务团队当然希望了解发生的事情、时间和原因。他们需要不同的报告。为此,几年前我们创建了一个专门用于报告的新Mysql数据库,并在那里同步所需的数 查看详情

科技发展的未来:探索数据驱动的智能科技创新

...疗保健领域在医疗保健领域,大数据和人工智能技术可以用于疾病预测、诊断、治疗等方面。例如,通过分析患者的病历和生理数据,可以预测患者可能出现的疾病,并提前采取治疗措施。同时,人工智能技术还可以用于辅助医... 查看详情

用于报告的 Hive 或 HBase?

】用于报告的Hive或HBase?【英文标题】:HiveorHBaseforreporting?【发布时间】:2017-10-1118:01:08【问题描述】:我想了解什么是用于报告目的的最佳大数据解决方案?目前我将其缩小到HBase与Hive。用例是我们拥有数百TB的数据和数百个... 查看详情

大数据分析用啥工具好

...次,看前端可视化分析能力,这方面tableau、qlikview、帆软商业智能、网易有数等不错。参考技术A开源大数据生态圈    Hadoop HDFS、Hadoop MapReduce, HBase、Hive 渐次诞生,早期Hadoop生态圈逐步形成。开源生... 查看详情

大数据与ai生态中的开源技术总结

本文由云+社区发表作者:堵俊平在数据爆炸与智能革命的新时代,新的平台与应用层出不穷,开源项目推动了前沿技术和业界生态快速发展。本次分享将以技术和生态两大视角来看大数据和人工智能技术的发展,通过分析当下... 查看详情