构建完整的数据仓库平台都有哪些开源工具和技术? [关闭]

     2023-03-29     94

关键词:

【中文标题】构建完整的数据仓库平台都有哪些开源工具和技术? [关闭]【英文标题】:What are the open source tools and techniques to build a complete data warehouse platform? [closed]构建完整的数据仓库平台有哪些开源工具和技术? [关闭] 【发布时间】:2010-07-22 11:19:10 【问题描述】:

我正在寻找这些开源工具,可能是免费的或免费试用版来设置完整的数据仓库堆栈。

我知道很少有人像Pentaho 开源蒙德里安服务器,但无法获得任何谷歌结果来设置完整的平台。我不确定这些组件是否相互兼容?有人可以列出他们以及他们在链中的位置吗?

【问题讨论】:

我找到了这本关于 MySQL 的书 amazon.com/Open-Source-Data-Warehouse-open-source/dp/3846532045 【参考方案1】:

Open Source Data Warehousing 在识别可用于构建数据仓库堆栈的 OSS 组件方面做得很好:基础设施(服务器、操作系统、数据库)、集成管理(ETL、EAI 等)、信息管理(DW/ Mart/ODS、OLap 服务器等)、信息交付(门户、仪表板、分析/OLAP 客户端等)。总结如下:

开源 BI/DW 项目

商业智能和分析

蜜蜂-http://bee.insightstrategy.cz/en/index.html BIRT - http://www.eclipse.org/birt JasperSoft – http://www.jaspersoft.com MarvelIT - http://www.marvelit.com/dash.html OpenI – http://openi.sourceforge.net OpenReports – http://oreports.com 橙色 - http://www.ailab.si/orange 帕洛 - http://www.palo.net Pentaho - http://www.pentaho.com R - http://www.r-project.org SpagoBI – http://spagobi.eng.it 维卡-http://www.cs.waikato.ac.nz/~ml/index.html 生命体征-http://vitalsigns.sourceforge.net/

数据库

http://greenplum.org (bizgres) http://www.ingres.com http://www.mysql.com http://www.postgresql.org http://www.enterprisedb.com

整合

阿帕塔 - http://www.apatar.com CloverETL - http://cloveretl.berlios.de/ JitterBit - http://www.jitterbit.com/ KETL - http://www.ketl.org 八达通 - http://www.enhydra.org/tech/octopus/index.html OSDQ - http://sourceforge.net/projects/dataquality Pentaho - http://www.pentaho.com 红帽 – http://www.redhat.com Saga.M31 银河 - http://galaxy.sagadc.com Talend - http://www.talend.com SnapLogic – http://www.snaplogic.com

我建议浏览演示文稿。好东西。

【讨论】:

在考虑这些技术时,请记住此列表的老化。 @42n4 RapidMiner 不是开源的。社区版限制为 10,000 条记录...docs.rapidminer.com/latest/studio/installation/…【参考方案2】:

数据仓库堆栈(或套件)通常由三层组成。这些通常被称为ETL(加载)、DatabaseReporting(接口)。此外,还有一些更高级的工具可以满足性能和专家的需求。这些包括CubesStatistical Analysis Tools

就互操作性而言,ETL 工具和报告工具需要支持您使用的任何数据库。但是,由于只有两个大的开源数据库,混合不同的解决方案通常没有问题。

至于细节-

1 - ETL

数据加载可以通过开源工具来实现,例如 Pentaho 的 Data Integration 或 Talend(一个 eclipse 扩展)。我建议在谷歌上搜索“开源 etl”,以根据您的特定需求定制解决方案。

2 - 数据库

您需要一个关系数据库 (RDBMS)。两个最著名的开源参与者是 PostgreSQL(被 Stack Overflow 使用)和 MySQL。虽然 MySQL 拥有更大的用户群,但 Postgres 自从实现了早期版本中缺少的几个关键功能后,越来越受欢迎。

3 - 报告

Pentaho 提供报告平台。 BIRT(另一个 Eclipse 扩展)也是如此。同样,Google 是您进行具体比较的朋友。请注意,如果您为 ETL 和报告工具选择 Pentaho,您可能会享受到更好的集成。 您还提到了 Mondrian,它是一种在 RDBMS 上生成 MDX 查询的工具。 MDX 是查询多维数据集的标准语言。

此时,假设您从头开始,我建议您设置数据仓库的前两层 - ETL 和 DB。您可以稍后在上面添加任意数量的报告工具。

【讨论】:

【参考方案3】:

这是另一个类似的问题20 Billion Rows/Month - Hbase / Hive / Greenplum / What?

最相关的部分:

我怎么强调都不为过:获得与现成报告工具完美搭配的东西。

.

Hive 或 HBase 让您从事构建自定义前端的业务,除非您乐于在接下来的 5 年中用 Python 编写自定义报告格式化程序,否则您真的不想要它。

【讨论】:

【参考方案4】:

扩展帕斯卡所写的内容:

OLAP 服务器:Mondrian

AJAX 数据透视表:Saiku

OLAP 架构设计者:Pentaho Schema Workbench

OLAP 聚合设计者:Pentaho Aggregation Designer

ETL:Pentaho Kettle

报表设计者:Pentaho Report Designer

数据质量:DataCleaner

列式数据仓库:MonetDB

数据挖掘:RapidMiner

【讨论】:

数据分析过程中都有哪些实用工具?

以前大数据分析会用到多种工具,比如数仓工具、数据建模工具、BI工具等等。现在的大数据分析平台,都是全能型数据分析平台,一个平台搞定所有。比如亿信一站式数据分析平台,ABI融合了数据源适配、ETL数据处理、数据建... 查看详情

git代码仓库托管上海道宁为您提供构建扩展和交付安全软件的完整开发人员平台

GitHub是用于构建、扩展和交付安全软件的完整开发人员平台,通过提高开发人员速度的工具,推动创新加快高质量软件  GitHub是用于构建、扩展和交付安全软件的完整开发人员平台通过提高开发人员速度的工具推动创新加... 查看详情

数据建模软件工具都有哪些啊

参考技术A  1、PowerDesigner,功能包括:完整的集成模型和面向包含IT为中心的、非IT为中心的差异化建模诉求。支持非常强大的元数据信息库和各种不同格式的输出。  2、ER/Studio,是一个支持多平台环境的直观数据建模工具... 查看详情

常用的大数据工具都有哪些?

未至科技魔方是一款大数据模型平台,是一款基于服务总线与分布式云计算两大技术架构的一款数据分析、挖掘的工具平台,其采用分布式文件系统对数据进行存储,支持海量数据的处理。采用多种的数据采集技术,支持结构化... 查看详情

大数据核心技术都有哪些

大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分布式存储、数据库、数据仓库、机器学习、并行计算、可视化等。1、数据采集与预处理:FlumeNG实时日志收集系统,支持在日志系统中定制各类数据发... 查看详情

数据可视化工具都有哪些?

数据可视化工具有思迈特软件Smartbi,Tableau,QlikSense,QlikView,DataFocus,FineBI。数据可视化是关于数据视觉表现形式的科学技术研究,是指将大型数据集中的数据以图形图像形式表示,并利用数据分析和开发工具发现其中未知信... 查看详情

主流bi工具都有哪些呢?

...块是PowerQuery、PowerPivot、PowerView。三个模块基本上囊括了数据分析的主要流程:PowerQuery清洗整理数据,PowerPivot数据建模,PowerView结果可视化,建立仪表盘,讲述数据分析的结果。3.SupersetSuperset是一个开源的、现代的、轻量级bi工... 查看详情

大数据生态技术体系都有哪些?

...我们还需要一些平台工具,如IDE开发、作业调度系统、大数据同步工具、BI模块、数据管理、监控和报警等。那么,什么是大数据生态技术体系?这对大数据工程师来说已经足够了,现在就思考一下大数据生态技术体系是什么?大... 查看详情

大数据相关平台/工具

...分布式Sql交互式查询引擎,Facebook开源的。⽀持任意数据源(通过扩展式Connector组件),数据规模GB~PB级。使用的技术,如向量计算,动态编译执⾏计划,优化的ORC和ParquetReader等。Kylin:阿帕奇的大数据分析工具。是一个开... 查看详情

postgresql开源免费企业级数据库用着比较爽的地方都有哪些?

参考技术A1),PostgreSQL是通用型数据库。PG有着丰富的数据类型(数值、字符、时间、布尔、货币、枚举、网络地址、JSONB等等)和索引类型(B-tree、Hash、GiST、SP-GiST、GIN和BRIN等)。可以存储和计算大多数场景的业务数据,如ERP... 查看详情

html5移动开源框架都有哪些

...程序的能力。DHTMLXTouchUIDesigner是一个可视化的编辑器用于构建移动用户界面。它能够帮您以最少的编码构建一流的用户界面。在其主页上提供一些示例可以展示DHTMLXTouch强大的用户界面。包括一个menuappfortheiPad(适用于开发餐厅应... 查看详情

免费的java快速开发平台都有哪些?

...基础架构中间件平台。FixES2007平台基于SOA架构体系,结合数据建模、业务建模、可视化流程引擎、动态表单设计等多种实现工具,其柔性的特点,保障了基于ES2007平台开发的系统可在.net平台与j2ee平台上无缝的切换运行,是企业... 查看详情

常用的etl工具都有哪些

...ine隶属于北京数见科技有限公司,是一家企业级批流一体数据融合服务商和解决方案提供商,国内实时数据管道技术的倡导者。通过平台和技术为企业客户解决数据准备过程中的各种痛点,帮助客户更敏捷、更高效、更简单地实... 查看详情

java的开源工具都有哪些

...和完成期限。Ganttproject的输出功能相当完备,不仅可以把数据保存为pdf文件和csv电子数据表文件,还可以输出为HTML文件发布到Internet上。由于Ganttproject是一款纯Java应用程序,因此它可以运行于Windows、Linux和MacOS等多个平台上。2Do... 查看详情

数据分析工具类软件,好用的都有哪些

数据分析一般需要掌握Excel、SQL等技能,而大数据呢,则需要是Java的一些技能,诸如SQL、Hadoop、HDFS、Mapreduce、Mahout、Hive、Spark可选:RHadoop、Hbase、ZooKeeper等等。目前市面上的BI工具,就是解决这些问题的,解放相关人员的生产力... 查看详情

python比较好用的库都有哪些

...ython程序转换成独立的执行文件(跨平台)。dh-virtualenv–构建并将virtualenv虚拟环境作为一个Debian包来发布。Nuitka–将脚本、模块、包编译成可执行文件或扩展模块。py2app–将Python脚本变为独立软件包(MacOSX) 查看详情

linuxfoundation都有哪些开源项目

...有物联网元素。您声称这21个项目都是开源的,但请确保完整的名称不在本文的范围内。它们至少在生态系统的一个部分运行Linux,大多数都完全支持Linux,从开发环境到云/服务器、网关 查看详情

翻译:deeplearning深度学习平台huggingface开源代码和技术构建训练和部署ml模型(代码片段)

...平台,提供:使用户能够基于开源(OS)代码和技术构建、训练和部署ML模型的工具。一个广泛的数据科学家、研究人员和ML工程师社区可以聚集在一起分享想法、获得支持并为开源项目做出贡献的地方。2.🔥通过社区推... 查看详情