【.com快译】如今,考虑各个行业与组织能够访问到的优秀数据越来越庞大、且越来越复杂。考虑不过,优秀我们需要对这些海量的考虑信息进行有效的处理和分析,进而发掘出那些隐藏在“噪声”中的优秀数据洞见。目前,考虑当属ETL(提取、优秀转换、考虑加载,优秀三个首字母缩写)方法最为常见。考虑它是优秀指:我们需要先从诸如数据库、文件、考虑以及电子表格之类的优秀数据源中提取信息,然后对其进行转换,考虑以符合数据仓库的标准,最后将它们加载到集中式的数据仓库中。 作为数据仓库分析与转化的重要组成部分,ETL往往需要依赖合适的工具来实现。目前市场上此类工具可谓林林总总。本文将为您筛选出七大顶级、八大补充ETL软件工具,在逐一介绍其特点和社区得分的基础上,云南idc服务商最后给出各种适用的场景。 作为基于云端的ETL和ELT(提取、加载、转换)数据的集成平台,Xplenty可以轻松地组合多个数据源。该平台提供了一个简单、直观的可视化界面,可用于在大量数据源和目标之间建立管道。 目前,Xplenty包装了上百种流行的数据存储和SaaS(软件即服务)应用,其中包括:MongoDB、MySQL、PostgreSQL、Amazon Redshift、Google Cloud Platform、Facebook、Salesforce、Jira、Slack、以及QuickBooks等。 Xplenty的优势在于:可扩展性、安全性和出色的客户支持。例如,Xplenty具有一项称为“字段级加密(Field Level Encryption)”的新功能,可允许用户使用自己的网站模板加密密钥,对数据字段进行加密或解密。同时,Xplenty也能遵守HIPPA、GDPR和CCPA等法律法规。 目前,在G2网站(译者注:知名的软件与服务评价平台)上有93位评论者为Xplenty给出了4.4颗星(满分为5颗星),并将其称为ETL工具领域的“领先者”之一。作为其中的一名评论者,Kerry D.声称:“该工具非常实用,它使得代码的开发与支持变得迅速且高效。” Talend Data Integration是一个开源的ETL数据集成解决方案。Talend平台不但能够与本地和云中的数据源相兼容,而且包括了数百个预构建(pre-built)的集成。 虽然对于一般用户而言,Talend的开源版本足以够用,但是较大型的企业用户则会选用其付费版本的数据管理平台。毕竟,付费版里包含了用于设计、生产力管理、监空、站群服务器以及数据治理的各种工具和功能。 Talend在G2上的平均得分为4.0颗星,并在Gartner的《数据集成工具魔力象限》报告中被评为“领先者”。作为其中的一名评论者,Jan L.认为:Talend是一个强大的、具有清晰易用界面的通用数据集成工具。 Stitch是一个开源的ELT数据集成平台。与Talend类似,Stitch也提供了付费的服务版本,应用于更高级的用例、以及更多的数据源。有趣的是,Talend于2018年11月收购了Stitch。 Stitch平台通过提供自助式的ELT和自动化的数据流水线,来简化流程。鉴于Stitch的ELT工具不会自动执行任意转换。因此,Stitch团队建议,转换一旦被添加到数据仓库内部,就应在原始数据之上添加各种分层。 G2上的评论者为Stitch给出了诸如高性能之类的正面评价。一位评论者称赞Stitch为“定价简单、提供内部工作流、且开源易用”。当然,Stitch也存在着一些小的技术问题,以及缺乏对小众数据源的支持。 Informatica PowerCenter是用于ETL任务的成熟、且功能丰富的企业级数据集成平台。当然,PowerCenter只是Informatica云数据管理工具套件中的一种。 作为企业级、且与数据库类型无关的解决方案,PowerCenter以其高性能、以及能与许多不同数据源(包括各种SQL和非SQL数据库)相兼容而著称。而Informatica PowerCenter的缺点在于:售价过高,且对于小型组织而言,可能由于较难学习与掌握,进而带来技术障碍。 尽管存在着上述缺点,Informatica PowerCenter还是在G2上斩获了4.3颗星,同时被誉为数据集成软件领域的“领先者”。作为其中的一名评论者,Victor C.认为PowerCenter是自己曾用过的、功能最强大的ETL工具。当然,他也抱怨PowerCenter的速度过慢,且无法与Tableau和QlikView等可视化的工具进行很好的集成。 作为Oracle数据管理生态系统中的一部分,Oracle Data Integrator(ODI)是一个全面的数据集成解决方案。显然,该平台是Hyperion Financial Management和Oracle E-Business Suite(EBS)等其他Oracle产品用户的合适选择。ODI既具有本地版本,又提供了Oracle数据集成平台云。 与其他工具不同的是,Oracle Data Integrator只支持ELT任务,而不支持ETL。而用户对此褒贬不一。同时,由于大部分外围功能都已经包含在了其他Oracle软件之中,因此ODI比其他各种工具更为简单。 目前,Oracle Data Integrator在G2上的平均得分为4.0。作为其中的一名评论者,Christopher T.认为,虽然ODI是众多选项中最强大的一款工具,但是需要经过必要的培训,方可上手。 Skyvia是一款可用于大数据集成、迁移和备份的云平台。用户可以用它来为包括Redshift、BigQuery和Azure在内的数据仓库,创建数据管道。Skyvia的最大亮点是:它通过提供无代码式的数据集成向导,以方便新、老ETL用户使用。 Skyvia在G2的用户群中备受欢迎,其评分为4.8。作为其中的一名评论者,David K.认为:即便知识有限,他们仍然可以使用由Skyvia提供的直观且灵活的连接工具,在多渠道零售业务中同步库存。 当然,在使用Skyvia作为ETL工具之前,请事先注意如下三个方面: 作为基于云端的ETL解决方案,Fivetran支持与Redshift、BigQuery、Azure和Snowflake等数据仓库的数据集成。Fivetran的最大优势在于提供了丰富的数据源阵列,其中包括约90种SaaS源,以及添加用户自定义集成的能力。 目前,Fivetran在G2上斩获了4.2星。许多用户对其简单性和易用性赞许有加。作为其中的一名评论者,Daniel H.认为:Fivetran可以提供快速、可靠的文档连接,并能够直接连接到新的连接器上。 当然,针对Fivetran从连接器的数量更改为基于消费的崭新定价模式,有用户提出了异议。同时,也有少数用户在技术和客户支持方面遇到过问题。他们认为:Fivetran是一个黑匣子,当出现问题时,不但很难自行诊断,而且难以获取热线支持。 Striim为大数据任务提供了一个实时的数据集成平台。用户能够以约20多种不同的文件格式,集成各种数据源与目标,其中包括Oracle、SQL Server、MySQL、PostgreSQL、MongoDB和Hadoop。由于Striim符合GDPR和HIPAA等数据隐私法规,因此用户可以使用SQL或Java定义预加载式的转换。 Striim平台主要缺点是:它无法包含任何SaaS源或目标,也不允许用户添加新的数据源。此外,Striim的用户群并不大,目前G2上只有1条评论。 作为一个云端的ETL平台,Matillion可以将数据与Redshift、Snowflake、BigQuery和Azure Synapse相集成。用户可以通过界面上的简单点击或在SQL中的定义,在Matillion中创建数据转换。 与Striim类似,与前面讨论的其他工具相比,Matillion仅支持约40种SaaS数据源。虽然它在G2处获得了4.2颗星,它的基于虚拟机的时间,而非实际工作量、或正在使用的计算资源的定价模式,让部分评论者们表示不认可。 由Hitachi Vantara提供的Pentaho(也称为Kettle)是一种可被用于数据集成和分析的开源平台。用户既可以选择Pentaho的免费社区版本,又可以购买其企业版的商用许可证。与Xplenty类似,Pentaho具有易用的界面,即使是ETL的新手,也可以使用它来构建稳定的数据管道。当然,Pentaho也存在着诸如:模板和技术有限等缺点。 目前,Pentaho在G2上的平均得分为4.3颗星。不过,有用户抱怨:由于在日志记录中缺乏针对错误的详细注释,因此他们很难识别错误的真正原因。 可用于大数据分析任务的AWS Glue,是由Amazon Web Services提供的完全托管式的ETL服务。作为一种端到端的ETL产品,AWS Glue不但减轻了ETL的工作负载,而且能够与AWS生态系统中的其余部分,进行良好的集成。 值得注意的是,AWS Glue是无服务器的。这意味着Amazon会自动为用户配置服务器,并在工作负载完成后将其关闭。AWS Glue通过提供作业调度、以及开发者端点(developer endpoints)等功能,方便易用地测试各种AWS Glue脚本。 目前,AWS Glue不但在G2平台上获得了3.9颗星,而且在X2上被评为ETL工具领域的“领先者”(类似Xplenty)。我们未将其列为前面7大顶级ETL工具的原因在于,它不如其他工具灵活,并且通常更适合那些已经处于AWS生态系统内的用户。 作为一个自动化的自助式云端数据仓库,Panoply旨在简化数据集成的过程。那些标准的ODBC/JDBC连接、Postgres连接、以及AWS Redshift连接的等数据连接器,都可以与Panoply兼容。此外,用户也可以将Panoply与前面提到的Stitch和Fivetran等ETL工具相连接,以进一步扩展其数据集成的工作流。 在G2上,Panoply已获得了4.4颗星。作为一名评论者,Stacie B认为:Panoply的最大优点是能够轻松地从多个来源导入数据,并能快速地设置程序,与实现数据的加载。 Panoply未被入选七大顶级ETL工具的理由在于:Panoply既是数据仓库,又是ETL解决方案。因此,如果您已经正在使用其他类型的云端数据仓库,并且不打算进行更换的话,则没有必要选用Panoply。 作为一种云端数据仓库的ETL数据迁移工具,Alooma的主要卖点在于,它自动化了大部分数据管道,以方便用户去关注技术细节,而非结果。 2019年2月,谷歌收购了Alooma,并将其注册仅限于Google Cloud Platform的用户。这意味着任何使用其他数据仓库(如Redshift或Snowflake)的客户,都将无法使用该工具。 尽管如此,Alooma在G2上仍收获了4.0颗星的好评。其中的一名评论者认为:虽然Alooma通过其代码引擎功能提供了各种灵活性,但是其某些关键性的工具栈服务尚未成熟。 作为一个ETL数据集成平台,Hevo Data具有上百种预构建的连接器,可用于连接诸如Redshift、BigQuery和Snowflake等各种数据库,云端存储和SaaS源。用户可以使用Python在Hevo Data中自定义预加载的转换。 Hevo的最大局限性在于,它无法添加自己的数据源,以建立新的连接。此外,Hevo Data的用户群较小,目前在G2上只有6条评论。 作为一个实时数据复制平台,FlyData的最大优势在于:它仅与Amazon Redshift数据仓库相兼容。也就是说,如果您是Redshift的“骨灰级用户”,那么可以直接使用这款为Redshift量身定制的工具。不过,如果您正在使用其他的数据仓库方案,或者想要保持灵活性,并避免被供应商锁定的风险,那么FlyData就不太适合了。此外,FlyData仅适用于诸如Amazon RDS、Amazon Aurora、MySQL、Percona、PostgreSQL和MariaDB等,少数数据源(其中并无SaaS平台)。 由上可见,没有两款ETL软件工具是完全相同的,它们各有自己的优、缺点。为了让您能够为自己的业务需求,找到最佳的ETL工具,下面我们来讨论每种工具最适合的应用场景。您可以据此进行综合评估与选用。 如您所见,在为自己的团队确定最佳ETL软件工具时,您需要了解项目的特点和使用场景,通过试用与研究,方能发现最佳选择。 原文标题:Top 7 ETL Tools for 2021,作者: Abe Dearmer 【译稿,合作站点转载请注明原文译者和出处为.com】
1. Xplenty
2. Talend
3. Stitch
4. Informatica PowerCenter
5. Oracle Data Integrator
6. Skyvia
7. Fivetran
其他值得参考的8种ETL工具
8. Striim
9. Matillion
10. Pentaho
11. AWS Glue
12. Panoply
13. Alooma
14. Hevo Data
15. FlyData
优秀ETL工具的用例