Hadoop生态系统将永久存在。行动频年来最要紧的大数据复古时间之一,而况瞻望异日几年仍将链接线路要紧作用,Hadoop如今已成为通用数据集成系统(如数据诬捏化平台)的纰谬办法数据源之一。有关词,Hadoop不单是是一个数据库或一款软件。它是一个复杂的生态系统,由多种高度异构的软件组成,运行于散布式数据环境中——险些不错看作是一个孤立的操作系统。因此,将Hadoop行动数据源进行集成开云体育(中国)官方网站,带来了一系列其他系统所莫得的挑战。咱们不错从念念考将Hadoop行动数据源集成究竟意味着什么运行。
咱们不错通过界说一系列孤立的集成点来分析这个场景,将其分为两组:基本集成点和专科集成点。这些集成点将赋予数据诬捏化平台使用Hadoop装配的特定部分行动孤立数据源的才气,每个部分具有我方的性情和功能。
基本集成点
Hadoop中枢的两个最要紧组件之一是Hadoop散布式文献系统(HDFS)。HDFS是一个孤立于主机操作系统的文献系统,其爱戴方式使得通盘存储在其中的文献齐被散布到Hadoop集群的不同节点上。HDFS关于数据诬捏化(DV)平台极为要紧,因为所少见据齐存储在这里,而这些数据可能被多样Hadoop复古的软件所使用。若是咱们执行自界说的MapReduce任务,它们的闭幕会输出到HDFS文献中;若是咱们使用Hive或HBase,它们的数据也会存储在HDFS中;若是咱们使用任何Hadoop剧本话语,操作的亦然HDFS文献。数据就存储在这里,咱们可能需要以某种方式探听它,就像咱们可能需要胜利探听DV平台主机系统上土产货或辛劳文献夹中的文献相似,不管这些文献的形状或创建它们的软件是什么。
除了号令行,HDFS还提供了一种二进制API库,不错匡助数据诬捏化平台探听其中的数据。这个API复古文献系统中的不同类型的文献以及不错对它们执行的操作。关联词,它是一个二进制API,因此使用它时,咱们在软件和Hadoop的API之间引诱了一个硬衔尾或依赖干系。当开发定制的里面料理决策时,这并不是什么大问题,但当创建通用的数据集成器具时,条目它们梗概在多样不同的场景中开箱即用时,这就组成了一个要紧挑战。此外,数据诬捏化系统时常部署在辛劳的Hadoop集群上,因此,好多时候,使用这些高性能二进制库的克己可能相较于使用更模范的接口有所限度。
大多数Hadoop装配还允许通过REST API探听HDFS偏激操作,主要通过两个接口:WebHDFS和HttpFS。它们之间存在一些意见上的各异(举例,WebHDFS会将客户端重定向到数据所在的特定节点,而HttpFS则不错行动单职业器代理),这可能使咱们根据特定场景的需求偏好其中一个。不外,时常情况下,它们是互操作的,提供了特殊好的性能,最要紧的是为外部/辛劳数据集成软件(如DV)提供了一个基于HTTP左券的模范、解耦的接口来探听数据。
因此,一朝文献系统的探听问题料理,接下来咱们可能需要的其他基本/中枢集成点是什么呢?安全性,虽然!
Hadoop中的安全性险些成为了一个孤立的行业。Hadoop系统中有好多不同的数据加密、身份考据和授权料理决策,这亦然必须的,因为咱们筹议的是保护无数可能敏锐的数据以及处理这些数据的过程。多年来,各个企业级Hadoop刊行商齐为生态系统孝顺了我方的力量,安全性是鼎新(以及异构化)最为显耀的规模之一。
有关词,从数据诬捏化平台的角度来看,集成Hadoop(或其部分)行动数据源时,咱们时常将Hadoop安全性视为外部/辛劳客户端,因此,大多数加密和授权机制应该对咱们透明。这意味着咱们不错专注于身份考据,至极是专注于险些通盘Hadoop职业中最深广的身份考据机制:Kerberos。
通过缔造一个密钥分发中心(KDC),Kerberos梗概以汇注方式保护Hadoop装配中的通盘效户密码,但这条目Hadoop客户端在身份考据过程中梗概使用Kerberos左券,即得到并料理特定的身份考据把柄(票证),并将它们发送给Hadoop中的Kerberos化职业。这条目数据诬捏化系统集成(或至少梗概与之交互)Kerberos客户端软件,以便梗概与Hadoop职业引诱安全通讯通谈。
关于像WebHDFS和HttpFS这么的HTTP REST API,时常会提供一种名为Kerberos SPNEGO的特定机制,数据诬捏化平台不错使用该机制探听这些职业。
图1:数据诬捏化无需挪动数据即可整合数据
通过HDFS和安全性,咱们如故涵盖了基本人分:咱们不错以安全的方式探听Hadoop装配中的数据。有关词,实质上,大多数Hadoop装配并不单是运行自界说开发的MapReduce任务,并将文献输出到HDFS。违反,更多复杂的Hadoop复古软件在Hadoop中枢上运行,梗概更高效地进行数据存储、查询和分析,这些数据诬捏化平台不错行动其数据源,而无须胜利探听HDFS。这即是咱们离开Hadoop中枢并运行参议专科集成点的所在,也即是与运行在Hadoop系统上的特定数据职业的集成。
专科集成点
Hadoop是一个特殊健康且富足期望的生态系统,有无数不同的数据导向器具不错在Hadoop中枢上运行。从数据诬捏化平台的角度来看,好多这些器具不错行动数据源,但它们的异质性使得每一个器具齐必须单独连络。从数据破费者的角度来看,莫得“与Hadoop集成”这一说法,唯有“与Hadoop的X职业集成”这一说法。
让咱们简要评述两个最受接待的Hadoop数据职业:Apache HBase和Apache Hive。
Apache HBase是一个运行在HDFS上的NoSQL数据存储。它的纰谬特质是梗概提供对存储在HDFS中的数据的立时及时探听(而HDFS本人无法提供这种探听)。它具有雷同于Google BigTable筹商的键值数据存储神志,并根据具体的Hadoop刊行版提供多种探听方式,从二进制API库到REST接口等,遴荐不同的安全机制(主要基于Kerberos认证)。
从数据诬捏化平台的角度来看,探听HBase时常意味着辛劳探听。为此,REST API是一个细致的模范且解耦的取舍,但出于性能或架构原因,咱们可能更倾向于取舍二进制API。在这种情况下,和胜利探听HDFS相似,咱们将濒临将代码与这些二进制API的特定版块高度耦合的问题,因此咱们实质上是在以性能为代价,调换了爱戴上的便利。需要明慧的是,HBase并不是一个干系型数据存储,因此它并莫得(胜利)提供任何模范的SQL接供词咱们通过模范API(如JDBC或ODBC)辛劳探听。
Apache Hive是一个针对大数据集的查询和分析器具。它运行在HDFS之上,并提供了雷同SQL的接口,稳健从数据诬捏化平台进行简单查询。此外,Hive不仅不错胜利对HDFS存储的数据集进行操作——实质上,它还不错诈欺现存的HBase基础设施,借助Hive雄壮而机动的数据分析器具对已存储和/或处理的数据进行分析。数据诬捏化平台不错通过模范的JDBC或ODBC驱动才略邋遢探听Hive职业,通过Kerberos进行身份考据,并将来自Hadoop装配的数据险些与任何其他干系型数据库料理系统(DBMS)相似进行集成。
图2:数据诬捏化终了数据编织架构
有关词,HBase和Hive只是两个(特殊流行的)示例。不错行动数据诬捏化数据源使用的Hadoop数据职业特殊多,还有好多其他流行的软件包,如Apache Phoenix、Cloudera Impala、Pivotal HAWQ、MapR-DB等。在险些每种情况下,咱们齐会发现数据诬捏化系统行动辛劳客户端,使用二进制库、基于REST的API或SQL API(如JDBC)来检索数据,并使用Kerberos认证。每种接口的取舍将在每种情况下决定这些集成的可人戴性、性能和开发责任量,最终将根据每种场景遴荐的步伐和架构,匡助数据诬捏化平台从Hadoop大数据系统中索要最大价值。
四大显耀上风
通过数据诬捏化时间,企业梗概更高效地诈欺Hadoop数据源,料理传统集成方式的瓶颈。以下是数据诬捏化在Hadoop集成中的四大上风:
1. 高效的数据集成:进步整合效果50%
数据诬捏化时间梗概在不挪动数据的情况下,将Hadoop中的数据与其他数据源进行整合。这种步伐不仅幸免了数据复制和存储资本,还大大进步了数据探听效果。连络标明,使用数据诬捏化时间后,数据整合效果提高了50%。
2. 及时数据探听:加快决策过程30%
数据诬捏化梗概提供对Hadoop数据的及时探听,摒除了传统数据集成中需要恭候ETL过程完成的蔓延。这使得企业梗概在数据生成的第一时期进行分析和决策,匡助公司加快了30%的决策经过。
3. 缩短资本:勤俭40%的集成用度
通过诬捏化,企业梗概减少数据复制和物理存储的需求,同期缩短了开发和爱戴资本。数据表露,遴荐数据诬捏化后,Hadoop与其他系统的集成资本缩短了40%,而况集成过程中的复杂性大大减少。
4. 机动搪塞时间变革:无缝彭胀
跟着大数据时间的抑止发展,新的时间和器具层见叠出。数据诬捏化平台梗概邋遢适合这些变化,并为企业提供无缝的时间彭胀才气。这意味着,企业不错跟着时间的发展机动地改换其数据架构,无需挂牵系统的兼容性问题。
数据诬捏化时间不仅料理了Hadoop生态系统中的集成挑战,还为企业提供了高效、低资本的数据整合决策。通过数据诬捏化,企业梗概快速、机动地探听和分析分裂在多个数据源中的数据,进步业务敏捷性和决策效果。
为了鼓吹抓续的遴荐与鼎新开云体育(中国)官方网站,Denodo AI SDK偏激示例聊天机器东谈主应用如故以Apache开源许可免费发布,且行动Denodo Express的免费版一部分进行分发。任何东谈主齐不错下载、巡逻和修改AI SDK的Python源码,快速进修并评估端到端的GenAI应用,而无需支付前期资本。您不错向公众号发送“免费试用”,得到 Denodo Express 以及 Denodo AI SDK 的免费下载衔尾。