您好,欢迎来到三六零分类信息网!老站,搜索引擎当天收录,欢迎发信息
免费发信息
三六零分类信息网 > 运城分类信息网,免费分类信息发布

什么是Hadoop,大数据与hadoop简介,干货给你,不谢

2023/2/9 16:30:29发布43次查看
要了解什么是hadoop,我们必须首先深入了解与大数据和传统系统处理相关的问题。在这篇文章中,我们要讨论一下:
· 传统方法的问题
· hadoop的演变技术发展很多, 我们可以使用大数据作为机会。早些时候,我们在储存上花了太多时间。直到大数据出现,我们从来没有想过使用商品硬件来存储和管理与昂贵的服务器相比是可靠和可行的数据。但是后来,企业意识到,他们通过大数据分析获得了很多好处,如下图所示。
图:什么是hadoop - 大数据分析的好处
所以,让我们进一步了解传统方法与大数据机会相融合的问题。
传统方法的问题
在传统方法中,主要问题是处理数据异构性,即结构化,半结构化和非结构化。rdbms主要侧重于结构化数据,如银行交易,运营数据等,hadoop专门从事半结构化,非结构化数据,如文本,视频,音频,facebook职位,日志等。rdbms技术是经过验证的,高度一致的成熟系统得到许多公司的支持。而另一方面,hadoop系统技术由于大数据(大部分由不同格式的非结构化数据组成)而被开发并且是需求的。现在让我们了解与big data相关的主要问题是什么。所以,向前推进,我们可以了解hadoop如何出现作为一个解决方案。
图:什么是hadoop - 大数据问题
所以,第一个问题是存储大量的数据。将这个巨大的数据存储在传统的系统中是不可能的。原因很明显,存储将被限制在一个系统中,数据的增长速度非常快。
第二个问题是存储异构数据。现在我们知道存储是一个问题,但是让我告诉你这只是问题的一部分。由于我们讨论过的数据不仅是巨大的,而且它以各种格式存在,如:非结构化,半结构化和结构化。所以,您需要确保您有一个系统来存储从不同来源生成的这些数据。
现在,我们来关注第三个问题,即访问和处理速度。硬盘容量不断增加,但磁盘传输速度或访问速度不以相似的速度增加。让我以一个例子来解释一下:如果你只有一个100mbps的i / o通道,并且正在处理1tb的数据,那么它将需要大约2.91小时。现在,如果您有四台机器具有四个i / o通道,数据量相同,则大约需要43分钟。因此,对于我来说,访问和处理速度是比大数据存储更大的问题。
在了解hadoop之前,先看一下hadoop在一段时间内的演变。
学习与专家的hadoop
hadoop的演变
后来在2008年1月,雅虎发布了hadoop作为apache软件基金会的开源项目。2008年7月,apache测试了一个拥有hadoop的4000节点集群。在2009年,hadoop在不到17小时内成功地排列了数百亿的数据,处理数十亿次的搜索和索引数百万个网页。在2011年12月推出的apache hadoop发布了1.0版本。稍后于2013年8月,版本2.0.6可用。
当我们讨论这些问题时,我们看到一个分布式系统可以是一个解决方案,hadoop也是一样的。现在,让我们了解什么是hadoop。
什么是hadoop?
hadoop是一个框架,允许您首先在分布式环境中存储大数据,以便您可以并行处理它。 hadoop基本上有两个组件:
图:什么是hadoop - hadoop framework
第一个是用于存储的hdfs(hadoop分布式文件系统),允许您在集群中存储各种格式的数据。第二个是yarn,它只不过是一个hadoop的处理单元。它允许并行处理数据,即存储在hdfs中。
请加大数据学习交流8群640193172,了解更多大数据相关知识点,共同讨论
运城分类信息网,免费分类信息发布

VIP推荐

免费发布信息,免费发布B2B信息网站平台 - 三六零分类信息网 沪ICP备09012988号-2
企业名录