企业hadoop:大数据处理更容易

亚马逊、云房、Hortonworks、IBM和MapR混合简单搭建Hadoop集群

常有阿帕契哈多开源项目帮助你把工作量划分成计算机架字现在为老板所熟知 但仍然只是你老板的模糊隐蔽概念容得下实验空间时 置身甜点使用Hadoop制作作品的公司清单日复一日增长, 可能不久后Hadoop集群取代Hapoop超级计算机下一版WOPR势必运行hadoop

区域蓬勃发展,核心项目吸引大批助手项目组织工作量并简化工作汇总管理HDFS标准文件系统 组织数据分布集群hive数据存储层理解这些数据mahut编程从所述数据中学习和动物园维护者工具 保持所有球在空气中至少有半成或多开源工具生活在Hadeop周围稳定轨道上

探索当前趋势 和解决BIInfoWorld交互商务智能iguide.读约InfoWorld2012技术年度奖得主.读约InfoWorld前十大新兴企业技术.发现商务应用新InfoWorld技术应用通讯.万事通

开源项目才刚开始-- 数大公司正在兴起 计划帮助人们实际使用Hadoop一些人只是出售支持,另一些人正在搭建自己的工具,这些工具与Hadeop并排并易用

通常视这种竞赛为开源最优核心包集合像标准令每个人都同步各组竞相添加右调料以吸引客户,包括付费和免付费中心集合量持续有争议, 因为在大型开源项目中可能存在, 但实验量大到难以过于集中分享量

感知刺激,我带四大集合试车集结拉克空间安装工具,按按钮并运行样本作业奇特容易花几便士一或两个机器时间- 如此之多以至于我发现自己在午餐时间闲置值不值得免得任何人怀疑云计算效率, 我注意到我带4GB内存相对肥机集群的收费比车角停车成本低泊车表旋转速度更快

坏消息是这些集合远非完美没有一个工具我尝试完全按允诺工作总是小故障我常发现自己读日志文件 并分页 无穷无尽的Java栈人将不得不应用Hadeop分析无休止栈等几秒钟后,我通常能重回正轨工具可能不要求经验丰富的人运行后使用, 但它们无法安装,除非你对Jaava栈组织方式相当敏捷

尽管有这些阻力,我大部分时间都在翻查数据好消息是所有这些工具很容易 组装计算机解决问题使用这些工具比下载和配置源码容易得多设计成单按钮应用 接近实现目标

亚马逊弹性地图亚马逊云计算先驱之一提供机制旋转HadoopEC2云,这不足为奇Elistic MapRedce与亚马逊其他弹性供品紧密结合,并成为亚马逊WebService主页的另一标签存储数据S3后启动作业

集成性很好亚马逊提供ava网络接口 手持效果很好 处理许多故障当它想存储数据S3桶时,它翻转我网页创建桶

webGUI太幼稚了, 并存经典Web服务API 由多位程序员包装成软件并开始运行工具集标准起始端为S3云

亚马逊与弹性地图网化基本向那些愿意深入亚马逊网络服务者提供EC2顶部更好打包我本可以在EC2上搭建我自己的机群并使用Hadeop变换器旋转,但弹性地图带提供一套不错的快捷键亚马逊已经搭建并整合基础设施,你只需按按钮选择Hadeop(0.18或0.2)使用哪个版本不必担心Linux哪个版本下运行

基础设施相当不错可选择为机器支付股价或点市空机竞价这是一种额外特征 刺激自由市场球迷, 但我发现它混淆选择出价并冒险出价太少,最终可能等待很长时间,也许甚至永久

需要注意的是云不即时响应从5分钟到18分钟执行小作业 需要微秒执行完全配置集群管理费不会改变大作业, 但它并不像有你自己集群 耐心等待你按Start按钮

利用所有这些特征意味着购买亚马逊存储系统s3数据使用后 准备出发要不然你就得做点决定一些人发现S3对批量数据太贵 很少访问所有工程费用你支付 那些需要相当好响应时间的人 价格嵌入检索成本

亚马逊所有额外特征对两类用户来说都很好选择已经拥有亚马逊云中大部分相关数据 弹性地图显示很容易翻转作业分析管道已经完全安装

另一组人大半时间不需要集群, 却想每周做一次短强度计算, 每月一次或四分之一次计算使用其他工具创建全Hadoop集群的工作不多, 但偶尔请求新机器是愚蠢的亚马逊为上传ython脚本或JAR文件并直接计算提供快捷键

云台CDH主管企业Clodeera启动程序收集所有大公司使用Hadoop的Hadoop专家CTO来自雅虎,主科学家来自脸书,CEO来自Oracle员工中充斥着通过搭建Hadoop学习者的名字

公司销售培训支持专业服务 并使用工具管理集群云传播基础管理器免费使用50台以下机群,企业订阅版则提供更多处理标准数据格式特征

免费版对启动集群并监控作业流出系统非常有用管理者取IP地址列表,用SSH登录所有地址并安装主工具

自动化很容易运行云变换程序,但我仍得修补几小插件安装到CMOS上one元件需要一定版本拉链, 并停止工作直到我登陆机器并安装上下点Web图形用户界面不工作,直到我重新登录并安装部件库ExtJS开源许可可能不兼容

记录提醒我小点上头IBM安装器可使用不同的root密码Clodera安装者想使用同根密码或同 RSA密钥这意味着我不得不登录所有机器并修改密码,因为我使用CentOS股票版启动机架

事实,我注意到这个小点 并记住它说了很多 这里出售的东西工具开源公司销售易用性小延迟可乘法非完全相同代码

云人工具使用各种Linux变异技术做得更好Ubuntu、Suse、Redhat、CentOS和Debian列表虽然我不得不做点CentOS补丁 相对简单

自由和企业版本之间的差比我常看到的大点专有版不仅处理50多台机器,而且还包括大量的监控报告分析工具

换句话说,免费版是启动hadoop集群和确保所有运行方式的好方法,但你必须做点插图监控它企业版包含更多工具 自动插播并复查

IBMInfoGiewsIBM打包Hadoop,它称InfoSphereBigInsights主页上写着Hadoop字,但广告拷贝清楚地表明,这是一个帮助那些想对大数据“深入洞察力”的人的产品。它是一个数据分析工具,它碰巧使用Hadoop处理所有结构

分两个层次:基础层次和企业层次基本版完全免费使用,但可购买支持企业版通过商业许可提供,包含多项额外特征,如BigSheets类像电子表格工具,用于钻入数据集群中的数据

集合中包括所有常用疑犯和不常提及的几例-如LuceneLucene说得通,因为BigInsights包含多机制拆分文本整组文本提取器 将做诸如搜索地址并标出某些字文本解析素材企业版

IBM文献表示BigInsights包面向Linux公司,但我发现它运行顺利,只有Redhat企业分布安装脚本会缩到尾声 少数我尝试过, 但它常报告它未能安装全工具像Hive或Pig连CentOS都不够近 无法运行并乐于绕行日志文件, 但仍有可能实现BigInsights运行, 但它只有在运行RedHat企业时才能实现劳动节支

顺便说一句,安装脚本中多处优美触摸软件小心记住我所有输入量 免得每次重构云中应该有用 人可能想翻转集群 并拆分软件中还包含数小特征,例如能记住每个节点的不同根密码可大有帮助

IBM中心工具是一个控制台 帮助你搭建一些作业并启动完全浏览器基础-像安装脚本- 你可以直接通过Web浏览器上传JAR文件可钻入HDFS文件系统层并阅读结果而不离开浏览器

WebGUI使用命令行大前程,但我很容易发现基本版机台可改进的若干方法据我所知 无法删除旧作业每项作业的信息都包含起停时间的基本细节,但几乎所有其他事物都作为原文本倾销解析部分并显示日志信息并做得更好并不会太难

监控程序也初级化可以看到集群中的节点运行和组件启动,但你得不到显示负载或进度的酷点或部件请求分解分解时,会弹出与分解相关联的Log4J线ava程序员不眨眼,但其他人可能发现它闲置闲置

一号2 第1页
第2页
IT薪资调查结果显示