中国大数据教育领跑者

IT培训上市机构

当前位置:首页 > 大数据培训 > 技术分享
发布日期:2017-12-27   

Python是一门面向对象的编程语言,编译速度超快,因为其拥有大量第三方库,擅于利用这些库就可以完成绝大部分工作。大数据和人工智能助力Python发展,如果想选择一种语言来入门编程,Python绝对是首选。

发布日期:2017-12-27   

大数据Spark技术为什么这么火?现在spark技术深受各大公司欢迎,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,可以说是一个罕见的全能选手。同时学习spark的学生也越来越多。

发布日期:2017-12-27   

概述Overview

在Apache Beam Fn API 总体介绍中阐述了总体视角,列出了一系列相关的文档。本文中描述了Beam Runner和Beam SDK Harness交互的细节,使用Fn API来处理Bundle(一组乱序的数据)

处理Bundle

需求Requirements

发布日期:2017-12-27   

场景模拟
我试图覆盖工程上最为常用的一个场景:
1)首先,向Kafka里实时的写入订单数据,JSON格式,包含订单ID-订单类型-订单收益
2)然后,spark-streaming每十秒实时去消费kafka中的订单数据,并以订单类型分组统计收益

发布日期:2017-12-27   

环境准备

mongodb下载

解压安装

启动mongodb服务

发布日期:2017-12-27   

如果你的Hadoop项目将有新的突破,那么它必定与下边介绍的七种常见项目很相像。有一句古老的格言是这样说的,如果你向某人提供你的全部支持和金融支持去做一些不同的和创新的事情

发布日期:2017-12-27   

在学习Spark机器学习时,书上用scala完成,自己不熟悉遂用pyshark完成,更深入的理解了spark对协同过滤的实现
在这里我们的推荐模型选用协同过滤这种类型,使用Spark的MLlib中推荐模型库中基于矩阵分解(matrix factorization)的实现

发布日期:2017-12-27   

初接触Hadoop技术的朋友肯定会对它体系下寄生的个个开源项目糊涂了,我敢保证Hive,Pig,HBase这些开源技术会把你搞的有些糊涂,不要紧糊涂的不止你一个,下面给大家详细的介绍

发布日期:2017-12-27   

hivehbase分布式文件系统基础架构数据分析数据库大数据

摘要:对于刚接触大数据的用户来说,要想区分Hive与HBase是有一定难度的。本文将尝试从其各自的定义、特点、限制、应用场景等角度来进行分析,以作抛砖引玉之用。

发布日期:2017-12-27   

一. 显示地展示当前使用的数据库 hive> set hive.cli.print.current.db=true;

̶ 切换当前的数据库 hive(default)> USE hduser4801;

̶ 使Hive显示列头 set hive.cli.print.header=true;

发布日期:2017-12-27   

我最近研究了hive的相关技术,有点心得,这里和大家分享下。
首先我们要知道hive到底是做什么的。下面这几段文字很好的描述了hive的特性:

发布日期:2017-12-27   

每每提到数据挖掘,总有些人上来就是ETL、是算法、是数学模型,作为搞工程实施的我而言,很是头疼。

发布日期:2017-12-27   

背景
集群安全措施相对薄弱
最早部署Hadoop集群时并没有考虑安全问题,随着集群的不断扩大, 各部门对集群的使用需求增加,集群安全问题就显得颇为重要。说到安全问题,一般包括如下方面:

发布日期:2017-12-27   

对那些想快速把数据传输到其Hadoop集群的企业来说,Kafka是一个非常合适的选择。关于什么是Kafka我就不介绍了,大家可以参见我之前的博客:《Apache kafka入门篇:工作原理简介》

发布日期:2017-12-27   

Hive
不想用程序语言开发MapReduce的朋友比如DB们,熟悉SQL的朋友可以使用Hive开离线的进行数据处理与分析工作。
注意Hive现在适合在离线下进行数据的操作,就是说不适合在挂在真实的生产环境中进行实时的在线查询或操作,因为一个字“慢”。相反

发布日期:2017-12-27   

1.HBase是什么
1)HBase的产生背景?随着数据规模越来越大,大量业务场景开始考虑数据存储的水平扩展,使得存储服务可以快速执行客户端发来的请求,而目前的关系型数据库更专注一台机器。

发布日期:2017-12-27   

科多大数据小课堂开课啦,带你认识Hadoop中Hbase的体系结构:

发布日期:2017-12-27   

Apache Ranger提供一个集中式安全管理框架,它可以对Hadoop生态的组件如Hive,Hbase进行细粒度的数据访问控制.通过操作Ranger控制台,管理员可以轻松的通过配置策略来控制用户访问HDFS文件夹、HDFS文件、数据库、表、字段权限.这些策略可以为不同的用户和组来设置,同时权限可与hadoop无缝对接.

发布日期:2017-12-27   

Impala手动安装步骤,新增Impala用户并加入sudo权限

发布日期:2017-12-27   

HAWQ 是 Pivotal 设计的一个大规模并行 SQL 分析处理引擎,支持事务处理。HAWQ 将复杂的查询分割成简单的任何,并分发到并行处理系统中的处理单元执行。包括查询规划器、动态管道、前沿互联和查询执行优化器等等。提供最高级别的性能和可伸缩性。HAWQ 基于 Hadoop 架构是GPon HDFS。

发布日期:2017-12-27   

Hbase的权限控制是通过AccessController Coprocessor协处理器框架实现.

发布日期:2017-12-27   

此手册应用于hive建表时指定列按照多字段分割的情景。

发布日期:2017-12-27   

本文应用于row_number、unbase64、windowingtablefunction在开启sentry后不能执行的bug分析。

发布日期:2017-12-27   

此手册应用于hadoop yarn资源按照队列分配的情景。

发布日期:2017-12-25   

北汽福田汽车股份有限公司(简称福田汽车)是中国品种最全、规模最大的商用车企业。福田汽车成立于1996年8月28日,1998年6月在上海证券交易所上市,股票代码600166。现有资产570多亿元,员工近4万人,产销量位居世界商用车行业第一位。

 74    1 2 3 下一页 尾页

值班手机:18501996998

咨询QQ: 226594285 / 428683440

全国咨询热线:400-690-5006

校区地址:北京市海淀区中关村科技园首农蓝海中心C座-7层

点击关注:

魔据教育官方微博

魔据官方微信