1
spark2.4 分布式安装

一.Spark2.0的新特性Spark让我们引以为豪的一点就是所创建的API简单、直观、便于使用,Spark 2.0延续了这一传统,并在两个方面凸显了优势: 1、标准的SQL支持; 2、数据框(DataFrame)/Dataset (数据集)API的统一。 在SQL方面,我们已经对Spark的SQL ...

西瓜哥119 @ 2019/04/22

3
ES 18 - (底层原理) Elasticsearch写入索引数据的过程 以及优化写入过程

Elasticsearch是如何通过Lucene把索引数据写入磁盘的? 为了实现更快的实时性、更可靠的数据持久化, 以及更高效的大量segment文件的归并, 还能不能优化这个过程? 本片文章介绍一些优化实践, 欢迎交流呀( ⊙ o ⊙ ) ...

马瘦风 @ 2019/04/18

5
spark-windows(含eclipse配置)下本地开发环境搭建

spark-windows(含eclipse配置)下本地开发环境搭建 >>>>>>注意:这里忽略JDK的安装,JDK要求是1.8及以上版本,请通过 java –version查看。 一、spark命令行环境搭建 Step1:安装Spark 到官网http://spark.apache.org/dow ...

庐山烟雨 @ 2019/04/16

6
《工业大数据白皮书》2019版正式发布(附下载)

《工业大数据白皮书(2019版)》基于工业大数据技术、产业发展现状,重点围绕“工业数据管理”这一热点议题,提炼了当前工业领域数据管理的重要方法,完善了工业大数据标准体系,为推动工业大数据落地应用和战略部署提供标准化支撑。 ...

数智物语说 @ 2019/04/15

7
大数据学习(二)-------- MapReduce

前提已经安装好hadoop的hdfs集群,可以查看 https://www.cnblogs.com/tree1123/p/10683570.html Mapreduce是hadoop的运算框架,可以对hdfs中的数据分开进行计算,先执行很多maptask,在执行reducetask,这个过程中任务的 ...

独孤风 @ 2019/04/15

8
ES 16 - 对Elasticsearch中的索引数据进行增删改查(CRUD)

如何对Elasticsearch的索引数据进行增删改查操作? 新增数据时是否指定id? 如何通过`_id`和`_source`元字段查询文档, 全量修改和强制替换文档的使用, 删除文档的原理...... 本篇文章作个比较详细的说明~ ...

马瘦风 @ 2019/04/13

9
ES 17 - (底层原理) Elasticsearch增删改查索引数据的过程

听说过Elasticsearch的协调节点吗? 在CRUD索引数据的时候, 就是它负责转发客户端的请求的. 转发之后是如何处理请求的呢? 这篇博文作个精简的介绍. ...

马瘦风 @ 2019/04/13

11
初识Flink

chaojianok @ 2019/04/12

12
大数据学习(一)-------- HDFS

需要精通java开发,有一定linux基础。 1、简介 大数据就是对海量数据进行数据挖掘。 已经有了很多框架方便使用,常用的有hadoop,storm,spark,flink等,辅助框架hive,kafka,es,sqoop,flume等。 常见应用推荐系统,用户画像等。 2、hadoop hado ...

独孤风 @ 2019/04/12

13
ES 14 - (底层原理) Elasticsearch内部如何处理不同type的数据

Elasticsearch的type有什么用处? 通过type元字段实现了什么功能? 底层如何使用? 有哪些注意事项/最佳实践? 本篇文章对这些内容作一个简单的探讨. ...

马瘦风 @ 2019/04/12

14
ES 15 - Elasticsearch中的数据类型 (text、keyword、date、geo等)

Elasticsearch中每个field都对应一个数据类型. 本篇详细介绍string、date、array、object、nested、geo等数据类型的作用及主要用法. 欢迎交流( ⊙ o ⊙ ) ...

马瘦风 @ 2019/04/12

15
大规模数据传输,知易行难 — 数据传输与 ETL 平台的架构演进

从 vivo 大数据平台架构、数据采集的需求与挑战、平台架构演进过程、未来规划与展望等方面回顾和解读了大规模数据传输“知易行难”的演进过程。 ...

vivo互联网技术 @ 2019/04/11

16
Hive基础测试操作

一、Hive测试 1.查看数据库 show databases; 2.使用某个数据库,如默认数据库 user default; 3.创建表 create table if not exist itstar(id int,name string); 4.插入数据 insert into table i ...

给你一个公主抱 @ 2019/04/10

17
Hive的DDL

DDL:data definittion language 数据定义语言 主要是定义或改变表的结构、数据类型、表之间的链接和约束等初始化操作 DML:data manipulation language 数据操作语言 主要是对数据库的数据进行增删改查操作,如select、insert、delete、 ...

给你一个公主抱 @ 2019/04/10

18
Kafka使用jmxtrans+influxdb+grafana监控JMX指标

最近在搞Kafka集群监控,之前也是看了网上的很多资料。之所以使用jmxtrans+influxdb+grafana是因为界面酷炫,可以定制化,缺点是不能操作Kafka集群,可能需要配合Kafka Manager一起使用。 环境信息 CentOS Linux release 7.6.1810 (Co ...

湮灭时空 @ 2019/04/10

19
ES 13 - Elasticsearch的元字段(_index、_type、_source、_routing等)

元字段是ES为每个文档配置的内置字段, 主要用于ES内部相关操作. ES有多种类型的元字段, 在使用和提高性能方面有很强大的地方, 这篇文章列举常用元字段的功能和使用方法, 包括_index、_type、_source、_routing等, 欢迎交流吖~ ...

马瘦风 @ 2019/04/09

20
Hive的安装配置

一、Hive安装配置 1.登陆hive官网下载安装包,本人使用的是1.2.2版本 官网:http://hive.apache.org/ 2.将安装包上传到Linux集群解压并重命名为hive-1.2.2 3.进入hive下的conf目录,重命名hive-env.sh.template为hive-en ...

给你一个公主抱 @ 2019/04/09