1
Spark Scala当中reduceByKey(_+_) reduceByKey((x,y) => x+y)的用法

Spark Scala当中reduceByKey(_+_) reduceByKey((x,y) => x+y)的用法 ...

海中一神兽 @ 2019/08/14

2
重学计算机组成原理(五)- "旋转跳跃"的指令实现

CPU执行的也不只是一条指令,一般一个程序包含很多条指令 因为有if…else、for这样的条件和循环存在,这些指令也不会一路平直执行下去。 一个计算机程序是怎么被分解成一条条指令来执行的呢 1 CPU如何执行指令 CPU里差不多几百亿个晶体管 实际上,一条条计算机指令执行起来非常复杂 好在CPU在 ...

JavaEdge @ 2019/08/14

4
hive 标准hql建表语法格式

一.标准hql建表语法格式1.官方标准语法:(hql不区分大小写,下面[]里的属性是可选属性) 具体参考官网界面:HIVE官网建表说明文档 二.标准建表语法各项参数说明1.CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在,则抛出异常;用户可以用 IF NOT EXISTS 选 ...

feiquan @ 2019/08/13

5
JVM实战---类加载的过程

任何程序都需要加载到内存才能与CPU进行交流 同理, 字节码.class文件同样需要加载到内存中,才可以实例化类 的使命就是提前加载.class 类文件到内存中 在加载类时,使用的是Parents Delegation Model(溯源委派加载模型) Java的类加载器是一个运行时核心基础设施模块, ...

JavaEdge @ 2019/08/13

6
重学计算机组成原理(一)- 冯·诺依曼体系结构

1 计算机的基本硬件组成 早期,DIY一台计算机,要先有三大件 CPU 内存 主板 1.1 CPU 计算机最重要的核心配件,中央处理器(Central Processing Unit)。 计算机的所有“计算”都是由CPU来进行的。 CPU是一个超级精细的印刷电路版 1.2 内存(Memory) 你撰 ...

JavaEdge @ 2019/08/13

7
什么是实时流式计算?

实时流式计算,也就是RealTime,Streaming,Analyse,在不同的领域有不同的定义,这里我们说的是大数据领域的实时流式计算。 实时流式计算,或者是实时计算,流式计算,在大数据领域都是差不多的概念。那么,到底什么是实时流式计算呢? 谷歌大神Tyler Akidau在《the world ...

独孤风 @ 2019/08/13

9
ssm+reids缓存整合

在说正文之前我们先介绍一下redis: redis是当今比较热门的非关系型数据库之一,他使用的是key-value的键值对来进行存储,是一个存在于内存之中的数据库,我们一般用于做数据缓存。当我们需要大量的数据查询时,如果我们都直接访问数据库时,会严重影响数据库性能。所以我们一般的操作就是在db层之上 ...

繁声物语 @ 2019/08/13

10
Flink+Druid构建实时OLAP的探索

场景 k12在线教育公司的业务场景中,有一些业务场景需要实时统计和分析,如分析在线上课老师数量、学生数量,实时销售额,课堂崩溃率等,需要实时反应上课的质量问题,以便于对整个公司的业务情况有大致的了解。 方案对比 对比了很多解决方案,如下几种,列出来供参考。 设计方案 实时处理采用Flink SQL, ...

ChouYarn @ 2019/08/13

11
ES 25 - Elasticsearch的分页查询及其深分页问题 (deep paging)

Elasticsearch 如何进行分页查询? 如果起始页、页大小很大会有性能上的损耗吗? 本文从分页查询开始, 引出其deep paging (即深层分页) 问题, 并分析其优劣, 给出解决方法. ...

瘦风 @ 2019/08/13

12
ElasticSearch6.3.2 集群做节点冷(warm) 热(hot) 分离

拿一个小规模的5节点ES集群做冷热分离尝试,它上面已经有60多个索引,有些索引按月、每月生成一个索引,随着数据的不断写入,历史数据(只需保留三个月数据,三个月之前的数据视为历史数据)越来越占磁盘空间和内存资源,影响搜索响应时间。因此想把集群中节点分成2种类型,一种是hot节点,配置大内存和SSD,用 ...

hapjin @ 2019/08/13

13
重学计算机组成原理(二)- 制定学习路线,攀登“性能”之巅

0 学习路线的知识点概括 学习计算机组成原理,就是学习计算机是如何协调运行的 计算机组成原理的英文叫Computer Organization Organization 意"组织机构"。 该组织机构能够进行各种计算、控制、读取输入,进行输出,达成各种强大的功能。 把整个计算机组成原理的知识点拆分成了 ...

JavaEdge @ 2019/08/13

14
重学计算机组成原理(三)- 进击,更强的性能!

在上一篇中,我们谈到过 要提升计算机的性能,可以从上面这三方面着手。 通过指令数/CPI,好像都太难了。 因此工程师们,就在CPU上多放晶体管,不断提升CPU的时钟频率,让CPU更快,程序的执行时间就会缩短。 从1978年Intel发布的8086 CPU开始,计算机的主频从5MHz开始,不断攀升 1 ...

JavaEdge @ 2019/08/13

15
hadoop(二MapReduce)

hadoop(二MapReduce) 介绍 MapReduce:其实就是把数据分开处理后再将数据合在一起. Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有依赖关系。Reduce负责“合”,即对map阶段的结果进行全局汇 ...

不穿格子衫的徍爺 @ 2019/08/13

16
Hive表导出成csv文件

命令 set hive.cli.print.header=true将表头输出;sed 's/[\t]/,/g' 将\t替换成,> 将shell里打印的内容输出到文件 ...

feiquan @ 2019/08/13

17
System memory 259522560 must be at least 4.718592

System memory 259522560 must be at least 4.718592 ...

海中一神兽 @ 2019/08/13

18
Win7 Eclipse 搭建spark java1.8(lambda)环境:WordCount helloworld例子

Win7 Eclipse 搭建spark java1.8(lambda)环境:WordCount helloworld例子 ...

海中一神兽 @ 2019/08/13

19
Hive基本操作

在hive命令终端直接导入文本数据: 查看特征: 通过LOAD命令直接将hadoop文件系统上的文件导入,不加LOCAL hive数据导入另外一种方法: ...

Simon92 @ 2019/08/13

20
Spark和Scala当中的collect方法的用法和例子

[学习笔记] collect: 收集一个弹性分布式数据集的所有元素到一个数组中,这样便于我们观察,毕竟分布式数据集比较抽象。Spark的collect方法,是Action类型的一个算子,会从远程集群拉取数据到driver端。最后,将大量数据 汇集到一个driver节点上,将数据用数组存放,占用了jv ...

海中一神兽 @ 2019/08/13