CentOS安装Jupyter-Notebook

发表于 2019-10-06 分类于 Python ， jupyter 阅读次数：
本文字数： 0 阅读时长 ≈ 1 分钟

安装依赖

1	sudo yum install openssl* bzip2 expat zlib* sqlite* libffi* libssl* wget gcc make cmake automake -y

下载、编译、安装Python

# download python source
wget https://www.python.org/ftp/python/3.7.4/Python-3.7.4.tgz
# untar
tar xf Python-3.7.4.tgz
cd Python-3.7.4 
# make
.configure --prefix=/opt/python3 --with-ssl
vi setup.py
## add
sqlite_inc_path=['/usr/bin/sqlite3',]
## make
make -j20
# install
make install
# configure profile
vi /etc/profile
## add
export PATH=${PATH}:/opt/python3/bin
source /etc/profile

阅读全文 »

Hadoop基础学习

发表于 2019-07-29 更新于 2019-10-06 分类于 Hadoop 阅读次数：
本文字数： 0 阅读时长 ≈ 1 分钟

HDFS

HDFS的设计本质是为了大量的数据横跨成百上千台机器，用户看到的是一个文件系统，而不是很多的文件系统。
例如我们引用一个路径中的数据/home/user/hdfs/file,我们引用的是一个路径，但是实际的数据存放在很多不同的机器上。HDFS就用来管理存储在不同机器上的数据。

计算引擎

Mareduce是第一代计算引擎，采用了很简化的计算模型，只有Map和Reduce两个计算过程(中间用Shuffle串联)。例如我们要统计在HDFS中存放的一个很大的文本文件中各个词出现的频率，我们首先会启动一个MapReduce程序，Map阶段会有很多机器读取文件的各个部分，分别把各自读到部分统计出词频;Reduce阶段同样会有很多机器从Mapper机器收到按照Hash分类的词的统计结果，Reducer会汇总相同词的词频，最终会得到整个文件的词频结果。MapReduce的模型比较简单，但是比较笨重。
第二代计算引擎Tez/Spark除了有内存、cache之类的新特性，还让Map和Reduce之间的界限模糊，数据交换更加灵活，更少的磁盘读写，更高的吞吐量。
Pig用接近脚本的方式描述MapReduce，Hive用SQL描述MapReduce，他们用脚本的SQL语言翻印MapReduce程序，然后让计算引擎去计算。
Hive是Hadoop的数据仓，严格来说不算是数据库，主要用于解决数据处理和计算问题，使用SQL来计算和处理HDFS上的结构化数据，适用于离线的批量数据计算。
Hbase是面向列的NoSQL数据库，用于快速读/写大量的数据，主要解决实时数据查询问题，应用场景多是海量数据的随机实时查询。
Storm是最流行的流计算平台，它的计算思路是：在数据流进来的是后就开始统计，好处是无延迟，但是短处是不灵活，要预先知道要统计的东西，毕竟数据流流过后就没有了。

阅读全文 »

Hadoop部署集群

发表于 2019-07-28 更新于 2019-10-06 分类于 Hadoop 阅读次数：
本文字数： 0 阅读时长 ≈ 1 分钟

架构

h-master
- role:NameNode/JobTracker
- ip:192.168.0.210
- app:hadoop/jdk
- jobs:主节点，总管分布式数据和分解任务的执行;主节点负责调度构成一个作业的所有任务
h-slave
- role:DataNode/Tasktracker
- ip:192.168.0.211
- app:hadoop/jdk
- jobs:从节点，负责分布式数据存储以及任务的执行;从节点负责由主节点指派的任务
mapreduce框架
- 主节点JobTracker
- 每个从节点TaskTracker

阅读全文 »

Hive部署单节点过程

发表于 2019-07-27 更新于 2019-10-06 分类于 hive ， hadoop 阅读次数：
本文字数： 0 阅读时长 ≈ 1 分钟

Hive部署单节点过程

基础环境

安装JDK8

安装jdk8
sudo rpm -ivh jdk-8u221-linux-x64.rpm

配置环境变量

su
vi /etc/profile
# add
JAVA_HOME=/usr/java/jdk1.8.0_221-amd64
. /etc/profile
java -version

阅读全文 »

FineReport使用Linux服务器和Tomcat安装过程

发表于 2019-07-27 更新于 2019-10-06 分类于 finereport 阅读次数：
本文字数： 0 阅读时长 ≈ 1 分钟

FineReport使用Linux服务器和Tomcat安装过程

准备基础环境

下载finereport

下载FineReport Linux版本
下载地址:https://fine-build.oss-cn-shanghai.aliyuncs.com/finereport/10.0/tomcat/tomcat-linux.tar.gz
在服务器中执行wget https://fine-build.oss-cn-shanghai.aliyuncs.com/finereport/10.0/tomcat/tomcat-linux.tar.gz
解压文件tomcat-linux.tar.gz
tar -xzvf tomcat-linux.tar.gz
移动文件
sudo mv tomcat-linux /opt && cd /opt && sudo mv tomcat-linux finereport

如果使用finereport自带的tomcat和jre，可以直接启动tomcat，设定防火墙端口后直接使用，以下操作步骤是使用自行搭建的tomcat和使用mysql数据库。

阅读全文 »