update README.md.
This commit is contained in:
parent
73e5052e71
commit
9f132cf8f0
26
README.md
26
README.md
|
@ -36,19 +36,31 @@ scalebox具有以下特性:
|
||||||
|
|
||||||
## 研究背景
|
## 研究背景
|
||||||
|
|
||||||
与已有的大数据处理框架(Spark/Hadoop/Flink)、并行计算框架MPI等相比较,Scalebox从编程模型角度看,降低并行化难度。
|
传统计算框架包括大数据处理框架、HPC并行计算框架两大类。
|
||||||
|
|
||||||
|
大数据处理框架有分为离线计算(批处理)、实时计算(流式处理)。下表列出了主流大数据计算框架的比较:
|
||||||
|
|
||||||
|
![大数据处理框架](./bigdata-framework.png)
|
||||||
|
|
||||||
已有大规模数据处理的计算框架主要分为两类:
|
HPC并行计算框架是支持超级计算机上高性能计算应用的计算框架,最常见的是MPI。下表列出了MPI的主要特性:
|
||||||
- 大数据处理框架
|
![HPC计算框架](./hpc-framework.png)
|
||||||
- 离线数据处理:Hadoop/Spark
|
|
||||||
- 流式数据处理:Storm/Spark Streaming/FLink
|
|
||||||
- 基于高性能计算的MPI(Message Passing Interface)
|
|
||||||
|
|
||||||
scalebox提供了一种构建分布式数据处理的高效方法。用户仅需要研发单机版的算法模块,通过容器化打包后推到镜像库。基于系统标准模块、用户定义算法模块,定义流水线应用。
|
当前,各类应用的数据规模越来越大,以大规模天文观测为代表科学应用,其具有以下应用特点:
|
||||||
|
- 数据规模:
|
||||||
|
- 数据分布:
|
||||||
|
- 算力资源分布
|
||||||
|
- 算法复杂
|
||||||
|
|
||||||
|
针对以上需求,传统的大数据处理框架、HPC并行计算框架不完全适合该应用场景。下表从以下几个主要特性上进行总结:
|
||||||
|
|
||||||
|
| | 大数据处理框架 | HPC并行计算框架 | 应用需求 |
|
||||||
|
| ---- | ---- | ---- | ---- |
|
||||||
|
| 程序并行化 | - 需调整应用逻辑 | - 需调整应用逻辑<br>- 编程技巧要求高 | - 应用中可能使用开源组件,修改难度大<br>- 传统计算框架的并行化对用户要求高 |
|
||||||
|
| 跨集群计算 | - 不支持 | - 不支持 | - 大规模复杂应用,数据分布式产生<br>- 复杂计算计算资源需求多样,单一集群不能满足,需跨集群计算 |
|
||||||
|
| 容错支持 | - 框架支持 | - 框架不支持<br>- 应用自身通过checkpoint实现 | - 大规模复杂计算,容错是必需的 |
|
||||||
|
| 高I/O加载 | - 集群文件系统<br>- data locality支持 | - 并行文件系统| - 大规模复杂应用,I/O需求较大,集群存储可能成为瓶颈<br>- 直接访问本地存储/内存缓存,将大大提升效率 |
|
||||||
|
|
||||||
|
面向以上应用需求,研发计算框架,将简化以上场景应用的软件研发。
|
||||||
|
|
||||||
## 环境安装
|
## 环境安装
|
||||||
|
|
||||||
|
|
Binary file not shown.
After Width: | Height: | Size: 41 KiB |
Binary file not shown.
After Width: | Height: | Size: 16 KiB |
Loading…
Reference in New Issue