update README.md.

This commit is contained in:
kaichao 2023-05-05 12:03:25 +08:00
parent 73e5052e71
commit 9f132cf8f0
3 changed files with 19 additions and 7 deletions

View File

@ -36,19 +36,31 @@ scalebox具有以下特性
## 研究背景
与已有的大数据处理框架Spark/Hadoop/Flink、并行计算框架MPI等相比较Scalebox从编程模型角度看降低并行化难度
传统计算框架包括大数据处理框架、HPC并行计算框架两大类
大数据处理框架有分为离线计算(批处理)、实时计算(流式处理)。下表列出了主流大数据计算框架的比较:
![大数据处理框架](./bigdata-framework.png)
已有大规模数据处理的计算框架主要分为两类:
- 大数据处理框架
- 离线数据处理Hadoop/Spark
- 流式数据处理Storm/Spark Streaming/FLink
- 基于高性能计算的MPIMessage Passing Interface
HPC并行计算框架是支持超级计算机上高性能计算应用的计算框架最常见的是MPI。下表列出了MPI的主要特性
![HPC计算框架](./hpc-framework.png)
scalebox提供了一种构建分布式数据处理的高效方法。用户仅需要研发单机版的算法模块通过容器化打包后推到镜像库。基于系统标准模块、用户定义算法模块定义流水线应用。
当前,各类应用的数据规模越来越大,以大规模天文观测为代表科学应用,其具有以下应用特点:
- 数据规模:
- 数据分布:
- 算力资源分布
- 算法复杂
针对以上需求传统的大数据处理框架、HPC并行计算框架不完全适合该应用场景。下表从以下几个主要特性上进行总结
| | 大数据处理框架 | HPC并行计算框架 | 应用需求 |
| ---- | ---- | ---- | ---- |
| 程序并行化 | - 需调整应用逻辑 | - 需调整应用逻辑<br>- 编程技巧要求高 | - 应用中可能使用开源组件,修改难度大<br>- 传统计算框架的并行化对用户要求高 |
| 跨集群计算 | - 不支持 | - 不支持 | - 大规模复杂应用,数据分布式产生<br>- 复杂计算计算资源需求多样,单一集群不能满足,需跨集群计算 |
| 容错支持 | - 框架支持 | - 框架不支持<br>- 应用自身通过checkpoint实现 | - 大规模复杂计算,容错是必需的 |
| 高I/O加载 | - 集群文件系统<br>- data locality支持 | - 并行文件系统| - 大规模复杂应用I/O需求较大集群存储可能成为瓶颈<br>- 直接访问本地存储/内存缓存,将大大提升效率 |
面向以上应用需求,研发计算框架,将简化以上场景应用的软件研发。
## 环境安装

BIN
bigdata-framework.png Normal file

Binary file not shown.

After

Width:  |  Height:  |  Size: 41 KiB

BIN
hpc-framework.png Normal file

Binary file not shown.

After

Width:  |  Height:  |  Size: 16 KiB