update README.md.

2023-05-05 12:03:25 +08:00 · 2023-05-05 12:03:25 +08:00 · 9f132cf8f0
parent 73e5052e71
commit 9f132cf8f0
3 changed files with 19 additions and 7 deletions
--- a/README.md
+++ b/README.md
@ -36,19 +36,31 @@ scalebox具有以下特性：

 ## 研究背景

-与已有的大数据处理框架（Spark/Hadoop/Flink）、并行计算框架MPI等相比较，Scalebox从编程模型角度看，降低并行化难度。
+传统计算框架包括大数据处理框架、HPC并行计算框架两大类。

+大数据处理框架有分为离线计算（批处理）、实时计算（流式处理）。下表列出了主流大数据计算框架的比较：

+![大数据处理框架](./bigdata-framework.png)

-已有大规模数据处理的计算框架主要分为两类：
- 大数据处理框架
-  - 离线数据处理：Hadoop/Spark
-  - 流式数据处理：Storm/Spark Streaming/FLink
- 基于高性能计算的MPI（Message Passing Interface）
+HPC并行计算框架是支持超级计算机上高性能计算应用的计算框架，最常见的是MPI。下表列出了MPI的主要特性：
+![HPC计算框架](./hpc-framework.png)

-scalebox提供了一种构建分布式数据处理的高效方法。用户仅需要研发单机版的算法模块，通过容器化打包后推到镜像库。基于系统标准模块、用户定义算法模块，定义流水线应用。
+当前，各类应用的数据规模越来越大，以大规模天文观测为代表科学应用，其具有以下应用特点：
+- 数据规模：
+- 数据分布：
+- 算力资源分布
+- 算法复杂

+针对以上需求，传统的大数据处理框架、HPC并行计算框架不完全适合该应用场景。下表从以下几个主要特性上进行总结：

+|        | 大数据处理框架  | HPC并行计算框架 | 应用需求 |
+|  ----  | ----  | ----  | ----  |
+| 程序并行化  | - 需调整应用逻辑 | - 需调整应用逻辑<br>- 编程技巧要求高 | - 应用中可能使用开源组件，修改难度大<br>- 传统计算框架的并行化对用户要求高 |
+| 跨集群计算  | - 不支持 | - 不支持 | - 大规模复杂应用，数据分布式产生<br>- 复杂计算计算资源需求多样，单一集群不能满足，需跨集群计算 |
+| 容错支持  | - 框架支持 | - 框架不支持<br>- 应用自身通过checkpoint实现 | - 大规模复杂计算，容错是必需的 |
+| 高I/O加载  | - 集群文件系统<br>- data locality支持 | - 并行文件系统| - 大规模复杂应用，I/O需求较大，集群存储可能成为瓶颈<br>- 直接访问本地存储/内存缓存，将大大提升效率 |
+
+面向以上应用需求，研发计算框架，将简化以上场景应用的软件研发。

 ## 环境安装

--- a/bigdata-framework.png
+++ b/bigdata-framework.png
--- a/hpc-framework.png
+++ b/hpc-framework.png