您现在的位置是:首页 >综合 > 2020-11-10 08:41:30 来源:

连续的数据供应可确保数据密集型仿真能够以最高速度运行

导读 由KAUST研究人员开发的抢先式内存管理系统可以消除因数据传输缓慢而造成的延迟,从而将数据密集型仿真速度提高2 5倍。该开发优雅而透明地解

由KAUST研究人员开发的抢先式内存管理系统可以消除因数据传输缓慢而造成的延迟,从而将数据密集型仿真速度提高2.5倍。该开发优雅而透明地解决了现代超级计算中最顽固的瓶颈之一,即从内存中足够快地交付数据以跟上计算的速度。

研究团队的Hatem Ltaief解释说:“减少数据的移动同时保持数据与计算硬件的距离是计算科学家处理大数据所面临的最艰巨的挑战之一。” “由于计算速度和内存传输能力之间的差距越来越大,以及在远程存储介质上存储大量数据的需求,这种情况更加恶化。”

处理大数据的关键挑战是将数据存储在内存中的成本和规模。内存越快,成本就越高,并且需要在计算元素之间移动数据的速度就越快。因为即使在功能最强大的超级计算平台上,也只能使用相对较小容量的最快内存,因此系统工程师会依次添加更大,更慢和更远程的内存层,以容纳大数据集典型的TB级和PB级数据。

“在这种敌对环境中,我们的系统通过减少将数据移入和移出远程存储硬件的开销发挥了作用,” Ltaief说。

Ltaief与同事David Keyes和Tariq Alturkestani共同开发了他们的多层缓冲系统(MLBS),以通过协调存储层之间的数据移动来主动维护数据,使其与计算硬件尽可能接近。

Alturkestani说:“ MLBS依靠一种多级缓冲技术,该技术通过使其“看到”所有数百PB的数据都在快速存储器中,从而使模拟胜过智能。“缓冲机制可以防止应用程序在需要访问位于远程存储上的数据时停止运行,从而允许应用程序通过异步计算操作全速运行。”

MLBS提供的这种协同作用,使用KAUST的Shaheen-2超级计算机进行了涉及数百PB数据移动的三维地震勘探模拟,实现了2.5倍的加速。

Ltaief说:“这种方法还减少了将数据移入和移出远程存储介质所需的能量,这可能比在本地存储器上执行单个计算的能量高数百倍。” “使用MLBS,我们可以减轻数据移动的能源开销,这是我们中心的主要目标之一。”