买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了一种多核向量化计算平台自适应规约计算方法,根据多核向量化计算平台的核心数量对待处理的数据进行切割,再设定各核心迭代传输的数据量及迭代向量操作的数据量的不同组合,在不同组合下针对不同总数据量的数据执行确定的规约优化处理过程记录执行总时间,选取执行总时间最少的组合作为多核向量化计算平台上确定的规约优化处理的最优参数,在确定规约优化处理过程的同时实现了对多核向量化计算平台参数的优化,有效提高了平台的计算效率。
主权项:1.一种用于异构芯片的多核向量化计算平台自适应规约计算方法,其特征在于,具体包括以下步骤:步骤1、多核向量化计算平台待处理的数据为第一数据,其总数据量为N;各核心所需处理的第一层数据段的数据量为lenPerT、每次所需传输的数据量为TILE,第一层数据段中元素编号范围为[snum,snum+lenPerT,snum为数据段基准;步骤2、确定各核心迭代传输所需处理的第二层数据段,第二层数据段中元素编号范围为[snum+i*TILE,snum+i*TILE+TILE,其中,i为迭代传输次数;各核心执行迭代传输,每次迭代传输执行后令对应的结果向量VS_i的初始值为零;步骤3、各核心对第二层数据段执行迭代向量操作,执行迭代向量操作的总次数为inloop,inloop的取值为TILEVLEN,VLEN为每次迭代向量操作的数据量;每次处理的数据为第三层数据段V_j,第三层数据段中元素编号范围为[snum+i*TILE+j*VLEN,snum+i*TILE+j*VLEN+VLEN,对VS_i与V_j执行迭代向量操作规约计算,以操作结果更新VS_i,直到j等于inloop时结束,j为迭代向量操作次数;令i自加1,若i小于loop则执行步骤2,否则对所有的VS_i执行规约计算得到当前核心的第一计算结果VS;loop为各核心迭代传输的总次数、取值为lenPerTTILE;步骤4、若lenPerT不能被TILE整除,则对元素编号范围为[snum+lenPerT-drm,snum+lenPerT的剩余数据段drm执行迭代向量操作;若drm不能被VLEN整除,则将元素编号范围为[snum+lenPerT-drrm,snum+lenPerT的数据段加载到向量VM的[0:drrm]处,将VM的[drrm:VLEN]处的元素置为0,对VS与VM执行规约计算;步骤5、核心将VS存储在片外全局存储中分配的大小为NCORE*VLEN的数组空间VA中,以NCORE*VLEN为单位长度对VA进行规约计算,将结果保存为VSL;对向量VSL中的元素执行规约计算得到最终规约结果;NCORE为核心总数;步骤6、确定VLEN与TILE的取值组合,遍历总数据量N执行步骤1到步骤5得到所有总数据量对应的执行时间,对这些执行时间求和得到当前VLEN与TILE取值组合下的执行总时间,遍历VLEN与TILE的取值范围得到所有VLEN与TILE的取值组合的执行总时间;选择执行总时间最少的VLEN与TILE的组合作为多核向量化计算平台的最优参数。
全文数据:
权利要求:
百度查询: 北京麟卓信息科技有限公司 一种多核向量化计算平台自适应规约计算方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。