买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:武汉凌久微电子有限公司
摘要:本发明提供一种基于多级Cache高速缓存的GPU存储结构,主要从多个流多处理器结构来考虑高性能的GPU存储结构及缓存系统的设计,本发明技术方案的核心体现在加速流多处理器内部数据的存储与加载以及提升流多处理器间数据的交互与共享。为此从GPU的应用场景及渲染过程考虑,设计了线程的私有存储、流处理器内Uniform单元存储、流多处理器间的共享内存ShareMemory存储和片外DDR显存存储的完整存储结构以及两级Cache高速缓存既减少了片上资源的占用又减轻了片外存储的访问带宽,同时也加速了GPU数据的加载与传输。
主权项:1.一种基于多级Cache高速缓存的GPU存储结构,其特征在于,包括多个功能完全独立的流多处理器SMPU、L2Cache单元、共享内存和DDR显存,每一个流多处理器SMPU包括多个流处理器MPU、Texture纹理单元、Uniform单元和L1Cache单元,所述L2Cache单元位于LICache单元和DDR显存之间,每一个流多处理器SMPU均分别与L2Cache单元和共享内存双向通信;当图形驱动将当前渲染帧的所有数据发送给DDR显存后,开始配置启动GPU工作,每一个流多处理器SMPU接收到完整的配置信息后从L1Cache单元读取流处理器MPU着色所需的指令与数据,将全局属性数据存入到Uniform单元中,将私有属性数据写入给流处理器MPU中,将纹理数据送给Texture纹理单元进行处理;流处理器MPU将每个线程的私有数据存放在各自的私有存储中,各线程的私有存储均采用寄存器组进行存储,线程数据准备后,根据任务量分配适当的线程开始执行统一着色程序,执行过程中的临时数据暂存在通用寄存器中或存入Uniform单元未占用的存储空间中,若Uniform单元无法全部存储临时数据,则将剩余临时数据存入共享内存中,若共享内存依然无法全部存储临时数据再将剩余临时数据写回到DDR显存中;当L1Cache单元在数据缺失情况下,通过L1Cache单元访问L2Cache单元,若L2Cache单元命中直接将数据返回给L1Cache单元,若L2Cache单元未命中需从DDR显存中读取数据返回该L1Cache单元;所述L2Cache单元位于多个流多处理器SMPU与DDR显存之间,负责响应多路L1Cache单元发来的读写请求;其中,L2Cache单元内部是采用流水线机制同时对读写请求进行处理,对于读写请求,均进行命中与否检测;当L2Cache单元接收到读请求时,若L2Cache单元读命中,L2Cache单元直接将读数据反馈给对应读通道;若读未命中,计算要替换的CacheLine行号,从DDR显存中获取数据对该CacheLine的数据进行替换,再将读数据返回给读通道;当L2Cache单元接收到写请求时,若L2Cache单元写命中,将写请求数据写入并将该写请求数据所对应的CacheLine脏位置设置为有效;若写未命中,计算要替换的CacheLine行号,如果CacheLine中的数据为脏数据时,需要从缓存中读出该行数据并写回,并发送未命中请求到DDR显存,从DDR显存中读取到新数据后,根据写请求对未命中数据进行改写。
全文数据:
权利要求:
百度查询: 武汉凌久微电子有限公司 一种基于多级Cache高速缓存的GPU存储结构
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。