专利 基于多输入单输出的FIFO结构的GPU数据处理系统

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210546501.4 (22)申请日 2022.05.20 (65)同一申请的已公布的文献号申请公布号 CN 114647516 A (43)申请公布日 2022.06.21 (73)专利权人沐曦集成电路（上海）有限公司地址 201306 上海市浦东新区中国（上海）自由贸易试验区临港新片区环湖西二路888号C楼 (72)发明人不公告发明人　 (74)专利代理机构北京锺维联合知识产权代理有限公司 1 1579 专利代理师丁慧玲 (51)Int.Cl. G06F 9/50(2006.01) G06K 9/62(2022.01) G06T 1/20(2006.01) G06F 5/06(2006.01)G06F 12/06(2006.01) G06F 12/0877(2016.01) (56)对比文件 CN 104778025 A,2015.07.15 CN 102253921 A,201 1.11.23 US 5493434 A,19 96.02.20 CN 110134366 A,2019.08.16 李函.“基于FPGA的FAST协议解码金融加速设计”. 《中国优秀硕士学位论文全文数据库经济与管理科学辑》 .2016,(第04期), 胡佳明等.基于SystemC的MIMO OFDM系统的仿真实现. 《计算机工程》 .20 07,(第01期), Shuna Yang等. “Multiple i nput single output optical buf fers for async hronous optical packet sw itched netw orks”. 《2014 IEEE Global Com munications Conference》 .2015, 审查员牛洪波 (54)发明名称基于多输入单输出的FIFO结构的GPU数据处理系统 (57)摘要本发明涉及一种基于多输入单输出的FIFO 结构的GP U数据处理系统，包括映射器、 FIFO和写指针，映射器包括P个输入端口和P个输出端口 {E1,E2,…EP}，所述P个输入端口用于并行输入Q 个第三获取数据请求，并将Q个第三获取数据请求映射至前Q个输出端口{E1， E2,…EQ}，将{E1， E2,…EQ}中的Q个第三数据存入FIFO中;FIFO为多输入单输出的FIFO，用于并行输入Q个第三获取数据请求，单个输出FIFO中的第三获取数据请求；写指针始终指向当前FIFO下一待存入数据的行，当前写指针所指行数值为WR，当映射器向 FIFO并行存入 Q个第三获取数据请求后，更新WR。本发明提高了GPU的数据处理效率。权利要求书2页说明书5页附图1页 CN 114647516 B 2022.08.23 CN 114647516 B 1.一种基于多输入单输出的FIFO结构的GPU数据处理系统，其特征在于，包括映射器、 FIFO和写指针，其中，所述映射器包括P个输入端口和P个输出端口{E1,E2,…EP}， Ep表示第p个输出端口， p的取值范围为 1到P，所述P个输入端口用于并行输入Q个第三获取数据请求，并将Q个第三获取数据请求映射至前Q个输出端口{E1， E2,…EQ}， Q≤P，将{E1， E2,…EQ}中的Q个第三数据存入所述FIFO中; 所述FIFO为多输入单输出的FIFO，用于并行输入Q个第三获取数据请求，单个输出FIFO 中的第三获取数据请求；所述写指针始终指向当前FIFO下一待存入数据的行，当前写指针所指行数值为WR，当所述映射器向所述FIFO并行存入Q个第三获取数据请求后，更新 WR；所述映射器与P个并行处理的高速缓冲存储器相连接，每一高速缓冲存储器的输出端口连接一个对一个的映射器的输入端口，在一个周期中，当存在Q个高速缓冲存储器未命中数据时， Q个高速缓冲存储器并行向对应的输入端口输入对应的第三获取数据请求；所述系统还包括位于GPU中的冲突检测模块和P个cache{C1， C2，…CP},其中， Cp表示第p 个cache,p的取值范围为1到P， P为大于等于2的正整数；所述冲突检测模块用于获取M个第一获取数据请求，并通过冲突检测将其中虚拟地址信息相同的第一获取数据请求进行融合，生成N个第二获取数据请求， N≤M，并将每一第二获取数据请求定向输出至对应的cache中， Cp对应的第二获取数据请求队列Lp为{R1p， R2p，…， RpSp },pS为Cp对应的第二获取数据请求数量， Rip表示Lp中第i个第二获取数据请求， 0≤pS≤N， i的取值范围为1到pS；所述P个cache均与memory连接，所述P个cache并行处理对应的第二获取数据请求， Cp用于分配pS个cycle, 为每一Rip分配一个cycle 逐个处理Lp中的每一个Rip；所述第一获取数据请求包括目标字节数量、偏移量信息、 cache标识信息和虚拟地址信息； Cp具体用于：在Cp分配的第i个cycle中,基于Rip中虚拟地址信息对应的物理地址信息，判断当前Cp中是否已经存储有对应的数据，若存在，则基于偏移量信息定位到对应的cache line中的起点，并从起点开始获取目标字节数量的数据；若不存在，则基于对应的物理地址信息生成所述第三获取数据请求，基于第三获取数据请求从所述memory中获取对应的数据存储至对应的Cp对应的cache line中，再基于偏移量信息定位到对应的cache line中的起点，并从起点开始获取目标字节数量的数据。 2.根据权利要求1所述的系统，其特征在于，所述映射器还用于判断当前FIFO中剩余可存储行数是否大于等于当前Q值，若当前 FIFO中剩余可存储行数大于等于当前Q值，则直接执行C1，否则，待当前FIFO中剩余可存储行数大于等于当前Q 值时，再执行C1： C1、将输出端口Ej的第三获取数据请求存储至FIFO的第WR+j ‑1行， j的取值范围为1到Q，判断WR+Q是否大于T，若WR+Q大于T，则设置WR=WR+Q ‑T，若WR+Q小于等于T，则设置WR=WR+Q，其中， T为FIFO的深度。 3.根据权利要求1所述的系统，其特征在于，权　利　要　求　书 1/2 页 2 CN 114647516 B 2所述写指针始终设置在E1上。 4.根据权利要求1或2所述的系统，其特征在于， P个输入端口为{F1,F2,…FP}， Fp表示第p个输入端口，所述P个输入端口用于并行输入Q 个第三获取数据请求，并将Q个第三获取数据请求映射至前Q个输出端口{E1， E2,…EQ}，具体包括： S1、若{F1,F2,…FP}中均输入了第三获取数据请求，则P=Q， Ep=Fp,否则，进入S2； S2、按照F1,F2,…FP的顺序遍历每一输入端口，将第y个存在第三获取数据请求的输入端口的第三获取数据请求映射至 Ey， y的取值范围为1到Q， Q<P。 5.根据权利要求1所述的系统，其特征在于，所述第三获取数据请求包括物理地址信息，所述FIFO用于单个输出FIFO中的第三获取数据请求至存储器中，基于物理地址信息从存储器中获取对应的数据存储至对应的高速缓冲存储器中。 6.根据权利要求1所述的系统，其特征在于，所述P个高速缓冲存储器的宽度和深度均相同。权　利　要　求　书 2/2 页 3 CN 114647516 B 3

专利 基于多输入单输出的FIFO结构的GPU数据处理系统

专利基于多输入单输出的FIFO结构的GPU数据处理系统