長(zhǎng)向量處理器高效RNN推理方法
國(guó)防科技大學(xué)學(xué)報(bào)
頁(yè)數(shù): 10 2024-01-30
摘要: 模型深度的不斷增加和處理序列長(zhǎng)度的不一致對(duì)循環(huán)神經(jīng)網(wǎng)絡(luò)在不同處理器上的性能優(yōu)化提出巨大挑戰(zhàn)。針對(duì)自主研制的長(zhǎng)向量處理器FT-M7032,實(shí)現(xiàn)了一個(gè)高效的循環(huán)神經(jīng)網(wǎng)絡(luò)加速引擎。該引擎采用行優(yōu)先矩陣向量乘算法和數(shù)據(jù)感知的多核并行方式,提高矩陣向量乘的計(jì)算效率;采用兩級(jí)內(nèi)核融合優(yōu)化方法降低臨時(shí)數(shù)據(jù)傳輸?shù)拈_(kāi)銷(xiāo);采用手寫(xiě)匯編優(yōu)化多種算子,進(jìn)一步挖掘長(zhǎng)向量處理器的性能潛力。實(shí)驗(yàn)表明,長(zhǎng)向量... (共10頁(yè))