close

from http://hi.baidu.com/wadeswb/blog/item/12bd4c19868c030c34fa4129.html

 
  • SSE
    • CVTSI2SS – 把一個64位的有符號整型轉換為一個浮點值,並把它插入到一個128位的參數中。內部指令:_mm_cvtsi64_ss
    • CVTSS2SI – 取出一個32位的浮點值,並取整(四舍五入)為一個64位的整型。內部指令:_mm_cvtss_si64
    • CVTTSS2SI – 取出一個32位的浮點值,並截斷為一個64位的整型。內部指令:_mm_cvttss_si64


  • SSE2
    • CVTSD2SI – 取出最低位的64位浮點值,並取整為一個整型。內部指令:_mm_cvtsd_si64
    • CVTSI2SD – 取出最低位的64位整型,並將其轉換為一個浮點值。內部指令:_mm_cvtsi64_sd
    • CVTTSD2SI – 取出一個64位的浮點值,並截斷為一個64位的整型。內部指令:_mm_cvttsd_si64
    • MOVNTI – 寫64位資料到特定記憶體位置。內部指令:_mm_stream_si64
    • MOVQ – 移動一個64位的整型到一個128位的參數中,或從128位的參數中移動一個64位的整型。內部指令:_mm_cvtsi64_si128、_mm_cvtsi128_si64


  • SSSE3
    • PABSB / PABSW / PABSD – 取有符號整型的絕對值。內部指令:_mm_abs_epi8、_mm_abs_epi16、_mm_abs_epi32、_mm_abs_pi8、_mm_abs_pi16、_mm_abs_pi32
    • PALIGNR – 結合兩個參數並右移結果。內部指令:_mm_alignr_epi8、_mm_alignr_pi8
    • PHADDSW – 將兩個包含16位有符號整型的參數相加,並盡量使結果為16位可表示的最大值。內部指令:_mm_hadds_epi16、_mm_hadds_pi16
    • PHADDW / PHADDD – 將兩個包含有符號整型的參數相加。內部指令:_mm_hadd_epi16、_mm_hadd_epi32、_mm_hadd_pi16、_mm_hadd_pi32
    • PHSUBSW – 將兩個包含16位有符號整型的參數相減,並盡量使結果為16位可表示的最大值。內部指令:_mm_hsubs_epi16、_mm_shubs_pi16
    • PHSUBW / PHSUBD – 將兩個包含有符號整型的參數相減。內部指令:_mm_hsub_epi16、_mm_hsub_epi32、_mm_hsub_pi16、_mm_hsub_pi32
    • PMADDUBSW – 相乘並相加8位整型。內部指令:_mm_maddubs_epi16、_mm_maddubs_pi16
    • PMULHRSW – 乘以16位有符號整型,並右移結果。內部指令:_mm_mulhrs_epi16、_mm_mulhrs_pi16
    • PSHUFB – 從一個128位的參數中選取並亂序其中8位的資料塊。內部指令:_mm_shuffle_epi8、_mm_shuffle_pi8
    • PSIGNB / PSIGNW / PSIGND – 求反(取非)、取零、或保留有符號整型。內部指令:_mm_sign_epi8、_mm_sign_epi16、_mm_sign_epi32、 _mm_sign_pi8、_mm_sign_pi16、_mm_sign_pi32


  • SSE4A
    • EXTRQ – 從參數中取特定位。內部指令:_mm_extract_si64、_mm_extracti_si64
    • INSERTQ – 插入特定位到給定參數中。內部指令:_mm_insert_si64、_mm_inserti_si64
    • MOVNTSD / MOVNTSS – 不使用緩存,直接把資料位寫到特定記憶體位置。內部指令:_mm_stream_sd、_mm_stream_ss


  • SSE4.1
    • DPPD / DPPS – 計算兩參數的點結果。內部指令:_mm_dp_pd、_mm_dp_ps
    • EXTRACTPS – 從參數中取出一個特定的32位浮點值。內部指令:_mm_extract_ps
    • INSERTPS – 把一個32位整型插入到一個128位參數中,並把某些位置零。內部指令:_mm_insert_ps
    • MOVNTDQA – 從特定記憶體位置加載128位資料。內部指令:_mm_stream_load_si128
    • MPSADBW – 計算絕對差分的八個偏移總和。內部指令:_mm_mpsadbw_epu8
    • PACKUSDW – 使用16位飽和度,把32位有符號整型轉換為有符號16位整型。內部指令:_mm_packus_epi32
    • PBLENDW / BLENDPD / BLENDPS / PBLENDVB / BLENDVPD / BLENDVPS – 把兩個不同塊大小的參數混合在一起。內部指令:_mm_blend_epi16、_mm_blend_pd、_mm_blend_ps、 _mm_blendv_epi8、_mm_blendv_pd、_mm_blendv_ps
    • PCMPEQQ - 比較64位整型是否相等。內部指令:_mm_cmpeq_epi64
    • PEXTRB / PEXTRW / PEXTRD / PEXTRQ - 從輸入的參數中取出一個整型。內部指令:_mm_extract_epi8、_mm_extract_epi16、_mm_extract_epi32、_mm_extract_epi64
    • PHMINPOSUW - 選擇最小的16位無符號整型並確定它的下標。內部指令:_mm_minpos_epu16
    • PINSRB / PINSRD / PINSRQ - 把一個整型插入到一個128位參數中。內部指令:_mm_insert_epi8、_mm_insert_epi32、_mm_insert_epi64
    • PMAXSB / PMAXSD - 接受兩個參數中的有符號整型,並選擇其中的最大者。內部指令:_mm_max_epi8、_mm_max_epi32
    • PMAXUW / PMAXUD - 接受兩個參數中的無符號整型,並選擇其中的最大者。內部指令:_mm_max_epu16、_mm_max_epu32
    • PMINSB / PMINSD - 接受兩個參數中的有符號整型,並選擇其中的最小者。內部指令:_mm_min_epi8、_mm_min_epi32
    • PMINUW / PMINUD - 接受兩個參數中的無符號整型,並選擇其中的最小者。內部指令:_mm_min_epu16、_mm_min_epu32
    • PMOVSXBW / PMOVSXBD / PMOVSXBQ / PMOVSXWD / PMOVSXWQ / PMOVSXDQ - 把一有符號整型轉換到更大的尺寸。內部指令:_mm_cvtepi8_epi16、_mm_cvtepi8_epi32、 _mm_cvtepi8_epi64、_mm_cvtepi16_epi32、_mm_cvtepi16_epi64、 _mm_cvtepi32_epi64
    • PMOVZXBW / PMOVZXBD / PMOVZXBQ / PMOVZXWD / PMOVZXWQ / PMOVZXDQ - 把一無符號整型轉換到更大的尺寸。內部指令:_mm_cvtepu8_epi16、_mm_cvtepu8_epi32、 _mm_cvtepu8_epi64、_mm_cvtepu16_epi32、_mm_cvtepu16_epi64、 _mm_cvtepu32_epi64
    • PMULDQ - 32位有符號整型相乘,並把結果存儲為64位有符號整型。內部指令:_mm_mul_epi32
    • PMULLUD - 32位有符號整型相乘。內部指令:_mm_mullo_epi32
    • PTEST - 按位計算兩個128位參數,並基於CC標志寄存器的CF與ZF位返回值。內部指令:_mm_testc_si128、_mm_testnzc_si128、_mm_testz_si128
    • ROUNDPD / ROUNDPS - 取整浮點數值。內部指令:_mm_ceil_pd、_mm_ceil_ps、_mm_floor_pd、_mm_floor_ps、_mm_round_pd、_mm_round_ps
    • ROUNDSD / ROUNDSS - 結合兩個參數,從其一取整到一個浮點數值。內部指令:_mm_ceil_sd、_mm_ceil_ss、_mm_floor_sd、_mm_floor_ss、_mm_round_sd、_mm_round_ss


  • SSE4.2
    • CRC32 - 計算參數的CRC-32C檢驗和。內部指令:_mm_crc32_u8、_mm_crc32_u16、_mm_crc32_u32、_mm_crc32_u64
    • PCMPESTRI / PCMPESTRM -比較特定長度的兩個參數。內部指令:_mm_cmpestra、_mm_cmpestrc、_mm_cmpestri、_mm_cmpestrm、 _mm_cmpestro、_mm_cmpestrs、_mm_cmpestrz
    • PCMPGTQ - 比較兩個參數。內部指令:_mm_cmpgt_epi64
    • PCMPISTRI / PCMPISTRM - 比較兩個參數。內部指令:_mm_cmpistra、_mm_cmpistrc、_mm_cmpistri、_mm_cmpistrm、_mm_cmpistro、_mm_cmpistrs、_mm_cmpistrz
    • POPCNT - 統計位集中1的數量。內部指令:_mm_popcnt_u32、_mm_popcnt_u64、__popcnt16、__popcnt、__popcnt64


  • 高級位操縱
    • LZCNT - 統計參數中零的數量。內部指令:__lzcnt16、 __lzcnt、__lzcnt64
    • POPCNT - 統計位集中1的數量。內部指令:_mm_popcnt_u32、_mm_popcnt_u64、__popcnt16、__popcnt、__popcnt64


  • 其他新指令
    • _InterlockedCompareExchange128 - 對比兩個參數。
    • _mm_castpd_ps / _mm_castpd_si128 / _mm_castps_pd / _mm_castps_si128 / _mm_castsi128_pd / _mm_castsi128_ps - 對32位浮點值(ps)、64位浮點值(pd)及32位整型值(si128)重新解釋。
    • _mm_cvtsd_f64 - 從參數中取出最低的64位浮點值。
    • _mm_cvtss_f32 - 取出一個32位的浮點值。
    • _rdtscp - 生成RDTSCP。把TSC AUX[31:0]寫到記憶體,並返回64位時間戳計數器結果。
arrow
arrow
    全站熱搜

    chunyuan 發表在 痞客邦 留言(0) 人氣()