Leverage flash attention for fp16 first_token_masked_mha (#2846)

CaoE · MingxuZh · web-flow · commit 5384c00dd212 · 2024-05-11T14:38:36.000+08:00
* leverage flash attention for fp16 first_token_masked_mha

* fix format

---------

Co-authored-by: Zhang, Mingxu &lt;mingxu.zhang@intel.com&gt;
diff --git a/csrc/cpu/aten/kernels/MaskedMultiHeadAttentionKrnl.cpp b/csrc/cpu/aten/kernels/MaskedMultiHeadAttentionKrnl.cpp
@@ -1294,30 +1294,28 @@ first_token_masked_mha(
   auto key_lenght = key.size(1);
   auto kv_head_num = key.size(2);
   auto head_size = key.size(3);
-  if (origin_type == at::kHalf) {
-    key = key.to(at::kFloat);
-    query = query.to(at::kFloat);
-    value = value.to(at::kFloat);
-    key_cache = key_cache.to(at::kFloat);
-    value_cache = value_cache.to(at::kFloat);
-  }
   if (add_casual_mask) {
-    auto casual_mask =
-        at::full({query_length, key_lenght}, -1e6, query.options());
+    auto casual_mask = at::full(
+        {query_length, key_lenght},
+        origin_type == at::kHalf ? -6e4 : -1e6,
+        query.options());
     casual_mask = at::triu(casual_mask, 1);
     casual_mask = casual_mask.unsqueeze(0).unsqueeze(0);
     attention_mask = attention_mask + casual_mask;
   }
-  if (key.scalar_type() != at::kBFloat16 && key.scalar_type() != at::kFloat) {
+  if (key.scalar_type() != at::kBFloat16 && key.scalar_type() != at::kFloat &&
+      key.scalar_type() != at::kHalf) {
     TORCH_CHECK(
         false,
-        "key and value must be float or bfloat16 to use ipex::masked_multihead_self_attention_kernel_impl");
+        "key and value must be float, float16 or bfloat16 to use ipex::masked_multihead_self_attention_kernel_impl");
   }
   if (key.scalar_type() == at::kFloat) {
     copy_key_value<float>(key_cache, key, value_cache, value, beam_batch);
-  } else {
+  } else if (key.scalar_type() == at::kBFloat16) {
     copy_key_value<at::BFloat16>(
         key_cache, key, value_cache, value, beam_batch);
+  } else {
+    copy_key_value<at::Half>(key_cache, key, value_cache, value, beam_batch);
   }
   // support MGQ/MQA
   // expand the head dimensiopn of key/value to be same to the query
@@ -1344,6 +1342,11 @@ first_token_masked_mha(
         attention_mask,
         1. / scale_attn));
   } else {
+    if (origin_type == at::kHalf) {
+      key = key.to(at::kFloat);
+      query = query.to(at::kFloat);
+      value = value.to(at::kFloat);
+    }
     key = key.permute({0, 2, 1, 3});
     query = query.permute({0, 2, 1, 3});
     value = value.permute({0, 2, 1, 3});
@@ -1355,13 +1358,9 @@ first_token_masked_mha(
     attn_outputs = attn_weights.matmul(value);
     if (origin_type == at::kHalf) {
       attn_weights = attn_weights.to(origin_type);
+      attn_outputs = attn_outputs.to(origin_type);
     }
   }
-  if (origin_type == at::kHalf) {
-    attn_outputs = attn_outputs.to(origin_type);
-    key_cache = key_cache.to(origin_type);
-    value_cache = value_cache.to(origin_type);
-  }
   return std::make_tuple(
       attn_outputs, attn_weights, key_cache, value_cache, beam_idx);
 }
diff --git a/csrc/cpu/vec/vec512/vec512_half.h b/csrc/cpu/vec/vec512/vec512_half.h
@@ -53,6 +53,75 @@ IPEX_FORCE_INLINE void move_ker(at::Half* out, const float* in, int64_t len) {
   cvt_fp32_to_fp16(out, in, len);
 }
 
+template <>
+IPEX_FORCE_INLINE void move_ker(
+    at::Half* out,
+    const at::Half* in,
+    int64_t len) {
+  int64_t i = 0;
+#pragma unroll(4)
+  for (i = 0; i < len - 31; i += 32) {
+    auto in0 = _mm512_loadu_si512(in + i);
+    _mm512_storeu_si512(out + i, in0);
+  }
+
+  if (i < len) {
+    auto mask = (1 << (len - i)) - 1;
+    auto in0 = _mm512_maskz_loadu_epi16(mask, in + i);
+    _mm512_mask_storeu_epi16(out + i, mask, in0);
+  }
+}
+
+static IPEX_FORCE_INLINE void zero_ker(at::Half* out, int64_t len) {
+  int64_t i = 0;
+  __m512i zero_512 = _mm512_setzero_si512();
+#pragma unroll(4)
+  for (i = 0; i < len - 31; i += 32) {
+    _mm512_storeu_si512(out + i, zero_512);
+  }
+
+  if (i < len) {
+    auto mask = ((1 << (len - i)) - 1);
+    _mm512_mask_storeu_epi16(out + i, mask, zero_512);
+  }
+}
+
+template <>
+IPEX_FORCE_INLINE void add_ker(
+    at::Half* inout,
+    const at::Half* in,
+    int64_t len) {
+  int64_t i = 0;
+#pragma unroll(2)
+  for (i = 0; i < len - 31; i += 32) {
+    auto inout1 = cvt_fp16_to_fp32(_mm256_loadu_si256((__m256i*)(inout + i)));
+    auto inout2 =
+        cvt_fp16_to_fp32(_mm256_loadu_si256((__m256i*)(inout + i + 16)));
+    auto in1 = cvt_fp16_to_fp32(_mm256_loadu_si256((__m256i*)(in + i)));
+    auto in2 = cvt_fp16_to_fp32(_mm256_loadu_si256((__m256i*)(in + i + 16)));
+    inout1 = _mm512_add_ps(inout1, in1);
+    inout2 = _mm512_add_ps(inout2, in2);
+    _mm256_storeu_si256((__m256i*)(inout + i), cvt_fp32_to_fp16(inout1));
+    _mm256_storeu_si256((__m256i*)(inout + i + 16), cvt_fp32_to_fp16(inout2));
+  }
+
+  if (i < len - 15) {
+    auto inout1 = cvt_fp16_to_fp32(_mm256_loadu_si256((__m256i*)(inout + i)));
+    auto in1 = cvt_fp16_to_fp32(_mm256_loadu_si256((__m256i*)(in + i)));
+    inout1 = _mm512_add_ps(inout1, in1);
+    _mm256_storeu_si256((__m256i*)(inout + i), cvt_fp32_to_fp16(inout1));
+    i += 16;
+  }
+
+  if (i < len) {
+    auto mask = (1 << (len - i)) - 1;
+    auto inout1 = cvt_fp16_to_fp32(_mm256_maskz_loadu_epi16(mask, inout + i));
+    auto in1 = cvt_fp16_to_fp32(_mm256_maskz_loadu_epi16(mask, in + i));
+    inout1 = _mm512_add_ps(inout1, in1);
+    _mm256_mask_storeu_epi16(inout + i, mask, cvt_fp32_to_fp16(inout1));
+  }
+}
+
 template <>
 IPEX_FORCE_INLINE void add_ker(float* inout, const at::Half* in, int64_t len) {
   int64_t i = 0;
@@ -85,6 +154,39 @@ IPEX_FORCE_INLINE void add_ker(float* inout, const at::Half* in, int64_t len) {
   }
 }
 
+template <>
+IPEX_FORCE_INLINE void add_ker(at::Half* inout, const float* in, int64_t len) {
+  int64_t i = 0;
+#pragma unroll(2)
+  for (i = 0; i < len - 31; i += 32) {
+    auto in1 = _mm512_loadu_ps(in + i);
+    auto in2 = _mm512_loadu_ps(in + i + 16);
+    auto inout1 = cvt_fp16_to_fp32(_mm256_loadu_si256((__m256i*)(inout + i)));
+    auto inout2 =
+        cvt_fp16_to_fp32(_mm256_loadu_si256((__m256i*)(inout + i + 16)));
+    inout1 = _mm512_add_ps(inout1, in1);
+    inout2 = _mm512_add_ps(inout2, in2);
+    _mm256_storeu_si256((__m256i*)(inout + i), cvt_fp32_to_fp16(inout1));
+    _mm256_storeu_si256((__m256i*)(inout + i + 16), cvt_fp32_to_fp16(inout2));
+  }
+
+  if (i < len - 15) {
+    auto in1 = _mm512_loadu_ps(in + i);
+    auto inout1 = cvt_fp16_to_fp32(_mm256_loadu_si256((__m256i*)(inout + i)));
+    inout1 = _mm512_add_ps(inout1, in1);
+    _mm256_storeu_si256((__m256i*)(inout + i), cvt_fp32_to_fp16(inout1));
+    i += 16;
+  }
+
+  if (i < len) {
+    auto mask = (1 << (len - i)) - 1;
+    auto in1 = _mm512_maskz_loadu_ps(mask, in + i);
+    auto inout1 = cvt_fp16_to_fp32(_mm256_maskz_loadu_epi16(mask, inout + i));
+    inout1 = _mm512_add_ps(inout1, in1);
+    _mm256_mask_storeu_epi16(inout + i, mask, cvt_fp32_to_fp16(inout1));
+  }
+}
+
 } // namespace kernel
 } // namespace cpu
 } // namespace torch_ipex