Context Navigation

← Previous Change
Next Change →

scale_neon64.cc

Timestamp:

Jul 28, 2017 2:51:44 AM (7 years ago)

Author:

nanang

Message:

Re #2004: Update libyuv version from libyuv git master repo dated 27 July 2017, the compile errors on old gcc versions issue persists though.

File:

: 1 edited

pjproject/trunk/third_party/yuv/source/scale_neon64.cc (modified) (48 diffs)

Legend:

: Unmodified
: Added
: Removed

pjproject/trunk/third_party/yuv/source/scale_neon64.cc

-                      r5358
+                      r5633
  */
+#include "libyuv/row.h"
 #include "libyuv/scale.h"
-#include "libyuv/row.h"
 #include "libyuv/scale_row.h"
 …
 // Read 32x1 throw away even pixels, and write 16x1.
+void ScaleRowDown2_NEON(const uint8* src_ptr, ptrdiff_t src_stride,
+                        uint8* dst, int dst_width) {
+void ScaleRowDown2_NEON(const uint8* src_ptr,
+                        ptrdiff_t src_stride,
+                        uint8* dst,
+                        int dst_width) {
+  (void)src_stride;
   asm volatile (
   "1:                                          \n"
     // load even pixels into v0, odd into v1
-    MEMACCESS(0)
     "ld2        {v0.16b,v1.16b}, [%0], #32     \n"
     "subs       %w2, %w2, #16                  \n"  // 16 processed per loop
-    MEMACCESS(1)
     "st1        {v1.16b}, [%1], #16            \n"  // store odd pixels
     "b.gt       1b                             \n"
 …
 // Read 32x1 average down and write 16x1.
+void ScaleRowDown2Linear_NEON(const uint8* src_ptr, ptrdiff_t src_stride,
+                           uint8* dst, int dst_width) {
+  asm volatile (
+  "1:                                          \n"
+    MEMACCESS(0)
+void ScaleRowDown2Linear_NEON(const uint8* src_ptr,
+                              ptrdiff_t src_stride,
+                              uint8* dst,
+                              int dst_width) {
+  (void)src_stride;
+  asm volatile (
+  "1:                                          \n"
     "ld1        {v0.16b,v1.16b}, [%0], #32     \n"  // load pixels and post inc
     "subs       %w2, %w2, #16                  \n"  // 16 processed per loop
 …
     "rshrn      v0.8b, v0.8h, #1               \n"  // downshift, round and pack
     "rshrn2     v0.16b, v1.8h, #1              \n"
-    MEMACCESS(1)
     "st1        {v0.16b}, [%1], #16            \n"
     "b.gt       1b                             \n"
 …
 // Read 32x2 average down and write 16x1.
+void ScaleRowDown2Box_NEON(const uint8* src_ptr, ptrdiff_t src_stride,
+                           uint8* dst, int dst_width) {
+void ScaleRowDown2Box_NEON(const uint8* src_ptr,
+                           ptrdiff_t src_stride,
+                           uint8* dst,
+                           int dst_width) {
   asm volatile (
     // change the stride to row 2 pointer
     "add        %1, %1, %0                     \n"
   "1:                                          \n"
+    MEMACCESS(0)
+    "ld1        {v0.16b,v1.16b}, [%0], #32    \n"  // load row 1 and post inc
+    MEMACCESS(1)
+    "ld1        {v0.16b, v1.16b}, [%0], #32    \n"  // load row 1 and post inc
     "ld1        {v2.16b, v3.16b}, [%1], #32    \n"  // load row 2 and post inc
     "subs       %w3, %w3, #16                  \n"  // 16 processed per loop
 …
     "rshrn      v0.8b, v0.8h, #2               \n"  // downshift, round and pack
     "rshrn2     v0.16b, v1.8h, #2              \n"
-    MEMACCESS(2)
     "st1        {v0.16b}, [%2], #16            \n"
     "b.gt       1b                             \n"
 …
+}
+void ScaleRowDown4_NEON(const uint8* src_ptr, ptrdiff_t src_stride,
+                        uint8* dst_ptr, int dst_width) {
+  asm volatile (
+  "1:                                          \n"
+    MEMACCESS(0)
+void ScaleRowDown4_NEON(const uint8* src_ptr,
+                        ptrdiff_t src_stride,
+                        uint8* dst_ptr,
+                        int dst_width) {
+  (void)src_stride;
+  asm volatile (
+  "1:                                          \n"
     "ld4     {v0.8b,v1.8b,v2.8b,v3.8b}, [%0], #32          \n"  // src line 0
     "subs       %w2, %w2, #8                   \n"  // 8 processed per loop
-    MEMACCESS(1)
     "st1     {v2.8b}, [%1], #8                 \n"
     "b.gt       1b                             \n"
 …
+}
+void ScaleRowDown4Box_NEON(const uint8* src_ptr, ptrdiff_t src_stride,
+                           uint8* dst_ptr, int dst_width) {
+void ScaleRowDown4Box_NEON(const uint8* src_ptr,
+                           ptrdiff_t src_stride,
+                           uint8* dst_ptr,
+                           int dst_width) {
   const uint8* src_ptr1 = src_ptr + src_stride;
   const uint8* src_ptr2 = src_ptr + src_stride * 2;
   const uint8* src_ptr3 = src_ptr + src_stride * 3;
+asm volatile (
+  "1:                                          \n"
+    MEMACCESS(0)
+  asm volatile (
+  "1:                                          \n"
     "ld1     {v0.16b}, [%0], #16               \n"   // load up 16x4
-    MEMACCESS(3)
     "ld1     {v1.16b}, [%2], #16               \n"
-    MEMACCESS(4)
     "ld1     {v2.16b}, [%3], #16               \n"
-    MEMACCESS(5)
     "ld1     {v3.16b}, [%4], #16               \n"
     "subs    %w5, %w5, #4                      \n"
 …
     "addp    v0.8h, v0.8h, v0.8h               \n"
     "rshrn   v0.8b, v0.8h, #4                  \n"   // divide by 16 w/rounding
-    MEMACCESS(1)
     "st1    {v0.s}[0], [%1], #4                \n"
     "b.gt       1b                             \n"
 …
 void ScaleRowDown34_NEON(const uint8* src_ptr,
                          ptrdiff_t src_stride,
+                         uint8* dst_ptr, int dst_width) {
+                         uint8* dst_ptr,
+                         int dst_width) {
+  (void)src_stride;
   asm volatile (
   "1:                                                  \n"
+    MEMACCESS(0)
+    "ld4       {v0.8b,v1.8b,v2.8b,v3.8b}, [%0], #32                \n"  // src line 0
+    "ld4       {v0.8b,v1.8b,v2.8b,v3.8b}, [%0], #32    \n"  // src line 0
     "subs      %w2, %w2, #24                           \n"
     "orr       v2.16b, v3.16b, v3.16b                  \n"  // order v0, v1, v2
+    MEMACCESS(1)
+    "st3       {v0.8b,v1.8b,v2.8b}, [%1], #24                \n"
+    "st3       {v0.8b,v1.8b,v2.8b}, [%1], #24          \n"
     "b.gt      1b                                      \n"
   : "+r"(src_ptr),          // %0
 …
 void ScaleRowDown34_0_Box_NEON(const uint8* src_ptr,
                                ptrdiff_t src_stride,
+                               uint8* dst_ptr, int dst_width) {
+                               uint8* dst_ptr,
+                               int dst_width) {
   asm volatile (
     "movi      v20.8b, #3                              \n"
     "add       %3, %3, %0                              \n"
   "1:                                                  \n"
+    MEMACCESS(0)
+    "ld4       {v0.8b,v1.8b,v2.8b,v3.8b}, [%0], #32                \n"  // src line 0
+    MEMACCESS(3)
+    "ld4       {v4.8b,v5.8b,v6.8b,v7.8b}, [%3], #32                \n"  // src line 1
+    "ld4       {v0.8b,v1.8b,v2.8b,v3.8b}, [%0], #32    \n"  // src line 0
+    "ld4       {v4.8b,v5.8b,v6.8b,v7.8b}, [%3], #32    \n"  // src line 1
     "subs         %w2, %w2, #24                        \n"
 …
     "uqrshrn   v2.8b, v16.8h, #2                       \n"
+    MEMACCESS(1)
+    "st3       {v0.8b,v1.8b,v2.8b}, [%1], #24                \n"
+    "st3       {v0.8b,v1.8b,v2.8b}, [%1], #24          \n"
     "b.gt      1b                                      \n"
 …
 void ScaleRowDown34_1_Box_NEON(const uint8* src_ptr,
                                ptrdiff_t src_stride,
+                               uint8* dst_ptr, int dst_width) {
+                               uint8* dst_ptr,
+                               int dst_width) {
   asm volatile (
     "movi      v20.8b, #3                              \n"
     "add       %3, %3, %0                              \n"
   "1:                                                  \n"
+    MEMACCESS(0)
+    "ld4       {v0.8b,v1.8b,v2.8b,v3.8b}, [%0], #32                \n"  // src line 0
+    MEMACCESS(3)
+    "ld4       {v4.8b,v5.8b,v6.8b,v7.8b}, [%3], #32                \n"  // src line 1
+    "ld4       {v0.8b,v1.8b,v2.8b,v3.8b}, [%0], #32    \n"  // src line 0
+    "ld4       {v4.8b,v5.8b,v6.8b,v7.8b}, [%3], #32    \n"  // src line 1
     "subs         %w2, %w2, #24                        \n"
     // average src line 0 with src line 1
 …
     "uqrshrn   v2.8b, v4.8h, #2                        \n"
+    MEMACCESS(1)
+    "st3       {v0.8b,v1.8b,v2.8b}, [%1], #24                \n"
+    "st3       {v0.8b,v1.8b,v2.8b}, [%1], #24          \n"
     "b.gt      1b                                      \n"
   : "+r"(src_ptr),          // %0
 …
+}
+static uvec8 kShuf38 =
+  { 0, 3, 6, 8, 11, 14, 16, 19, 22, 24, 27, 30, 0, 0, 0, 0 };
+static uvec8 kShuf38_2 =
+  { 0, 16, 32, 2, 18, 33, 4, 20, 34, 6, 22, 35, 0, 0, 0, 0 };
+static vec16 kMult38_Div6 =
+  { 65536 / 12, 65536 / 12, 65536 / 12, 65536 / 12,
+/ 12, 65536 / 12, 65536 / 12, 65536 / 12 };
+static vec16 kMult38_Div9 =
+  { 65536 / 18, 65536 / 18, 65536 / 18, 65536 / 18,
+/ 18, 65536 / 18, 65536 / 18, 65536 / 18 };
+static uvec8 kShuf38 = {0, 3, 6, 8, 11, 14, 16, 19, 22, 24, 27, 30, 0, 0, 0, 0};
+static uvec8 kShuf38_2 = {0,  16, 32, 2,  18, 33, 4, 20,
+, 6,  22, 35, 0,  0,  0, 0};
+static vec16 kMult38_Div6 = {65536 / 12, 65536 / 12, 65536 / 12, 65536 / 12,
+/ 12, 65536 / 12, 65536 / 12, 65536 / 12};
+static vec16 kMult38_Div9 = {65536 / 18, 65536 / 18, 65536 / 18, 65536 / 18,
+/ 18, 65536 / 18, 65536 / 18, 65536 / 18};
 // 32 -> 12
 void ScaleRowDown38_NEON(const uint8* src_ptr,
                          ptrdiff_t src_stride,
+                         uint8* dst_ptr, int dst_width) {
+  asm volatile (
+    MEMACCESS(3)
+                         uint8* dst_ptr,
+                         int dst_width) {
+  (void)src_stride;
+  asm volatile (
     "ld1       {v3.16b}, [%3]                          \n"
   "1:                                                  \n"
+    MEMACCESS(0)
+    "ld1       {v0.16b,v1.16b}, [%0], #32             \n"
+    "ld1       {v0.16b,v1.16b}, [%0], #32              \n"
     "subs      %w2, %w2, #12                           \n"
+    "tbl       v2.16b, {v0.16b,v1.16b}, v3.16b        \n"
+    MEMACCESS(1)
+    "tbl       v2.16b, {v0.16b,v1.16b}, v3.16b         \n"
     "st1       {v2.8b}, [%1], #8                       \n"
-    MEMACCESS(1)
     "st1       {v2.s}[2], [%1], #4                     \n"
     "b.gt      1b                                      \n"
 …
 void OMITFP ScaleRowDown38_3_Box_NEON(const uint8* src_ptr,
                                       ptrdiff_t src_stride,
+                                      uint8* dst_ptr, int dst_width) {
+                                      uint8* dst_ptr,
+                                      int dst_width) {
   const uint8* src_ptr1 = src_ptr + src_stride * 2;
   ptrdiff_t tmp_src_stride = src_stride;
   asm volatile (
-    MEMACCESS(5)
     "ld1       {v29.8h}, [%5]                          \n"
-    MEMACCESS(6)
     "ld1       {v30.16b}, [%6]                         \n"
-    MEMACCESS(7)
     "ld1       {v31.8h}, [%7]                          \n"
     "add       %2, %2, %0                              \n"
 …
     // 20 60 21 61 22 62 23 63
     // 30 70 31 71 32 72 33 73
+    MEMACCESS(0)
+    "ld4       {v0.8b,v1.8b,v2.8b,v3.8b}, [%0], #32                \n"
+    MEMACCESS(3)
+    "ld4       {v4.8b,v5.8b,v6.8b,v7.8b}, [%2], #32                \n"
+    MEMACCESS(4)
+    "ld4       {v16.8b,v17.8b,v18.8b,v19.8b}, [%3], #32              \n"
+    "ld4       {v0.8b,v1.8b,v2.8b,v3.8b}, [%0], #32      \n"
+    "ld4       {v4.8b,v5.8b,v6.8b,v7.8b}, [%2], #32      \n"
+    "ld4       {v16.8b,v17.8b,v18.8b,v19.8b}, [%3], #32  \n"
     "subs      %w4, %w4, #12                           \n"
 …
     "tbl       v3.16b, {v0.16b, v1.16b, v2.16b}, v30.16b \n"
-    MEMACCESS(1)
     "st1       {v3.8b}, [%1], #8                       \n"
-    MEMACCESS(1)
     "st1       {v3.s}[2], [%1], #4                     \n"
     "b.gt      1b                                      \n"
 …
 void ScaleRowDown38_2_Box_NEON(const uint8* src_ptr,
                                ptrdiff_t src_stride,
+                               uint8* dst_ptr, int dst_width) {
+                               uint8* dst_ptr,
+                               int dst_width) {
   // TODO(fbarchard): use src_stride directly for clang 3.5+.
   ptrdiff_t tmp_src_stride = src_stride;
   asm volatile (
-    MEMACCESS(4)
     "ld1       {v30.8h}, [%4]                          \n"
-    MEMACCESS(5)
     "ld1       {v31.16b}, [%5]                         \n"
     "add       %2, %2, %0                              \n"
 …
     // 20 60 21 61 22 62 23 63
     // 30 70 31 71 32 72 33 73
+    MEMACCESS(0)
+    "ld4       {v0.8b,v1.8b,v2.8b,v3.8b}, [%0], #32                \n"
+    MEMACCESS(3)
+    "ld4       {v4.8b,v5.8b,v6.8b,v7.8b}, [%2], #32                \n"
+    "ld4       {v0.8b,v1.8b,v2.8b,v3.8b}, [%0], #32    \n"
+    "ld4       {v4.8b,v5.8b,v6.8b,v7.8b}, [%2], #32    \n"
     "subs      %w3, %w3, #12                           \n"
 …
     "tbl       v3.16b, {v0.16b, v1.16b, v2.16b}, v31.16b \n"
-    MEMACCESS(1)
     "st1       {v3.8b}, [%1], #8                       \n"
-    MEMACCESS(1)
     "st1       {v3.s}[2], [%1], #4                     \n"
     "b.gt      1b                                      \n"
 …
+}
+void ScaleAddRows_NEON(const uint8* src_ptr, ptrdiff_t src_stride,
+                    uint16* dst_ptr, int src_width, int src_height) {
+void ScaleAddRows_NEON(const uint8* src_ptr,
+                       ptrdiff_t src_stride,
+                       uint16* dst_ptr,
+                       int src_width,
+                       int src_height) {
   const uint8* src_tmp;
   asm volatile (
 …
   "2:                                          \n"
     // load 16 pixels into q0
-    MEMACCESS(0)
     "ld1       {v0.16b}, [%0], %3              \n"
     "uaddw2    v3.8h, v3.8h, v0.16b            \n"
 …
     "subs      w12, w12, #1                    \n"
     "b.gt      2b                              \n"
-    MEMACCESS(2)
     "st1      {v2.8h, v3.8h}, [%2], #32        \n"  // store pixels
     "add      %1, %1, #16                      \n"
 …
+}
+// clang-format off
 // TODO(Yang Zhang): Investigate less load instructions for
 // the x/dx stepping
+#define LOAD2_DATA8_LANE(n)                                    \
+    "lsr        %5, %3, #16                    \n"             \
+    "add        %6, %1, %5                    \n"              \
+    "add        %3, %3, %4                     \n"             \
+    MEMACCESS(6)                                               \
+    "ld2        {v4.b, v5.b}["#n"], [%6]      \n"
+void ScaleFilterCols_NEON(uint8* dst_ptr, const uint8* src_ptr,
+                          int dst_width, int x, int dx) {
+#define LOAD2_DATA8_LANE(n)                                 \
+  "lsr        %5, %3, #16                    \n"            \
+  "add        %6, %1, %5                     \n"            \
+  "add        %3, %3, %4                     \n"            \
+  "ld2        {v4.b, v5.b}[" #n "], [%6]     \n"
+// clang-format on
+// The NEON version mimics this formula (from row_common.cc):
+// #define BLENDER(a, b, f) (uint8)((int)(a) +
+//    ((((int)((f)) * ((int)(b) - (int)(a))) + 0x8000) >> 16))
+void ScaleFilterCols_NEON(uint8* dst_ptr,
+                          const uint8* src_ptr,
+                          int dst_width,
+                          int x,
+                          int dx) {
   int dx_offset[4] = {0, 1, 2, 3};
   int* tmp = dx_offset;
   const uint8* src_tmp = src_ptr;
+  int64 dst_width64 = (int64) dst_width;  // Work around ios 64 bit warning.
+  int64 x64 = (int64) x;
+  int64 dx64 = (int64) dx;
+  int64 x64 = (int64)x;
+  int64 dx64 = (int64)dx;
   asm volatile (
     "dup        v0.4s, %w3                     \n"  // x
 …
     "mul       v16.4s, v16.4s, v7.4s           \n"
     "mul       v17.4s, v17.4s, v6.4s           \n"
     "shrn      v6.4h, v16.4s, #16              \n"
     "shrn2     v6.8h, v17.4s, #16              \n"
+    "rshrn     v6.4h, v16.4s, #16              \n"
+    "rshrn2    v6.8h, v17.4s, #16              \n"
     "add       v4.8h, v4.8h, v6.8h             \n"
     "xtn       v4.8b, v4.8h                    \n"
-    MEMACCESS(0)
     "st1       {v4.8b}, [%0], #8               \n"  // store pixels
     "add       v1.4s, v1.4s, v0.4s             \n"
 …
   : "+r"(dst_ptr),          // %0
     "+r"(src_ptr),          // %1
     "+r"(dst_width64),      // %2
+    "+r"(dst_width),        // %2
     "+r"(x64),              // %3
     "+r"(dx64),             // %4
 …
 // 16x2 -> 16x1
 void ScaleFilterRows_NEON(uint8* dst_ptr,
+                          const uint8* src_ptr, ptrdiff_t src_stride,
+                          int dst_width, int source_y_fraction) {
+    int y_fraction = 256 - source_y_fraction;
+                          const uint8* src_ptr,
+                          ptrdiff_t src_stride,
+                          int dst_width,
+                          int source_y_fraction) {
+  int y_fraction = 256 - source_y_fraction;
   asm volatile (
     "cmp          %w4, #0                      \n"
 …
     // General purpose row blend.
   "1:                                          \n"
-    MEMACCESS(1)
     "ld1          {v0.16b}, [%1], #16          \n"
-    MEMACCESS(2)
     "ld1          {v1.16b}, [%2], #16          \n"
     "subs         %w3, %w3, #16                \n"
 …
     "rshrn        v0.8b, v6.8h, #8             \n"
     "rshrn2       v0.16b, v7.8h, #8            \n"
-    MEMACCESS(0)
     "st1          {v0.16b}, [%0], #16          \n"
     "b.gt         1b                           \n"
 …
     // Blend 25 / 75.
   "25:                                         \n"
-    MEMACCESS(1)
     "ld1          {v0.16b}, [%1], #16          \n"
-    MEMACCESS(2)
     "ld1          {v1.16b}, [%2], #16          \n"
     "subs         %w3, %w3, #16                \n"
     "urhadd       v0.16b, v0.16b, v1.16b       \n"
     "urhadd       v0.16b, v0.16b, v1.16b       \n"
-    MEMACCESS(0)
     "st1          {v0.16b}, [%0], #16          \n"
     "b.gt         25b                          \n"
 …
     // Blend 50 / 50.
   "50:                                         \n"
-    MEMACCESS(1)
     "ld1          {v0.16b}, [%1], #16          \n"
-    MEMACCESS(2)
     "ld1          {v1.16b}, [%2], #16          \n"
     "subs         %w3, %w3, #16                \n"
     "urhadd       v0.16b, v0.16b, v1.16b       \n"
-    MEMACCESS(0)
     "st1          {v0.16b}, [%0], #16          \n"
     "b.gt         50b                          \n"
 …
     // Blend 75 / 25.
   "75:                                         \n"
-    MEMACCESS(1)
     "ld1          {v1.16b}, [%1], #16          \n"
-    MEMACCESS(2)
     "ld1          {v0.16b}, [%2], #16          \n"
     "subs         %w3, %w3, #16                \n"
     "urhadd       v0.16b, v0.16b, v1.16b       \n"
     "urhadd       v0.16b, v0.16b, v1.16b       \n"
-    MEMACCESS(0)
     "st1          {v0.16b}, [%0], #16          \n"
     "b.gt         75b                          \n"
 …
     // Blend 100 / 0 - Copy row unchanged.
   "100:                                        \n"
-    MEMACCESS(1)
     "ld1          {v0.16b}, [%1], #16          \n"
     "subs         %w3, %w3, #16                \n"
-    MEMACCESS(0)
     "st1          {v0.16b}, [%0], #16          \n"
     "b.gt         100b                         \n"
   "99:                                         \n"
-    MEMACCESS(0)
     "st1          {v0.b}[15], [%0]             \n"
   : "+r"(dst_ptr),          // %0
 …
+}
+void ScaleARGBRowDown2_NEON(const uint8* src_ptr, ptrdiff_t src_stride,
+                            uint8* dst, int dst_width) {
+void ScaleARGBRowDown2_NEON(const uint8* src_ptr,
+                            ptrdiff_t src_stride,
+                            uint8* dst,
+                            int dst_width) {
+  (void)src_stride;
   asm volatile (
   "1:                                          \n"
     // load even pixels into q0, odd into q1
-    MEMACCESS (0)
     "ld2        {v0.4s, v1.4s}, [%0], #32      \n"
-    MEMACCESS (0)
     "ld2        {v2.4s, v3.4s}, [%0], #32      \n"
     "subs       %w2, %w2, #8                   \n"  // 8 processed per loop
-    MEMACCESS (1)
     "st1        {v1.16b}, [%1], #16            \n"  // store odd pixels
-    MEMACCESS (1)
     "st1        {v3.16b}, [%1], #16            \n"
     "b.gt       1b                             \n"
 …
+}
+void ScaleARGBRowDown2Linear_NEON(const uint8* src_argb, ptrdiff_t src_stride,
+                                  uint8* dst_argb, int dst_width) {
+  asm volatile (
+  "1:                                          \n"
+    MEMACCESS (0)
+void ScaleARGBRowDown2Linear_NEON(const uint8* src_argb,
+                                  ptrdiff_t src_stride,
+                                  uint8* dst_argb,
+                                  int dst_width) {
+  (void)src_stride;
+  asm volatile (
+  "1:                                          \n"
     // load 8 ARGB pixels.
     "ld4        {v0.16b,v1.16b,v2.16b,v3.16b}, [%0], #64   \n"
 …
     "rshrn      v2.8b, v2.8h, #1               \n"
     "rshrn      v3.8b, v3.8h, #1               \n"
-    MEMACCESS (1)
     "st4        {v0.8b,v1.8b,v2.8b,v3.8b}, [%1], #32     \n"
     "b.gt       1b                             \n"
 …
+}
+void ScaleARGBRowDown2Box_NEON(const uint8* src_ptr, ptrdiff_t src_stride,
+                               uint8* dst, int dst_width) {
+void ScaleARGBRowDown2Box_NEON(const uint8* src_ptr,
+                               ptrdiff_t src_stride,
+                               uint8* dst,
+                               int dst_width) {
   asm volatile (
     // change the stride to row 2 pointer
     "add        %1, %1, %0                     \n"
   "1:                                          \n"
-    MEMACCESS (0)
     "ld4        {v0.16b,v1.16b,v2.16b,v3.16b}, [%0], #64   \n"  // load 8 ARGB pixels.
     "subs       %w3, %w3, #8                   \n"  // 8 processed per loop.
 …
     "uaddlp     v2.8h, v2.16b                  \n"  // R 16 bytes -> 8 shorts.
     "uaddlp     v3.8h, v3.16b                  \n"  // A 16 bytes -> 8 shorts.
-    MEMACCESS (1)
     "ld4        {v16.16b,v17.16b,v18.16b,v19.16b}, [%1], #64 \n"  // load 8 more ARGB pixels.
     "uadalp     v0.8h, v16.16b                 \n"  // B 16 bytes -> 8 shorts.
 …
     "rshrn      v2.8b, v2.8h, #2               \n"
     "rshrn      v3.8b, v3.8h, #2               \n"
-    MEMACCESS (2)
     "st4        {v0.8b,v1.8b,v2.8b,v3.8b}, [%2], #32     \n"
     "b.gt       1b                             \n"
 …
 // Reads 4 pixels at a time.
 // Alignment requirement: src_argb 4 byte aligned.
+void ScaleARGBRowDownEven_NEON(const uint8* src_argb,  ptrdiff_t src_stride,
+                               int src_stepx, uint8* dst_argb, int dst_width) {
+  asm volatile (
+  "1:                                          \n"
+    MEMACCESS(0)
+void ScaleARGBRowDownEven_NEON(const uint8* src_argb,
+                               ptrdiff_t src_stride,
+                               int src_stepx,
+                               uint8* dst_argb,
+                               int dst_width) {
+  (void)src_stride;
+  asm volatile (
+  "1:                                          \n"
     "ld1        {v0.s}[0], [%0], %3            \n"
-    MEMACCESS(0)
     "ld1        {v0.s}[1], [%0], %3            \n"
-    MEMACCESS(0)
     "ld1        {v0.s}[2], [%0], %3            \n"
-    MEMACCESS(0)
     "ld1        {v0.s}[3], [%0], %3            \n"
     "subs       %w2, %w2, #4                   \n"  // 4 pixels per loop.
-    MEMACCESS(1)
     "st1        {v0.16b}, [%1], #16            \n"
     "b.gt       1b                             \n"
 …
 // TODO(Yang Zhang): Might be worth another optimization pass in future.
 // It could be upgraded to 8 pixels at a time to start with.
+void ScaleARGBRowDownEvenBox_NEON(const uint8* src_argb, ptrdiff_t src_stride,
+void ScaleARGBRowDownEvenBox_NEON(const uint8* src_argb,
+                                  ptrdiff_t src_stride,
                                   int src_stepx,
+                                  uint8* dst_argb, int dst_width) {
+                                  uint8* dst_argb,
+                                  int dst_width) {
   asm volatile (
     "add        %1, %1, %0                     \n"
   "1:                                          \n"
-    MEMACCESS(0)
     "ld1        {v0.8b}, [%0], %4              \n"  // Read 4 2x2 blocks -> 2x1
-    MEMACCESS(1)
     "ld1        {v1.8b}, [%1], %4              \n"
-    MEMACCESS(0)
     "ld1        {v2.8b}, [%0], %4              \n"
-    MEMACCESS(1)
     "ld1        {v3.8b}, [%1], %4              \n"
-    MEMACCESS(0)
     "ld1        {v4.8b}, [%0], %4              \n"
-    MEMACCESS(1)
     "ld1        {v5.8b}, [%1], %4              \n"
-    MEMACCESS(0)
     "ld1        {v6.8b}, [%0], %4              \n"
-    MEMACCESS(1)
     "ld1        {v7.8b}, [%1], %4              \n"
     "uaddl      v0.8h, v0.8b, v1.8b            \n"
 …
     "rshrn2     v0.16b, v4.8h, #2              \n"  // next 2 pixels.
     "subs       %w3, %w3, #4                   \n"  // 4 pixels per loop.
-    MEMACCESS(2)
     "st1     {v0.16b}, [%2], #16               \n"
     "b.gt       1b                             \n"
 …
+}
+// clang-format off
 // TODO(Yang Zhang): Investigate less load instructions for
 // the x/dx stepping
+#define LOAD1_DATA32_LANE(vn, n)                               \
+    "lsr        %5, %3, #16                    \n"             \
+    "add        %6, %1, %5, lsl #2             \n"             \
+    "add        %3, %3, %4                     \n"             \
+    MEMACCESS(6)                                               \
+    "ld1        {"#vn".s}["#n"], [%6]          \n"
+void ScaleARGBCols_NEON(uint8* dst_argb, const uint8* src_argb,
+                        int dst_width, int x, int dx) {
+#define LOAD1_DATA32_LANE(vn, n)                            \
+  "lsr        %5, %3, #16                    \n"            \
+  "add        %6, %1, %5, lsl #2             \n"            \
+  "add        %3, %3, %4                     \n"            \
+  "ld1        {" #vn ".s}[" #n "], [%6]      \n"
+// clang-format on
+void ScaleARGBCols_NEON(uint8* dst_argb,
+                        const uint8* src_argb,
+                        int dst_width,
+                        int x,
+                        int dx) {
   const uint8* src_tmp = src_argb;
+  int64 dst_width64 = (int64) dst_width;  // Work around ios 64 bit warning.
+  int64 x64 = (int64) x;
+  int64 dx64 = (int64) dx;
+  int64 x64 = (int64)x;
+  int64 dx64 = (int64)dx;
   int64 tmp64;
   asm volatile (
 …
     LOAD1_DATA32_LANE(v1, 3)
-    MEMACCESS(0)
     "st1        {v0.4s, v1.4s}, [%0], #32      \n"  // store pixels
     "subs       %w2, %w2, #8                   \n"  // 8 processed per loop
     "b.gt        1b                            \n"
+    "b.gt       1b                             \n"
   : "+r"(dst_argb),     // %0
     "+r"(src_argb),     // %1
     "+r"(dst_width64),  // %2
+    "+r"(dst_width),    // %2
     "+r"(x64),          // %3
     "+r"(dx64),         // %4
 …
 #undef LOAD1_DATA32_LANE
+// clang-format off
 // TODO(Yang Zhang): Investigate less load instructions for
 // the x/dx stepping
+#define LOAD2_DATA32_LANE(vn1, vn2, n)                         \
+    "lsr        %5, %3, #16                           \n"      \
+    "add        %6, %1, %5, lsl #2                    \n"      \
+    "add        %3, %3, %4                            \n"      \
+    MEMACCESS(6)                                               \
+    "ld2        {"#vn1".s, "#vn2".s}["#n"], [%6]      \n"
+void ScaleARGBFilterCols_NEON(uint8* dst_argb, const uint8* src_argb,
+                              int dst_width, int x, int dx) {
+#define LOAD2_DATA32_LANE(vn1, vn2, n)                             \
+  "lsr        %5, %3, #16                           \n"            \
+  "add        %6, %1, %5, lsl #2                    \n"            \
+  "add        %3, %3, %4                            \n"            \
+  "ld2        {" #vn1 ".s, " #vn2 ".s}[" #n "], [%6]  \n"
+// clang-format on
+void ScaleARGBFilterCols_NEON(uint8* dst_argb,
+                              const uint8* src_argb,
+                              int dst_width,
+                              int x,
+                              int dx) {
   int dx_offset[4] = {0, 1, 2, 3};
   int* tmp = dx_offset;
   const uint8* src_tmp = src_argb;
+  int64 dst_width64 = (int64) dst_width;  // Work around ios 64 bit warning.
+  int64 x64 = (int64) x;
+  int64 dx64 = (int64) dx;
+  int64 x64 = (int64)x;
+  int64 dx64 = (int64)dx;
   asm volatile (
     "dup        v0.4s, %w3                     \n"  // x
 …
     "shrn2      v0.16b, v17.8h, #7             \n"
-    MEMACCESS(0)
     "st1     {v0.4s}, [%0], #16                \n"  // store pixels
     "add     v5.4s, v5.4s, v6.4s               \n"
 …
   : "+r"(dst_argb),         // %0
     "+r"(src_argb),         // %1
     "+r"(dst_width64),      // %2
+    "+r"(dst_width),        // %2
     "+r"(x64),              // %3
     "+r"(dx64),             // %4

Note: See TracChangeset for help on using the changeset viewer.

Context Navigation

Changeset 5633 for pjproject/trunk/third_party/yuv/source/scale_neon64.cc

Legend:

pjproject/trunk/third_party/yuv/source/scale_neon64.cc

Download in other formats: