Context Navigation

← Previous Change
Next Change →

row_neon64.cc

Timestamp:

Nov 21, 2017 9:25:11 AM (6 years ago)

Author:

riza

Message:

Close #2065: Update libyuv to fix linker error when building libyuv as dll on Visual Studio 2015.

File:

: 1 edited

pjproject/trunk/third_party/yuv/source/row_neon64.cc (modified) (81 diffs)

Legend:

: Unmodified
: Added
: Removed

pjproject/trunk/third_party/yuv/source/row_neon64.cc

-                      r5633
+                      r5699
   asm volatile(
       YUVTORGB_SETUP
       "1:                                          \n" READYUV422 YUVTORGB(
+      "1:                                        \n" READYUV422 YUVTORGB(
           v22, v21,
           v20) "subs       %w4, %w4, #8                   \n" ARGBTORGB565
 …
       YUVTORGB_SETUP
       "movi       v23.8b, #255                   \n"
       "1:                                          \n" READYUV422 YUVTORGB(
+      "1:                                        \n" READYUV422 YUVTORGB(
           v22, v21,
           v20) "subs       %w4, %w4, #8                   \n" ARGBTOARGB1555
 …
   asm volatile(
       "movi       v23.8b, #255                   \n"
       "1:                                          \n"
+      "1:                                        \n"
       "ld1        {v20.8b}, [%0], #8             \n"
       "orr        v21.8b, v20.8b, v20.8b         \n"
 …
   asm volatile(
       YUVTORGB_SETUP
       "1:                                          \n" READNV12 YUVTORGB(
+      "1:                                        \n" READNV12 YUVTORGB(
           v22, v21,
           v20) "subs       %w3, %w3, #8                   \n" ARGBTORGB565
 …
                      int width) {
   asm volatile(
       "1:                                          \n"
+      "1:                                        \n"
       "ld2        {v0.16b,v1.16b}, [%0], #32     \n"  // load 16 pairs of UV
       "subs       %w3, %w3, #16                  \n"  // 16 processed per loop
 …
                      int width) {
   asm volatile(
       "1:                                          \n"
+      "1:                                        \n"
       "ld1        {v0.16b}, [%0], #16            \n"  // load U
       "ld1        {v1.16b}, [%1], #16            \n"  // load V
 …
+}
+// Copy multiple of 32.  vld4.8  allow unaligned and is fastest on a15.
+// Reads 16 packed RGB and write to planar dst_r, dst_g, dst_b.
+void SplitRGBRow_NEON(const uint8* src_rgb,
+                      uint8* dst_r,
+                      uint8* dst_g,
+                      uint8* dst_b,
+                      int width) {
+  asm volatile(
+      "1:                                        \n"
+      "ld3        {v0.16b,v1.16b,v2.16b}, [%0], #48 \n"  // load 16 RGB
+      "subs       %w4, %w4, #16                  \n"  // 16 processed per loop
+      "st1        {v0.16b}, [%1], #16            \n"  // store R
+      "st1        {v1.16b}, [%2], #16            \n"  // store G
+      "st1        {v2.16b}, [%3], #16            \n"  // store B
+      "b.gt       1b                             \n"
+      : "+r"(src_rgb),                    // %0
+        "+r"(dst_r),                      // %1
+        "+r"(dst_g),                      // %2
+        "+r"(dst_b),                      // %3
+        "+r"(width)                       // %4
+      :                                   // Input registers
+      : "cc", "memory", "v0", "v1", "v2"  // Clobber List
+      );
+}
+// Reads 16 planar R's, G's and B's and writes out 16 packed RGB at a time
+void MergeRGBRow_NEON(const uint8* src_r,
+                      const uint8* src_g,
+                      const uint8* src_b,
+                      uint8* dst_rgb,
+                      int width) {
+  asm volatile(
+      "1:                                        \n"
+      "ld1        {v0.16b}, [%0], #16            \n"  // load R
+      "ld1        {v1.16b}, [%1], #16            \n"  // load G
+      "ld1        {v2.16b}, [%2], #16            \n"  // load B
+      "subs       %w4, %w4, #16                  \n"  // 16 processed per loop
+      "st3        {v0.16b,v1.16b,v2.16b}, [%3], #48 \n"  // store 16 RGB
+      "b.gt       1b                             \n"
+      : "+r"(src_r),                      // %0
+        "+r"(src_g),                      // %1
+        "+r"(src_b),                      // %2
+        "+r"(dst_rgb),                    // %3
+        "+r"(width)                       // %4
+      :                                   // Input registers
+      : "cc", "memory", "v0", "v1", "v2"  // Clobber List
+      );
+}
+// Copy multiple of 32.
 void CopyRow_NEON(const uint8* src, uint8* dst, int count) {
   asm volatile(
       "1:                                          \n"
       "ld1        {v0.8b,v1.8b,v2.8b,v3.8b}, [%0], #32       \n"  // load 32
+      "1:                                        \n"
+      "ldp        q0, q1, [%0], #32              \n"
       "subs       %w2, %w2, #32                  \n"  // 32 processed per loop
       "st1        {v0.8b,v1.8b,v2.8b,v3.8b}, [%1], #32       \n"  // store 32
       "b.gt       1b                             \n"
       : "+r"(src),                              // %0
         "+r"(dst),                              // %1
         "+r"(count)                             // %2  // Output registers
       :                                         // Input registers
       : "cc", "memory", "v0", "v1", "v2", "v3"  // Clobber List
+      "stp        q0, q1, [%1], #32              \n"
+      "b.gt       1b                             \n"
+      : "+r"(src),                  // %0
+        "+r"(dst),                  // %1
+        "+r"(count)                 // %2  // Output registers
+      :                             // Input registers
+      : "cc", "memory", "v0", "v1"  // Clobber List
       );
+}
 …
   asm volatile(
       "dup        v0.16b, %w2                    \n"  // duplicate 16 bytes
       "1:                                          \n"
+      "1:                                        \n"
       "subs       %w1, %w1, #16                  \n"  // 16 bytes per loop
       "st1        {v0.16b}, [%0], #16            \n"  // store
 …
   asm volatile(
       "dup        v0.4s, %w2                     \n"  // duplicate 4 ints
       "1:                                          \n"
+      "1:                                        \n"
       "subs       %w1, %w1, #4                   \n"  // 4 ints per loop
       "st1        {v0.16b}, [%0], #16            \n"  // store
 …
       "add        %0, %0, %w2, sxtw              \n"
       "sub        %0, %0, #16                    \n"
       "1:                                          \n"
+      "1:                                        \n"
       "ld1        {v0.16b}, [%0], %3             \n"  // src -= 16
       "subs       %w2, %w2, #16                  \n"  // 16 pixels per loop.
 …
       "add        %0, %0, %w3, sxtw #1           \n"
       "sub        %0, %0, #16                    \n"
       "1:                                          \n"
+      "1:                                        \n"
       "ld2        {v0.8b, v1.8b}, [%0], %4       \n"  // src -= 16
       "subs       %w3, %w3, #8                   \n"  // 8 pixels per loop.
 …
       "add        %0, %0, %w2, sxtw #2           \n"
       "sub        %0, %0, #16                    \n"
       "1:                                          \n"
+      "1:                                        \n"
       "ld1        {v0.16b}, [%0], %3             \n"  // src -= 16
       "subs       %w2, %w2, #4                   \n"  // 4 pixels per loop.
 …
   asm volatile(
       "movi       v4.8b, #255                    \n"  // Alpha
       "1:                                          \n"
+      "1:                                        \n"
       "ld3        {v1.8b,v2.8b,v3.8b}, [%0], #24 \n"  // load 8 pixels of RGB24.
       "subs       %w2, %w2, #8                   \n"  // 8 processed per loop.
       "st4        {v1.8b,v2.8b,v3.8b,v4.8b}, [%1], #32 \n"  // store 8 ARGB
-                                                            // pixels
       "b.gt       1b                             \n"
       : "+r"(src_rgb24),  // %0
 …
   asm volatile(
       "movi       v5.8b, #255                    \n"  // Alpha
       "1:                                          \n"
+      "1:                                        \n"
       "ld3        {v0.8b,v1.8b,v2.8b}, [%0], #24 \n"  // read r g b
       "subs       %w2, %w2, #8                   \n"  // 8 processed per loop.
 …
 void RAWToRGB24Row_NEON(const uint8* src_raw, uint8* dst_rgb24, int width) {
   asm volatile(
       "1:                                          \n"
+      "1:                                        \n"
       "ld3        {v0.8b,v1.8b,v2.8b}, [%0], #24 \n"  // read r g b
       "subs       %w2, %w2, #8                   \n"  // 8 processed per loop.
 …
   asm volatile(
       "movi       v3.8b, #255                    \n"  // Alpha
       "1:                                          \n"
+      "1:                                        \n"
       "ld1        {v0.16b}, [%0], #16            \n"  // load 8 RGB565 pixels.
       "subs       %w2, %w2, #8                   \n"  // 8 processed per loop.
       RGB565TOARGB
       "st4        {v0.8b,v1.8b,v2.8b,v3.8b}, [%1], #32 \n"  // store 8 ARGB
-                                                            // pixels
       "b.gt       1b                             \n"
       : "+r"(src_rgb565),  // %0
 …
   asm volatile(
       "movi       v3.8b, #255                    \n"  // Alpha
       "1:                                          \n"
+      "1:                                        \n"
       "ld1        {v0.16b}, [%0], #16            \n"  // load 8 ARGB1555 pixels.
       "subs       %w2, %w2, #8                   \n"  // 8 processed per loop.
 …
                             int width) {
   asm volatile(
       "1:                                          \n"
+      "1:                                        \n"
       "ld1        {v0.16b}, [%0], #16            \n"  // load 8 ARGB4444 pixels.
       "subs       %w2, %w2, #8                   \n"  // 8 processed per loop.
 …
 void ARGBToRGB24Row_NEON(const uint8* src_argb, uint8* dst_rgb24, int width) {
   asm volatile(
       "1:                                          \n"
+      "1:                                        \n"
       "ld4        {v1.8b,v2.8b,v3.8b,v4.8b}, [%0], #32 \n"  // load 8 ARGB
-                                                            // pixels
       "subs       %w2, %w2, #8                   \n"  // 8 processed per loop.
       "st3        {v1.8b,v2.8b,v3.8b}, [%1], #24 \n"  // store 8 pixels of
 …
 void ARGBToRAWRow_NEON(const uint8* src_argb, uint8* dst_raw, int width) {
   asm volatile(
       "1:                                          \n"
+      "1:                                        \n"
       "ld4        {v1.8b,v2.8b,v3.8b,v4.8b}, [%0], #32 \n"  // load b g r a
       "subs       %w2, %w2, #8                   \n"  // 8 processed per loop.
 …
 void YUY2ToYRow_NEON(const uint8* src_yuy2, uint8* dst_y, int width) {
   asm volatile(
       "1:                                          \n"
+      "1:                                        \n"
       "ld2        {v0.16b,v1.16b}, [%0], #32     \n"  // load 16 pixels of YUY2.
       "subs       %w2, %w2, #16                  \n"  // 16 processed per loop.
 …
 void UYVYToYRow_NEON(const uint8* src_uyvy, uint8* dst_y, int width) {
   asm volatile(
       "1:                                          \n"
+      "1:                                        \n"
       "ld2        {v0.16b,v1.16b}, [%0], #32     \n"  // load 16 pixels of UYVY.
       "subs       %w2, %w2, #16                  \n"  // 16 processed per loop.
 …
                          int width) {
   asm volatile(
       "1:                                          \n"
+      "1:                                        \n"
       "ld4        {v0.8b,v1.8b,v2.8b,v3.8b}, [%0], #32 \n"  // load 16 YUY2
-                                                            // pixels
       "subs       %w3, %w3, #16                  \n"  // 16 pixels = 8 UVs.
       "st1        {v1.8b}, [%1], #8              \n"  // store 8 U.
 …
                          int width) {
   asm volatile(
       "1:                                          \n"
+      "1:                                        \n"
       "ld4        {v0.8b,v1.8b,v2.8b,v3.8b}, [%0], #32 \n"  // load 16 UYVY
-                                                            // pixels
       "subs       %w3, %w3, #16                  \n"  // 16 pixels = 8 UVs.
       "st1        {v0.8b}, [%1], #8              \n"  // store 8 U.
 …
   const uint8* src_yuy2b = src_yuy2 + stride_yuy2;
   asm volatile(
       "1:                                          \n"
+      "1:                                        \n"
       "ld4        {v0.8b,v1.8b,v2.8b,v3.8b}, [%0], #32 \n"  // load 16 pixels
       "subs       %w4, %w4, #16                  \n"  // 16 pixels = 8 UVs.
 …
   const uint8* src_uyvyb = src_uyvy + stride_uyvy;
   asm volatile(
       "1:                                          \n"
+      "1:                                        \n"
       "ld4        {v0.8b,v1.8b,v2.8b,v3.8b}, [%0], #32 \n"  // load 16 pixels
       "subs       %w4, %w4, #16                  \n"  // 16 pixels = 8 UVs.
 …
   asm volatile(
       "ld1        {v2.16b}, [%3]                 \n"  // shuffler
       "1:                                          \n"
+      "1:                                        \n"
       "ld1        {v0.16b}, [%0], #16            \n"  // load 4 pixels.
       "subs       %w2, %w2, #4                   \n"  // 4 processed per loop
 …
                         int width) {
   asm volatile(
       "1:                                          \n"
+      "1:                                        \n"
       "ld2        {v0.8b, v1.8b}, [%0], #16      \n"  // load 16 Ys
       "orr        v2.8b, v1.8b, v1.8b            \n"
 …
                         int width) {
   asm volatile(
       "1:                                          \n"
+      "1:                                        \n"
       "ld2        {v1.8b,v2.8b}, [%0], #16       \n"  // load 16 Ys
       "orr        v3.8b, v2.8b, v2.8b            \n"
 …
 void ARGBToRGB565Row_NEON(const uint8* src_argb, uint8* dst_rgb565, int width) {
   asm volatile(
       "1:                                          \n"
+      "1:                                        \n"
       "ld4        {v20.8b,v21.8b,v22.8b,v23.8b}, [%0], #32 \n"  // load 8 pixels
       "subs       %w2, %w2, #8                   \n"  // 8 processed per loop.
 …
   asm volatile(
       "dup        v1.4s, %w2                     \n"  // dither4
       "1:                                          \n"
+      "1:                                        \n"
       "ld4        {v20.8b,v21.8b,v22.8b,v23.8b}, [%1], #32 \n"  // load 8 pixels
       "subs       %w3, %w3, #8                   \n"  // 8 processed per loop.
 …
                             int width) {
   asm volatile(
       "1:                                          \n"
+      "1:                                        \n"
       "ld4        {v20.8b,v21.8b,v22.8b,v23.8b}, [%0], #32 \n"  // load 8 pixels
       "subs       %w2, %w2, #8                   \n"  // 8 processed per loop.
 …
       "movi       v4.16b, #0x0f                  \n"  // bits to clear with
                                                       // vbic.
       "1:                                          \n"
+      "1:                                        \n"
       "ld4        {v20.8b,v21.8b,v22.8b,v23.8b}, [%0], #32 \n"  // load 8 pixels
       "subs       %w2, %w2, #8                   \n"  // 8 processed per loop.
 …
       "movi       v6.8b, #33                     \n"  // R * 0.2578 coefficient
       "movi       v7.8b, #16                     \n"  // Add 16 constant
       "1:                                          \n"
+      "1:                                        \n"
       "ld4        {v0.8b,v1.8b,v2.8b,v3.8b}, [%0], #32 \n"  // load 8 ARGB
-                                                            // pixels.
       "subs       %w2, %w2, #8                   \n"  // 8 processed per loop.
       "umull      v3.8h, v0.8b, v4.8b            \n"  // B
 …
 void ARGBExtractAlphaRow_NEON(const uint8* src_argb, uint8* dst_a, int width) {
   asm volatile(
       "1:                                          \n"
+      "1:                                        \n"
       "ld4        {v0.16b,v1.16b,v2.16b,v3.16b}, [%0], #64 \n"  // load row 16
                                                                 // pixels
 …
       "movi       v5.8b, #75                     \n"  // G * 0.58700 coefficient
       "movi       v6.8b, #38                     \n"  // R * 0.29900 coefficient
       "1:                                          \n"
+      "1:                                        \n"
       "ld4        {v0.8b,v1.8b,v2.8b,v3.8b}, [%0], #32 \n"  // load 8 ARGB
-                                                            // pixels.
       "subs       %w2, %w2, #8                   \n"  // 8 processed per loop.
       "umull      v3.8h, v0.8b, v4.8b            \n"  // B
 …
       "movi       v28.8b, #94                    \n"  // VG -0.7344 coefficient
       "movi       v29.16b,#0x80                  \n"  // 128.5
       "1:                                          \n"
+      "1:                                        \n"
       "ld4        {v0.8b,v1.8b,v2.8b,v3.8b}, [%0], #32 \n"  // load 8 ARGB
                                                             // pixels.
 …
 // 16x2 pixels -> 8x1.  width is number of argb pixels. e.g. 16.
+// clang-format off
 #define RGBTOUV(QB, QG, QR)                                                 \
+  "mul        v3.8h, " #QB                                                  \
+  ",v20.8h          \n" /* B                    */                          \
+  "mul        v4.8h, " #QR                                                  \
+  ",v20.8h          \n" /* R                    */                          \
+  "mls        v3.8h, " #QG                                                  \
+  ",v21.8h          \n" /* G                    */                          \
+  "mls        v4.8h, " #QG                                                  \
+  ",v24.8h          \n" /* G                    */                          \
+  "mls        v3.8h, " #QR                                                  \
+  ",v22.8h          \n" /* R                    */                          \
+  "mls        v4.8h, " #QB                                                  \
+  ",v23.8h          \n"                          /* B                    */ \
+  "mul        v3.8h, " #QB ",v20.8h          \n" /* B                    */ \
+  "mul        v4.8h, " #QR ",v20.8h          \n" /* R                    */ \
+  "mls        v3.8h, " #QG ",v21.8h          \n" /* G                    */ \
+  "mls        v4.8h, " #QG ",v24.8h          \n" /* G                    */ \
+  "mls        v3.8h, " #QR ",v22.8h          \n" /* R                    */ \
+  "mls        v4.8h, " #QB ",v23.8h          \n" /* B                    */ \
   "add        v3.8h, v3.8h, v25.8h           \n" /* +128 -> unsigned     */ \
   "add        v4.8h, v4.8h, v25.8h           \n" /* +128 -> unsigned     */ \
   "uqshrn     v0.8b, v3.8h, #8               \n" /* 16 bit to 8 bit U    */ \
   "uqshrn     v1.8b, v4.8h, #8               \n" /* 16 bit to 8 bit V    */
+// clang-format on
 // TODO(fbarchard): Consider vhadd vertical, then vpaddl horizontal, avoid shr.
 …
       "movi       v25.8h, #9 , lsl #0            \n"  // VB coeff (-0.1406) / 2
       "movi       v26.8h, #47, lsl #0            \n"  // VG coeff (-0.7344) / 2
+      "movi       v27.16b, #0x80                 \n"  // 128.5 (0x8080 in
+                                                      // 16-bit)
+      "1:                                          \n"
+      "movi       v27.16b, #0x80                 \n"  // 128.5 0x8080 in 16bit
+      "1:                                        \n"
       "ld1        {v0.16b}, [%0], #16            \n"  // load 8 RGB565 pixels.
       RGB565TOARGB
 …
   asm volatile(
       RGBTOUV_SETUP_REG
       "1:                                          \n"
+      "1:                                        \n"
       "ld1        {v0.16b}, [%0], #16            \n"  // load 8 ARGB1555 pixels.
       RGB555TOARGB
 …
   asm volatile(
       RGBTOUV_SETUP_REG
       "1:                                          \n"
+      "1:                                        \n"
       "ld1        {v0.16b}, [%0], #16            \n"  // load 8 ARGB4444 pixels.
       ARGB4444TOARGB
 …
       "movi       v26.8b, #33                    \n"  // R * 0.2578 coefficient
       "movi       v27.8b, #16                    \n"  // Add 16 constant
       "1:                                          \n"
+      "1:                                        \n"
       "ld1        {v0.16b}, [%0], #16            \n"  // load 8 RGB565 pixels.
       "subs       %w2, %w2, #8                   \n"  // 8 processed per loop.
 …
       "movi       v6.8b, #33                     \n"  // R * 0.2578 coefficient
       "movi       v7.8b, #16                     \n"  // Add 16 constant
       "1:                                          \n"
+      "1:                                        \n"
       "ld1        {v0.16b}, [%0], #16            \n"  // load 8 ARGB1555 pixels.
       "subs       %w2, %w2, #8                   \n"  // 8 processed per loop.
 …
       "movi       v26.8b, #33                    \n"  // R * 0.2578 coefficient
       "movi       v27.8b, #16                    \n"  // Add 16 constant
       "1:                                          \n"
+      "1:                                        \n"
       "ld1        {v0.16b}, [%0], #16            \n"  // load 8 ARGB4444 pixels.
       "subs       %w2, %w2, #8                   \n"  // 8 processed per loop.
 …
       "movi       v6.8b, #13                     \n"  // B * 0.1016 coefficient
       "movi       v7.8b, #16                     \n"  // Add 16 constant
       "1:                                          \n"
+      "1:                                        \n"
       "ld4        {v0.8b,v1.8b,v2.8b,v3.8b}, [%0], #32 \n"  // load 8 pixels.
       "subs       %w2, %w2, #8                   \n"  // 8 processed per loop.
 …
       "movi       v6.8b, #13                     \n"  // B * 0.1016 coefficient
       "movi       v7.8b, #16                     \n"  // Add 16 constant
       "1:                                          \n"
+      "1:                                        \n"
       "ld4        {v0.8b,v1.8b,v2.8b,v3.8b}, [%0], #32 \n"  // load 8 pixels.
       "subs       %w2, %w2, #8                   \n"  // 8 processed per loop.
 …
       "movi       v6.8b, #33                     \n"  // R * 0.2578 coefficient
       "movi       v7.8b, #16                     \n"  // Add 16 constant
       "1:                                          \n"
+      "1:                                        \n"
       "ld4        {v0.8b,v1.8b,v2.8b,v3.8b}, [%0], #32 \n"  // load 8 pixels.
       "subs       %w2, %w2, #8                   \n"  // 8 processed per loop.
 …
       "movi       v6.8b, #33                     \n"  // R * 0.2578 coefficient
       "movi       v7.8b, #16                     \n"  // Add 16 constant
       "1:                                          \n"
+      "1:                                        \n"
       "ld3        {v0.8b,v1.8b,v2.8b}, [%0], #24 \n"  // load 8 pixels.
       "subs       %w2, %w2, #8                   \n"  // 8 processed per loop.
 …
       "movi       v6.8b, #13                     \n"  // B * 0.1016 coefficient
       "movi       v7.8b, #16                     \n"  // Add 16 constant
       "1:                                          \n"
+      "1:                                        \n"
       "ld3        {v0.8b,v1.8b,v2.8b}, [%0], #24 \n"  // load 8 pixels.
       "subs       %w2, %w2, #8                   \n"  // 8 processed per loop.
 …
       "dup        v4.16b, %w5                    \n"
       // General purpose row blend.
       "1:                                          \n"
+      "1:                                        \n"
       "ld1        {v0.16b}, [%1], #16            \n"
       "ld1        {v1.16b}, [%2], #16            \n"
 …
       // Blend 50 / 50.
       "50:                                         \n"
+      "50:                                       \n"
       "ld1        {v0.16b}, [%1], #16            \n"
       "ld1        {v1.16b}, [%2], #16            \n"
 …
       // Blend 100 / 0 - Copy row unchanged.
       "100:                                        \n"
+      "100:                                      \n"
       "ld1        {v0.16b}, [%1], #16            \n"
       "subs       %w3, %w3, #16                  \n"
 …
       "b.gt       100b                           \n"
       "99:                                         \n"
+      "99:                                       \n"
       : "+r"(dst_ptr),      // %0
         "+r"(src_ptr),      // %1
 …
       "b.lt       89f                            \n"
       // Blend 8 pixels.
       "8:                                          \n"
+      "8:                                        \n"
       "ld4        {v0.8b,v1.8b,v2.8b,v3.8b}, [%0], #32 \n"  // load 8 ARGB0
                                                             // pixels
 …
       "b.ge       8b                             \n"
       "89:                                         \n"
+      "89:                                       \n"
       "adds       %w3, %w3, #8-1                 \n"
       "b.lt       99f                            \n"
       // Blend 1 pixels.
       "1:                                          \n"
+      "1:                                        \n"
       "ld4        {v0.b,v1.b,v2.b,v3.b}[0], [%0], #4 \n"  // load 1 pixel ARGB0.
       "ld4        {v4.b,v5.b,v6.b,v7.b}[0], [%1], #4 \n"  // load 1 pixel ARGB1.
 …
       "b.ge       1b                             \n"
       "99:                                         \n"
+      "99:                                       \n"
       : "+r"(src_argb0),  // %0
 …
   asm volatile(
       // Attenuate 8 pixels.
       "1:                                          \n"
+      "1:                                        \n"
       "ld4        {v0.8b,v1.8b,v2.8b,v3.8b}, [%0], #32 \n"  // load 8 ARGB
-                                                            // pixels
       "subs       %w2, %w2, #8                   \n"  // 8 processed per loop.
       "umull      v4.8h, v0.8b, v3.8b            \n"  // b * a
 …
       // 8 pixel loop.
+      "1:                                          \n"
+      "ld4        {v0.8b,v1.8b,v2.8b,v3.8b}, [%0]  \n"  // load 8 pixels of
+                                                        // ARGB.
+      "1:                                        \n"
+      "ld4        {v0.8b,v1.8b,v2.8b,v3.8b}, [%0]  \n"  // load 8  ARGB.
       "subs       %w1, %w1, #8                   \n"    // 8 processed per loop.
       "uxtl       v0.8h, v0.8b                   \n"    // b (0 .. 255)
 …
       "uqxtn      v2.8b, v2.8h                   \n"
       "st4        {v0.8b,v1.8b,v2.8b,v3.8b}, [%0], #32 \n"  // store 8 ARGB
-                                                            // pixels
       "b.gt       1b                             \n"
       : "+r"(dst_argb),       // %0
 …
       // 8 pixel loop.
       "1:                                          \n"
+      "1:                                        \n"
       "ld4        {v4.8b,v5.8b,v6.8b,v7.8b}, [%0], #32 \n"  // load 8 ARGB
-                                                            // pixels.
       "subs       %w2, %w2, #8                   \n"  // 8 processed per loop.
       "uxtl       v4.8h, v4.8b                   \n"  // b (0 .. 255)
 …
       "uqxtn      v7.8b, v7.8h                   \n"
       "st4        {v4.8b,v5.8b,v6.8b,v7.8b}, [%1], #32 \n"  // store 8 ARGB
-                                                            // pixels
       "b.gt       1b                             \n"
       : "+r"(src_argb),  // %0
 …
       "movi       v25.8b, #75                    \n"  // G * 0.58700 coefficient
       "movi       v26.8b, #38                    \n"  // R * 0.29900 coefficient
       "1:                                          \n"
+      "1:                                        \n"
       "ld4        {v0.8b,v1.8b,v2.8b,v3.8b}, [%0], #32 \n"  // load 8 ARGB
-                                                            // pixels.
       "subs       %w2, %w2, #8                   \n"  // 8 processed per loop.
       "umull      v4.8h, v0.8b, v24.8b           \n"  // B
 …
       "movi       v29.8b, #98                    \n"  // BG coefficient
       "movi       v30.8b, #50                    \n"  // BR coefficient
       "1:                                          \n"
+      "1:                                        \n"
       "ld4        {v0.8b,v1.8b,v2.8b,v3.8b}, [%0] \n"  // load 8 ARGB pixels.
       "subs       %w1, %w1, #8                   \n"   // 8 processed per loop.
 …
       "sxtl2      v1.8h, v2.16b                  \n"  // R,A coefficients s16.
+      "1:                                          \n"
+      "ld4        {v16.8b,v17.8b,v18.8b,v19.8b}, [%0], #32 \n"  // load 8
+                                                                // pixels.
+      "1:                                        \n"
+      "ld4        {v16.8b,v17.8b,v18.8b,v19.8b}, [%0], #32 \n"  // load 8 ARGB
       "subs       %w2, %w2, #8                   \n"  // 8 processed per loop.
       "uxtl       v16.8h, v16.8b                 \n"  // b (0 .. 255) 16 bit
 …
       "sqshrun    v18.8b, v24.8h, #6             \n"  // 16 bit to 8 bit R
       "sqshrun    v19.8b, v25.8h, #6             \n"  // 16 bit to 8 bit A
+      "st4        {v16.8b,v17.8b,v18.8b,v19.8b}, [%1], #32 \n"  // store 8
+                                                                // pixels.
+      "st4        {v16.8b,v17.8b,v18.8b,v19.8b}, [%1], #32 \n"  // store 8 ARGB
       "b.gt       1b                             \n"
       : "+r"(src_argb),   // %0
 …
   asm volatile(
       // 8 pixel loop.
       "1:                                          \n"
+      "1:                                        \n"
       "ld4        {v0.8b,v1.8b,v2.8b,v3.8b}, [%0], #32 \n"  // load 8 ARGB
-                                                            // pixels.
       "ld4        {v4.8b,v5.8b,v6.8b,v7.8b}, [%1], #32 \n"  // load 8 more
-                                                            // pixels.
       "subs       %w3, %w3, #8                   \n"  // 8 processed per loop.
       "umull      v0.8h, v0.8b, v4.8b            \n"  // multiply B
 …
       "rshrn      v3.8b, v3.8h, #8               \n"  // 16 bit to 8 bit A
       "st4        {v0.8b,v1.8b,v2.8b,v3.8b}, [%2], #32 \n"  // store 8 ARGB
+                                                            // pixels
+      "b.gt       1b                             \n"
+      "b.gt       1b                             \n"
       : "+r"(src_argb0),  // %0
         "+r"(src_argb1),  // %1
 …
   asm volatile(
       // 8 pixel loop.
       "1:                                          \n"
+      "1:                                        \n"
       "ld4        {v0.8b,v1.8b,v2.8b,v3.8b}, [%0], #32 \n"  // load 8 ARGB
-                                                            // pixels.
       "ld4        {v4.8b,v5.8b,v6.8b,v7.8b}, [%1], #32 \n"  // load 8 more
-                                                            // pixels.
       "subs       %w3, %w3, #8                   \n"  // 8 processed per loop.
       "uqadd      v0.8b, v0.8b, v4.8b            \n"
 …
       "uqadd      v3.8b, v3.8b, v7.8b            \n"
       "st4        {v0.8b,v1.8b,v2.8b,v3.8b}, [%2], #32 \n"  // store 8 ARGB
+                                                            // pixels
+      "b.gt       1b                             \n"
+      "b.gt       1b                             \n"
       : "+r"(src_argb0),  // %0
         "+r"(src_argb1),  // %1
 …
   asm volatile(
       // 8 pixel loop.
       "1:                                          \n"
+      "1:                                        \n"
       "ld4        {v0.8b,v1.8b,v2.8b,v3.8b}, [%0], #32 \n"  // load 8 ARGB
-                                                            // pixels.
       "ld4        {v4.8b,v5.8b,v6.8b,v7.8b}, [%1], #32 \n"  // load 8 more
-                                                            // pixels.
       "subs       %w3, %w3, #8                   \n"  // 8 processed per loop.
       "uqsub      v0.8b, v0.8b, v4.8b            \n"
 …
       "uqsub      v3.8b, v3.8b, v7.8b            \n"
       "st4        {v0.8b,v1.8b,v2.8b,v3.8b}, [%2], #32 \n"  // store 8 ARGB
+                                                            // pixels
+      "b.gt       1b                             \n"
+      "b.gt       1b                             \n"
       : "+r"(src_argb0),  // %0
         "+r"(src_argb1),  // %1
 …
       "movi       v3.8b, #255                    \n"  // alpha
       // 8 pixel loop.
       "1:                                          \n"
+      "1:                                        \n"
       "ld1        {v0.8b}, [%0], #8              \n"  // load 8 sobelx.
       "ld1        {v1.8b}, [%1], #8              \n"  // load 8 sobely.
 …
       "orr        v2.8b, v0.8b, v0.8b            \n"
       "st4        {v0.8b,v1.8b,v2.8b,v3.8b}, [%2], #32 \n"  // store 8 ARGB
-                                                            // pixels
       "b.gt       1b                             \n"
       : "+r"(src_sobelx),  // %0
 …
   asm volatile(
       // 16 pixel loop.
       "1:                                          \n"
+      "1:                                        \n"
       "ld1        {v0.16b}, [%0], #16            \n"  // load 16 sobelx.
       "ld1        {v1.16b}, [%1], #16            \n"  // load 16 sobely.
 …
       "movi       v3.8b, #255                    \n"  // alpha
       // 8 pixel loop.
       "1:                                          \n"
+      "1:                                        \n"
       "ld1        {v2.8b}, [%0], #8              \n"  // load 8 sobelx.
       "ld1        {v0.8b}, [%1], #8              \n"  // load 8 sobely.
 …
       "uqadd      v1.8b, v0.8b, v2.8b            \n"  // add
       "st4        {v0.8b,v1.8b,v2.8b,v3.8b}, [%2], #32 \n"  // store 8 ARGB
-                                                            // pixels
       "b.gt       1b                             \n"
       : "+r"(src_sobelx),  // %0
 …
                     int width) {
   asm volatile(
       "1:                                          \n"
+      "1:                                        \n"
       "ld1        {v0.8b}, [%0],%5               \n"  // top
       "ld1        {v1.8b}, [%0],%6               \n"
 …
                     int width) {
   asm volatile(
       "1:                                          \n"
+      "1:                                        \n"
       "ld1        {v0.8b}, [%0],%4               \n"  // left
       "ld1        {v1.8b}, [%1],%4               \n"
 …
 void HalfFloat1Row_NEON(const uint16* src, uint16* dst, float, int width) {
   asm volatile(
       "1:                                          \n"
+      "1:                                        \n"
       "ld1        {v1.16b}, [%0], #16            \n"  // load 8 shorts
       "subs       %w2, %w2, #8                   \n"  // 8 pixels per loop
 …
 void HalfFloatRow_NEON(const uint16* src, uint16* dst, float scale, int width) {
   asm volatile(
       "1:                                          \n"
+      "1:                                        \n"
       "ld1        {v1.16b}, [%0], #16            \n"  // load 8 shorts
       "subs       %w2, %w2, #8                   \n"  // 8 pixels per loop
 …
+}
+float ScaleMaxSamples_NEON(const float* src,
+                           float* dst,
+                           float scale,
+                           int width) {
+  float fmax;
+  asm volatile(
+      "movi       v5.4s, #0                      \n"  // max
+      "movi       v6.4s, #0                      \n"
+      "1:                                        \n"
+      "ld1        {v1.4s, v2.4s}, [%0], #32      \n"  // load 8 samples
+      "subs       %w2, %w2, #8                   \n"  // 8 processed per loop
+      "fmul       v3.4s, v1.4s, %4.s[0]          \n"  // scale
+      "fmul       v4.4s, v2.4s, %4.s[0]          \n"  // scale
+      "fmax       v5.4s, v5.4s, v1.4s            \n"  // max
+      "fmax       v6.4s, v6.4s, v2.4s            \n"
+      "st1        {v3.4s, v4.4s}, [%1], #32      \n"  // store 8 samples
+      "b.gt       1b                             \n"
+      "fmax       v5.4s, v5.4s, v6.4s            \n"  // max
+      "fmaxv      %s3, v5.4s                     \n"  // signed max acculator
+      : "+r"(src),                                    // %0
+        "+r"(dst),                                    // %1
+        "+r"(width),                                  // %2
+        "=w"(fmax)                                    // %3
+      : "w"(scale)                                    // %4
+      : "cc", "memory", "v1", "v2", "v3", "v4", "v5", "v6");
+  return fmax;
+}
+float ScaleSumSamples_NEON(const float* src,
+                           float* dst,
+                           float scale,
+                           int width) {
+  float fsum;
+  asm volatile(
+      "movi       v5.4s, #0                      \n"  // max
+      "movi       v6.4s, #0                      \n"  // max
+      "1:                                        \n"
+      "ld1        {v1.4s, v2.4s}, [%0], #32      \n"  // load 8 samples
+      "subs       %w2, %w2, #8                   \n"  // 8 processed per loop
+      "fmul       v3.4s, v1.4s, %4.s[0]          \n"  // scale
+      "fmul       v4.4s, v2.4s, %4.s[0]          \n"
+      "fmla       v5.4s, v1.4s, v1.4s            \n"  // sum of squares
+      "fmla       v6.4s, v2.4s, v2.4s            \n"
+      "st1        {v3.4s, v4.4s}, [%1], #32      \n"  // store 8 samples
+      "b.gt       1b                             \n"
+      "faddp      v5.4s, v5.4s, v6.4s            \n"
+      "faddp      v5.4s, v5.4s, v5.4s            \n"
+      "faddp      %3.4s, v5.4s, v5.4s            \n"  // sum
+      : "+r"(src),                                    // %0
+        "+r"(dst),                                    // %1
+        "+r"(width),                                  // %2
+        "=w"(fsum)                                    // %3
+      : "w"(scale)                                    // %4
+      : "cc", "memory", "v1", "v2", "v3", "v4", "v5", "v6");
+  return fsum;
+}
+void ScaleSamples_NEON(const float* src, float* dst, float scale, int width) {
+  asm volatile(
+      "1:                                        \n"
+      "ld1        {v1.4s, v2.4s}, [%0], #32      \n"  // load 8 samples
+      "subs       %w2, %w2, #8                   \n"  // 8 processed per loop
+      "fmul       v1.4s, v1.4s, %3.s[0]          \n"  // scale
+      "fmul       v2.4s, v2.4s, %3.s[0]          \n"  // scale
+      "st1        {v1.4s, v2.4s}, [%1], #32      \n"  // store 8 samples
+      "b.gt       1b                             \n"
+      : "+r"(src),   // %0
+        "+r"(dst),   // %1
+        "+r"(width)  // %2
+      : "w"(scale)   // %3
+      : "cc", "memory", "v1", "v2");
+}
+// filter 5 rows with 1, 4, 6, 4, 1 coefficients to produce 1 row.
+void GaussCol_NEON(const uint16* src0,
+                   const uint16* src1,
+                   const uint16* src2,
+                   const uint16* src3,
+                   const uint16* src4,
+                   uint32* dst,
+                   int width) {
+  asm volatile(
+      "movi       v6.8h, #4                      \n"  // constant 4
+      "movi       v7.8h, #6                      \n"  // constant 6
+      "1:                                        \n"
+      "ld1        {v1.8h}, [%0], #16             \n"  // load 8 samples, 5 rows
+      "ld1        {v2.8h}, [%4], #16             \n"
+      "uaddl      v0.4s, v1.4h, v2.4h            \n"  // * 1
+      "uaddl2     v1.4s, v1.8h, v2.8h            \n"  // * 1
+      "ld1        {v2.8h}, [%1], #16             \n"
+      "umlal      v0.4s, v2.4h, v6.4h            \n"  // * 4
+      "umlal2     v1.4s, v2.8h, v6.8h            \n"  // * 4
+      "ld1        {v2.8h}, [%2], #16             \n"
+      "umlal      v0.4s, v2.4h, v7.4h            \n"  // * 6
+      "umlal2     v1.4s, v2.8h, v7.8h            \n"  // * 6
+      "ld1        {v2.8h}, [%3], #16             \n"
+      "umlal      v0.4s, v2.4h, v6.4h            \n"  // * 4
+      "umlal2     v1.4s, v2.8h, v6.8h            \n"  // * 4
+      "subs       %w6, %w6, #8                   \n"  // 8 processed per loop
+      "st1        {v0.4s,v1.4s}, [%5], #32       \n"  // store 8 samples
+      "b.gt       1b                             \n"
+      : "+r"(src0),  // %0
+        "+r"(src1),  // %1
+        "+r"(src2),  // %2
+        "+r"(src3),  // %3
+        "+r"(src4),  // %4
+        "+r"(dst),   // %5
+        "+r"(width)  // %6
+      :
+      : "cc", "memory", "v0", "v1", "v2", "v6", "v7");
+}
+// filter 5 rows with 1, 4, 6, 4, 1 coefficients to produce 1 row.
+void GaussRow_NEON(const uint32* src, uint16* dst, int width) {
+  const uint32* src1 = src + 1;
+  const uint32* src2 = src + 2;
+  const uint32* src3 = src + 3;
+  asm volatile(
+      "movi       v6.4s, #4                      \n"  // constant 4
+      "movi       v7.4s, #6                      \n"  // constant 6
+      "1:                                        \n"
+      "ld1        {v0.4s,v1.4s,v2.4s}, [%0], %6  \n"  // load 12 source samples
+      "add        v0.4s, v0.4s, v1.4s            \n"  // * 1
+      "add        v1.4s, v1.4s, v2.4s            \n"  // * 1
+      "ld1        {v2.4s,v3.4s}, [%2], #32       \n"
+      "mla        v0.4s, v2.4s, v7.4s            \n"  // * 6
+      "mla        v1.4s, v3.4s, v7.4s            \n"  // * 6
+      "ld1        {v2.4s,v3.4s}, [%1], #32       \n"
+      "ld1        {v4.4s,v5.4s}, [%3], #32       \n"
+      "add        v2.4s, v2.4s, v4.4s            \n"  // add rows for * 4
+      "add        v3.4s, v3.4s, v5.4s            \n"
+      "mla        v0.4s, v2.4s, v6.4s            \n"  // * 4
+      "mla        v1.4s, v3.4s, v6.4s            \n"  // * 4
+      "subs       %w5, %w5, #8                   \n"  // 8 processed per loop
+      "uqrshrn    v0.4h, v0.4s, #8               \n"  // round and pack
+      "uqrshrn2   v0.8h, v1.4s, #8               \n"
+      "st1        {v0.8h}, [%4], #16             \n"  // store 8 samples
+      "b.gt       1b                             \n"
+      : "+r"(src),   // %0
+        "+r"(src1),  // %1
+        "+r"(src2),  // %2
+        "+r"(src3),  // %3
+        "+r"(dst),   // %4
+        "+r"(width)  // %5
+      : "r"(32LL)    // %6
+      : "cc", "memory", "v0", "v1", "v2", "v3", "v4", "v5", "v6", "v7");
+}
 #endif  // !defined(LIBYUV_DISABLE_NEON) && defined(__aarch64__)

Note: See TracChangeset for help on using the changeset viewer.

Context Navigation

Changeset 5699 for pjproject/trunk/third_party/yuv/source/row_neon64.cc

Legend:

pjproject/trunk/third_party/yuv/source/row_neon64.cc

Download in other formats: