cpp_api/api/SparseBundleCPU_8cpp_source.html

 //  File:           SparseBundleCPU.cpp

 //  Author:         Changchang Wu

 //  Description :   implementation of the CPU-based multicore bundle adjustment

 //

 //  Copyright (c) 2011  Changchang Wu (ccwu@cs.washington.edu)

 //    and the University of Washington at Seattle

 //

 //  This library is free software; you can redistribute it and/or

 //  modify it under the terms of the GNU General Public

 //  License as published by the Free Software Foundation; either

 //  Version 3 of the License, or (at your option) any later version.

 //

 //  This library is distributed in the hope that it will be useful,

 //  but WITHOUT ANY WARRANTY; without even the implied warranty of

 //  MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU

 //  General Public License for more details.

 //


 #include <stdlib.h>

 #include <vector>

 #include <iostream>

 #include <utility>

 #include <algorithm>

 #include <fstream>

 #include <sstream>

 #include <iomanip>

 #include <cmath>


 using std::vector;

 using std::cout;

 using std::pair;

 using std::ofstream;

 using std::max;


 #include <math.h>

 #include <time.h>

 #include <float.h>

 #include "pba.h"

 #include "SparseBundleCPU.h"


 #if defined(WINAPI_FAMILY) && WINAPI_FAMILY == WINAPI_FAMILY_APP

 #include <thread>

 #endif


 //#define POINT_DATA_ALIGN4

 #if defined(__arm__) || defined(_M_ARM) || defined(__aarch64__)

 #undef CPUPBA_USE_SSE

 #undef CPUPBA_USE_AVX

 #undef POINT_DATA_ALIGN4

 #if defined(_M_ARM) && _M_ARM >= 7 && !defined(DISABLE_CPU_NEON)

 #include <arm_neon.h>

 #define CPUPBA_USE_NEON

 #elif defined(__ARM_NEON) && !defined(DISABLE_CPU_NEON)

 #include <arm_neon.h>

 #define CPUPBA_USE_NEON

 #endif

 #elif defined(__AVX__) && !defined(DISABLE_CPU_AVX)

 #include <immintrin.h>

 #define CPUPBA_USE_AVX

 #undef CPUPBA_USE_SSE

 #undef POINT_DATA_ALIGN4

 #elif (defined(__SSE2__) || defined(_M_X64) || (defined(_M_IX86) && _M_IX86_FP >= 2)) && !defined(DISABLE_CPU_SSE)

 #define CPUPBA_USE_SSE

 #include <xmmintrin.h>

 #include <emmintrin.h>

 #endif


 #ifdef POINT_DATA_ALIGN4

 #define POINT_ALIGN 4

 #else

 #define POINT_ALIGN 3

 #endif


 #define POINT_ALIGN2 (POINT_ALIGN * 2)


 #ifdef _WIN32

 #define NOMINMAX

 #include <windows.h>

 #define INLINESUFIX

 #define finite _finite

 #else

 #include <pthread.h>

 #include <sched.h>

 #include <unistd.h>

 #endif


 // maximum thread count

 #define THREAD_NUM_MAX 64

 // compute the number of threads for vector operatoins, pure heuristics...

 #define AUTO_MT_NUM(sz) \

   int((log((double)sz) / log(2.0) - 18.5) * __num_cpu_cores / 16.0)


 namespace pba {


 template <class Float>

 void avec<Float>::SaveToFile(const char* name) {

   ofstream out(name);

   for (Float* p = _data; p < _last; ++p) out << (*p) << '\n';

 }


 #ifdef CPUPBA_USE_SSE

 #define CPUPBA_USE_SIMD

 namespace MYSSE {

 template <class Float>

 class SSE {};

 template <>

 class SSE<float> {

  public:

   typedef __m128 sse_type;

   static inline sse_type zero() { return _mm_setzero_ps(); }

 };

 template <>

 class SSE<double> {

  public:

   typedef __m128d sse_type;

   static inline sse_type zero() { return _mm_setzero_pd(); }

 };


 template <class Float>

 inline size_t sse_step() {

   return 16 / sizeof(Float);

 };

 inline __m128 sse_load1(const float* p) { return _mm_load1_ps(p); }

 inline __m128 sse_load(const float* p) { return _mm_load_ps(p); }

 inline __m128 sse_add(__m128 s1, __m128 s2) { return _mm_add_ps(s1, s2); }

 inline __m128 sse_sub(__m128 s1, __m128 s2) { return _mm_sub_ps(s1, s2); }

 inline __m128 sse_mul(__m128 s1, __m128 s2) { return _mm_mul_ps(s1, s2); }

 inline __m128 sse_sqrt(__m128 s) { return _mm_sqrt_ps(s); }


 inline __m128d sse_load1(const double* p) { return _mm_load1_pd(p); }

 inline __m128d sse_load(const double* p) { return _mm_load_pd(p); }

 inline __m128d sse_add(__m128d s1, __m128d s2) { return _mm_add_pd(s1, s2); }

 inline __m128d sse_sub(__m128d s1, __m128d s2) { return _mm_sub_pd(s1, s2); }

 inline __m128d sse_mul(__m128d s1, __m128d s2) { return _mm_mul_pd(s1, s2); }

 inline __m128d sse_sqrt(__m128d s) { return _mm_sqrt_pd(s); }


 #ifdef _WIN32

 inline float sse_sum(__m128 s) {

   return (s.m128_f32[0] + s.m128_f32[2]) + (s.m128_f32[1] + s.m128_f32[3]);

 }

 inline double sse_sum(__m128d s) { return s.m128d_f64[0] + s.m128d_f64[1]; }

 #else

 inline float sse_sum(__m128 s) {

   float* f = (float*)(&s);

   return (f[0] + f[2]) + (f[1] + f[3]);

 }

 inline double sse_sum(__m128d s) {

   double* d = (double*)(&s);

   return d[0] + d[1];

 }

 #endif

 // inline float  sse_dot(__m128 s1, __m128 s2)  {__m128 temp = _mm_dp_ps(s1,

 // s2, 0xF1);   float* f = (float*) (&temp); return f[0];   }

 // inline double  sse_dot(__m128d s1, __m128d s2) {__m128d temp =

 // _mm_dp_pd(s1, s2, 0x31);   double* f = (double*) (&temp); return f[0] ; }

 inline void sse_store(float* p, __m128 s) { _mm_store_ps(p, s); }

 inline void sse_store(double* p, __m128d s) { _mm_store_pd(p, s); }


 inline void data_prefetch(const void* p) {

   _mm_prefetch((const char*)p, _MM_HINT_NTA);

 }

 };


 namespace ProgramCPU {

 using namespace MYSSE;

 #define SSE_ZERO SSE<Float>::zero()

 #define SSE_T typename SSE<Float>::sse_type

 inline void ScaleJ4(float* jcx, float* jcy, const float* sj) {

   __m128 ps = _mm_load_ps(sj);

   _mm_store_ps(jcx, _mm_mul_ps(_mm_load_ps(jcx), ps));

   _mm_store_ps(jcy, _mm_mul_ps(_mm_load_ps(jcy), ps));

 }

 inline void ScaleJ8(float* jcx, float* jcy, const float* sj) {

   ScaleJ4(jcx, jcy, sj);

   ScaleJ4(jcx + 4, jcy + 4, sj + 4);

 }

 inline void ScaleJ4(double* jcx, double* jcy, const double* sj) {

   __m128d ps1 = _mm_load_pd(sj), ps2 = _mm_load_pd(sj + 2);

   _mm_store_pd(jcx, _mm_mul_pd(_mm_load_pd(jcx), ps1));

   _mm_store_pd(jcy, _mm_mul_pd(_mm_load_pd(jcy), ps1));

   _mm_store_pd(jcx + 2, _mm_mul_pd(_mm_load_pd(jcx + 2), ps2));

   _mm_store_pd(jcy + 2, _mm_mul_pd(_mm_load_pd(jcy + 2), ps2));

 }

 inline void ScaleJ8(double* jcx, double* jcy, const double* sj) {

   ScaleJ4(jcx, jcy, sj);

   ScaleJ4(jcx + 4, jcy + 4, sj + 4);

 }

 inline float DotProduct8(const float* v1, const float* v2) {

   __m128 ds = _mm_add_ps(_mm_mul_ps(_mm_load_ps(v1), _mm_load_ps(v2)),

                          _mm_mul_ps(_mm_load_ps(v1 + 4), _mm_load_ps(v2 + 4)));

   return sse_sum(ds);

 }

 inline double DotProduct8(const double* v1, const double* v2) {

   __m128d d1 = _mm_mul_pd(_mm_load_pd(v1), _mm_load_pd(v2));

   __m128d d2 = _mm_mul_pd(_mm_load_pd(v1 + 2), _mm_load_pd(v2 + 2));

   __m128d d3 = _mm_mul_pd(_mm_load_pd(v1 + 4), _mm_load_pd(v2 + 4));

   __m128d d4 = _mm_mul_pd(_mm_load_pd(v1 + 6), _mm_load_pd(v2 + 6));

   __m128d ds = _mm_add_pd(_mm_add_pd(d1, d2), _mm_add_pd(d3, d4));

   return sse_sum(ds);

 }


 inline void ComputeTwoJX(const float* jc, const float* jp, const float* xc,

                          const float* xp, float* jx) {

 #ifdef POINT_DATA_ALIGN4

   __m128 xc1 = _mm_load_ps(xc), xc2 = _mm_load_ps(xc + 4),

          mxp = _mm_load_ps(xp);

   __m128 ds1 = _mm_add_ps(_mm_mul_ps(_mm_load_ps(jc), xc1),

                           _mm_mul_ps(_mm_load_ps(jc + 4), xc2));

   __m128 dx1 = _mm_add_ps(ds1, _mm_mul_ps(_mm_load_ps(jp), mxp));

   jx[0] = sse_sum(dx1);

   __m128 ds2 = _mm_add_ps(_mm_mul_ps(_mm_load_ps(jc + 8), xc1),

                           _mm_mul_ps(_mm_load_ps(jc + 12), xc2));

   __m128 dx2 = _mm_add_ps(ds2, _mm_mul_ps(_mm_load_ps(jp + 4), mxp));

   jx[1] = sse_sum(dx2);

 #else

   __m128 xc1 = _mm_load_ps(xc), xc2 = _mm_load_ps(xc + 4);

   __m128 jc1 = _mm_load_ps(jc), jc2 = _mm_load_ps(jc + 4);

   __m128 jc3 = _mm_load_ps(jc + 8), jc4 = _mm_load_ps(jc + 12);

   __m128 ds1 = _mm_add_ps(_mm_mul_ps(jc1, xc1), _mm_mul_ps(jc2, xc2));

   __m128 ds2 = _mm_add_ps(_mm_mul_ps(jc3, xc1), _mm_mul_ps(jc4, xc2));

   jx[0] = sse_sum(ds1) + (jp[0] * xp[0] + jp[1] * xp[1] + jp[2] * xp[2]);

   jx[1] =

       sse_sum(ds2) + (jp[POINT_ALIGN] * xp[0] + jp[POINT_ALIGN + 1] * xp[1] +

                       jp[POINT_ALIGN + 2] * xp[2]);

 /*jx[0] = (sse_dot(jc1, xc1) + sse_dot(jc2, xc2)) + (jp[0] * xp[0] + jp[1] *

 xp[1] + jp[2] * xp[2]);

 jx[1] = (sse_dot(jc3, xc1) + sse_dot(jc4, xc2)) + (jp[POINT_ALIGN] * xp[0] +

 jp[POINT_ALIGN+1] * xp[1] + jp[POINT_ALIGN+2] * xp[2]);*/

 #endif

 }


 inline void ComputeTwoJX(const double* jc, const double* jp, const double* xc,

                          const double* xp, double* jx) {

   __m128d xc1 = _mm_load_pd(xc), xc2 = _mm_load_pd(xc + 2),

           xc3 = _mm_load_pd(xc + 4), xc4 = _mm_load_pd(xc + 6);

   __m128d d1 = _mm_mul_pd(_mm_load_pd(jc), xc1);

   __m128d d2 = _mm_mul_pd(_mm_load_pd(jc + 2), xc2);

   __m128d d3 = _mm_mul_pd(_mm_load_pd(jc + 4), xc3);

   __m128d d4 = _mm_mul_pd(_mm_load_pd(jc + 6), xc4);

   __m128d ds1 = _mm_add_pd(_mm_add_pd(d1, d2), _mm_add_pd(d3, d4));

   jx[0] = sse_sum(ds1) + (jp[0] * xp[0] + jp[1] * xp[1] + jp[2] * xp[2]);


   __m128d d5 = _mm_mul_pd(_mm_load_pd(jc + 8), xc1);

   __m128d d6 = _mm_mul_pd(_mm_load_pd(jc + 10), xc2);

   __m128d d7 = _mm_mul_pd(_mm_load_pd(jc + 12), xc3);

   __m128d d8 = _mm_mul_pd(_mm_load_pd(jc + 14), xc4);

   __m128d ds2 = _mm_add_pd(_mm_add_pd(d5, d6), _mm_add_pd(d7, d8));

   jx[1] =

       sse_sum(ds2) + (jp[POINT_ALIGN] * xp[0] + jp[POINT_ALIGN + 1] * xp[1] +

                       jp[POINT_ALIGN + 2] * xp[2]);

 }


 // v += ax

 inline void AddScaledVec8(float a, const float* x, float* v) {

   __m128 aa = sse_load1(&a);

   _mm_store_ps(v, _mm_add_ps(_mm_mul_ps(_mm_load_ps(x), aa), _mm_load_ps(v)));

   _mm_store_ps(v + 4, _mm_add_ps(_mm_mul_ps(_mm_load_ps(x + 4), aa),

                                  _mm_load_ps(v + 4)));

 }

 // v += ax

 inline void AddScaledVec8(double a, const double* x, double* v) {

   __m128d aa = sse_load1(&a);

   _mm_store_pd(v, _mm_add_pd(_mm_mul_pd(_mm_load_pd(x), aa), _mm_load_pd(v)));

   _mm_store_pd(v + 2, _mm_add_pd(_mm_mul_pd(_mm_load_pd(x + 2), aa),

                                  _mm_load_pd(v + 2)));

   _mm_store_pd(v + 4, _mm_add_pd(_mm_mul_pd(_mm_load_pd(x + 4), aa),

                                  _mm_load_pd(v + 4)));

   _mm_store_pd(v + 6, _mm_add_pd(_mm_mul_pd(_mm_load_pd(x + 6), aa),

                                  _mm_load_pd(v + 6)));

 }


 inline void AddBlockJtJ(const float* jc, float* block, int vn) {

   __m128 j1 = _mm_load_ps(jc);

   __m128 j2 = _mm_load_ps(jc + 4);

   for (int i = 0; i < vn; ++i, ++jc, block += 8) {

     __m128 a = sse_load1(jc);

     _mm_store_ps(block + 0,

                  _mm_add_ps(_mm_mul_ps(a, j1), _mm_load_ps(block + 0)));

     _mm_store_ps(block + 4,

                  _mm_add_ps(_mm_mul_ps(a, j2), _mm_load_ps(block + 4)));

   }

 }


 inline void AddBlockJtJ(const double* jc, double* block, int vn) {

   __m128d j1 = _mm_load_pd(jc);

   __m128d j2 = _mm_load_pd(jc + 2);

   __m128d j3 = _mm_load_pd(jc + 4);

   __m128d j4 = _mm_load_pd(jc + 6);

   for (int i = 0; i < vn; ++i, ++jc, block += 8) {

     __m128d a = sse_load1(jc);

     _mm_store_pd(block + 0,

                  _mm_add_pd(_mm_mul_pd(a, j1), _mm_load_pd(block + 0)));

     _mm_store_pd(block + 2,

                  _mm_add_pd(_mm_mul_pd(a, j2), _mm_load_pd(block + 2)));

     _mm_store_pd(block + 4,

                  _mm_add_pd(_mm_mul_pd(a, j3), _mm_load_pd(block + 4)));

     _mm_store_pd(block + 6,

                  _mm_add_pd(_mm_mul_pd(a, j4), _mm_load_pd(block + 6)));

   }

 }

 };

 #endif


 #ifdef CPUPBA_USE_AVX

 #define CPUPBA_USE_SIMD

 namespace MYAVX {

 template <class Float>

 class SSE {};

 template <>

 class SSE<float> {

  public:

   typedef __m256 sse_type;  // static size_t   step() {return 4;}

   static inline sse_type zero() { return _mm256_setzero_ps(); }

 };

 template <>

 class SSE<double> {

  public:

   typedef __m256d sse_type;  // static size_t   step() {return 2;}

   static inline sse_type zero() { return _mm256_setzero_pd(); }

 };


 template <class Float>

 inline size_t sse_step() {

   return 32 / sizeof(Float);

 };

 inline __m256 sse_load1(const float* p) { return _mm256_broadcast_ss(p); }

 inline __m256 sse_load(const float* p) { return _mm256_load_ps(p); }

 inline __m256 sse_add(__m256 s1, __m256 s2) { return _mm256_add_ps(s1, s2); }

 inline __m256 sse_sub(__m256 s1, __m256 s2) { return _mm256_sub_ps(s1, s2); }

 inline __m256 sse_mul(__m256 s1, __m256 s2) { return _mm256_mul_ps(s1, s2); }

 inline __m256 sse_sqrt(__m256 s) { return _mm256_sqrt_ps(s); }


 // inline __m256 sse_fmad(__m256 a, __m256 b, __m256 c) {return

 // _mm256_fmadd_ps(a, b, c);}


 inline __m256d sse_load1(const double* p) { return _mm256_broadcast_sd(p); }

 inline __m256d sse_load(const double* p) { return _mm256_load_pd(p); }

 inline __m256d sse_add(__m256d s1, __m256d s2) { return _mm256_add_pd(s1, s2); }

 inline __m256d sse_sub(__m256d s1, __m256d s2) { return _mm256_sub_pd(s1, s2); }

 inline __m256d sse_mul(__m256d s1, __m256d s2) { return _mm256_mul_pd(s1, s2); }

 inline __m256d sse_sqrt(__m256d s) { return _mm256_sqrt_pd(s); }


 #ifdef _WIN32

 inline float sse_sum(__m256 s) {

   return ((s.m256_f32[0] + s.m256_f32[4]) + (s.m256_f32[2] + s.m256_f32[6])) +

          ((s.m256_f32[1] + s.m256_f32[5]) + (s.m256_f32[3] + s.m256_f32[7]));

 }

 inline double sse_sum(__m256d s) {

   return (s.m256d_f64[0] + s.m256d_f64[2]) + (s.m256d_f64[1] + s.m256d_f64[3]);

 }

 #else

 inline float sse_sum(__m256 s) {

   float* f = (float*)(&s);

   return ((f[0] + f[4]) + (f[2] + f[6])) + ((f[1] + f[5]) + (f[3] + f[7]));

 }

 inline double sse_sum(__m256d s) {

   double* d = (double*)(&s);

   return (d[0] + d[2]) + (d[1] + d[3]);

 }

 #endif

 inline float sse_dot(__m256 s1, __m256 s2) {

   __m256 temp = _mm256_dp_ps(s1, s2, 0xf1);

   float* f = (float*)(&temp);

   return f[0] + f[4];

 }

 inline double sse_dot(__m256d s1, __m256d s2) {

   return sse_sum(sse_mul(s1, s2));

 }


 inline void sse_store(float* p, __m256 s) { _mm256_store_ps(p, s); }

 inline void sse_store(double* p, __m256d s) { _mm256_store_pd(p, s); }


 inline void data_prefetch(const void* p) {

   _mm_prefetch((const char*)p, _MM_HINT_NTA);

 }

 };


 namespace ProgramCPU {

 using namespace MYAVX;

 #define SSE_ZERO SSE<Float>::zero()

 #define SSE_T typename SSE<Float>::sse_type


 inline void ScaleJ8(float* jcx, float* jcy, const float* sj) {

   __m256 ps = _mm256_load_ps(sj);

   _mm256_store_ps(jcx, _mm256_mul_ps(_mm256_load_ps(jcx), ps));

   _mm256_store_ps(jcy, _mm256_mul_ps(_mm256_load_ps(jcy), ps));

 }

 inline void ScaleJ4(double* jcx, double* jcy, const double* sj) {

   __m256d ps = _mm256_load_pd(sj);

   _mm256_store_pd(jcx, _mm256_mul_pd(_mm256_load_pd(jcx), ps));

   _mm256_store_pd(jcy, _mm256_mul_pd(_mm256_load_pd(jcy), ps));

 }

 inline void ScaleJ8(double* jcx, double* jcy, const double* sj) {

   ScaleJ4(jcx, jcy, sj);

   ScaleJ4(jcx + 4, jcy + 4, sj + 4);

 }

 inline float DotProduct8(const float* v1, const float* v2) {

   return sse_dot(_mm256_load_ps(v1), _mm256_load_ps(v2));

 }

 inline double DotProduct8(const double* v1, const double* v2) {

   __m256d ds = _mm256_add_pd(

       _mm256_mul_pd(_mm256_load_pd(v1), _mm256_load_pd(v2)),

       _mm256_mul_pd(_mm256_load_pd(v1 + 4), _mm256_load_pd(v2 + 4)));

   return sse_sum(ds);

 }


 inline void ComputeTwoJX(const float* jc, const float* jp, const float* xc,

                          const float* xp, float* jx) {

   __m256 xcm = _mm256_load_ps(xc), jc1 = _mm256_load_ps(jc),

          jc2 = _mm256_load_ps(jc + 8);

   jx[0] = sse_dot(jc1, xcm) + (jp[0] * xp[0] + jp[1] * xp[1] + jp[2] * xp[2]);

   jx[1] = sse_dot(jc2, xcm) +

           (jp[POINT_ALIGN] * xp[0] + jp[POINT_ALIGN + 1] * xp[1] +

            jp[POINT_ALIGN + 2] * xp[2]);

 }


 inline void ComputeTwoJX(const double* jc, const double* jp, const double* xc,

                          const double* xp, double* jx) {

   __m256d xc1 = _mm256_load_pd(xc), xc2 = _mm256_load_pd(xc + 4);

   __m256d jc1 = _mm256_load_pd(jc), jc2 = _mm256_load_pd(jc + 4);

   __m256d jc3 = _mm256_load_pd(jc + 8), jc4 = _mm256_load_pd(jc + 12);

   __m256d ds1 = _mm256_add_pd(_mm256_mul_pd(jc1, xc1), _mm256_mul_pd(jc2, xc2));

   __m256d ds2 = _mm256_add_pd(_mm256_mul_pd(jc3, xc1), _mm256_mul_pd(jc4, xc2));

   jx[0] = sse_sum(ds1) + (jp[0] * xp[0] + jp[1] * xp[1] + jp[2] * xp[2]);

   jx[1] =

       sse_sum(ds2) + (jp[POINT_ALIGN] * xp[0] + jp[POINT_ALIGN + 1] * xp[1] +

                       jp[POINT_ALIGN + 2] * xp[2]);

 }


 // v += ax

 inline void AddScaledVec8(float a, const float* x, float* v) {

   __m256 aa = sse_load1(&a);

   _mm256_store_ps(v, _mm256_add_ps(_mm256_mul_ps(_mm256_load_ps(x), aa),

                                    _mm256_load_ps(v)));

   //_mm256_store_ps(v, _mm256_fmadd_ps(_mm256_load_ps(x), aa,

   //_mm256_load_ps(v)));

 }

 // v += ax

 inline void AddScaledVec8(double a, const double* x, double* v) {

   __m256d aa = sse_load1(&a);

   _mm256_store_pd(v, _mm256_add_pd(_mm256_mul_pd(_mm256_load_pd(x), aa),

                                    _mm256_load_pd(v)));

   _mm256_store_pd(v + 4, _mm256_add_pd(_mm256_mul_pd(_mm256_load_pd(x + 4), aa),

                                        _mm256_load_pd(v + 4)));

 }


 inline void AddBlockJtJ(const float* jc, float* block, int vn) {

   __m256 j = _mm256_load_ps(jc);

   for (int i = 0; i < vn; ++i, ++jc, block += 8) {

     __m256 a = sse_load1(jc);

     _mm256_store_ps(block,

                     _mm256_add_ps(_mm256_mul_ps(a, j), _mm256_load_ps(block)));

   }

 }


 inline void AddBlockJtJ(const double* jc, double* block, int vn) {

   __m256d j1 = _mm256_load_pd(jc);

   __m256d j2 = _mm256_load_pd(jc + 4);

   for (int i = 0; i < vn; ++i, ++jc, block += 8) {

     __m256d a = sse_load1(jc);

     _mm256_store_pd(block + 0, _mm256_add_pd(_mm256_mul_pd(a, j1),

                                              _mm256_load_pd(block + 0)));

     _mm256_store_pd(block + 4, _mm256_add_pd(_mm256_mul_pd(a, j2),

                                              _mm256_load_pd(block + 4)));

   }

 }

 };


 #endif


 #ifdef CPUPBA_USE_NEON

 #define CPUPBA_USE_SIMD

 #define SIMD_NO_SQRT

 #define SIMD_NO_DOUBLE

 namespace MYNEON {

 template <class Float>

 class SSE {};

 template <>

 class SSE<float> {

  public:

   typedef float32x4_t sse_type;

 };


 template <class Float>

 inline size_t sse_step() {

   return 16 / sizeof(Float);

 };

 inline float32x4_t sse_load1(const float* p) { return vld1q_dup_f32(p); }

 inline float32x4_t sse_load(const float* p) { return vld1q_f32(p); }

 inline float32x4_t sse_loadzero() {

   float z = 0;

   return sse_load1(&z);

 }

 inline float32x4_t sse_add(float32x4_t s1, float32x4_t s2) {

   return vaddq_f32(s1, s2);

 }

 inline float32x4_t sse_sub(float32x4_t s1, float32x4_t s2) {

   return vsubq_f32(s1, s2);

 }

 inline float32x4_t sse_mul(float32x4_t s1, float32x4_t s2) {

   return vmulq_f32(s1, s2);

 }

 // inline float32x4_t sse_sqrt(float32x4_t s)                {return

 // _mm_sqrt_ps(s); }

 inline float sse_sum(float32x4_t s) {

   float* f = (float*)(&s);

   return (f[0] + f[2]) + (f[1] + f[3]);

 }

 inline void sse_store(float* p, float32x4_t s) { vst1q_f32(p, s); }

 inline void data_prefetch(const void* p) {}

 };

 namespace ProgramCPU {

 using namespace MYNEON;

 #define SSE_ZERO sse_loadzero()

 #define SSE_T typename SSE<Float>::sse_type

 inline void ScaleJ4(float* jcx, float* jcy, const float* sj) {

   float32x4_t ps = sse_load(sj);

   sse_store(jcx, sse_mul(sse_load(jcx), ps));

   sse_store(jcy, sse_mul(sse_load(jcy), ps));

 }

 inline void ScaleJ8(float* jcx, float* jcy, const float* sj) {

   ScaleJ4(jcx, jcy, sj);

   ScaleJ4(jcx + 4, jcy + 4, sj + 4);

 }


 inline float DotProduct8(const float* v1, const float* v2) {

   float32x4_t ds = sse_add(sse_mul(sse_load(v1), sse_load(v2)),

                            sse_mul(sse_load(v1 + 4), sse_load(v2 + 4)));

   return sse_sum(ds);

 }


 inline void ComputeTwoJX(const float* jc, const float* jp, const float* xc,

                          const float* xp, float* jx) {

 #ifdef POINT_DATA_ALIGN4

   float32x4_t xc1 = sse_load(xc), xc2 = sse_load(xc + 4), mxp = sse_load(xp);

   float32x4_t ds1 =

       sse_add(sse_mul(sse_load(jc), xc1), sse_mul(sse_load(jc + 4), xc2));

   float32x4_t dx1 = sse_add(ds1, sse_mul(sse_load(jp), mxp));

   jx[0] = sse_sum(dx1);

   float32x4_t ds2 =

       sse_add(sse_mul(sse_load(jc + 8), xc1), sse_mul(sse_load(jc + 12), xc2));

   float32x4_t dx2 = sse_add(ds2, sse_mul(sse_load(jp + 4), mxp));

   jx[1] = sse_sum(dx2);

 #else

   float32x4_t xc1 = sse_load(xc), xc2 = sse_load(xc + 4);

   float32x4_t jc1 = sse_load(jc), jc2 = sse_load(jc + 4);

   float32x4_t jc3 = sse_load(jc + 8), jc4 = sse_load(jc + 12);

   float32x4_t ds1 = sse_add(sse_mul(jc1, xc1), sse_mul(jc2, xc2));

   float32x4_t ds2 = sse_add(sse_mul(jc3, xc1), sse_mul(jc4, xc2));

   jx[0] = sse_sum(ds1) + (jp[0] * xp[0] + jp[1] * xp[1] + jp[2] * xp[2]);

   jx[1] =

       sse_sum(ds2) + (jp[POINT_ALIGN] * xp[0] + jp[POINT_ALIGN + 1] * xp[1] +

                       jp[POINT_ALIGN + 2] * xp[2]);

 /*jx[0] = (sse_dot(jc1, xc1) + sse_dot(jc2, xc2)) + (jp[0] * xp[0] + jp[1] *

 xp[1] + jp[2] * xp[2]);

 jx[1] = (sse_dot(jc3, xc1) + sse_dot(jc4, xc2)) + (jp[POINT_ALIGN] * xp[0] +

 jp[POINT_ALIGN+1] * xp[1] + jp[POINT_ALIGN+2] * xp[2]);*/

 #endif

 }


 // v += ax

 inline void AddScaledVec8(float a, const float* x, float* v) {

   float32x4_t aa = sse_load1(&a);

   sse_store(v, sse_add(sse_mul(sse_load(x), aa), sse_load(v)));

   sse_store(v + 4, sse_add(sse_mul(sse_load(x + 4), aa), sse_load(v + 4)));

 }


 inline void AddBlockJtJ(const float* jc, float* block, int vn) {

   float32x4_t j1 = sse_load(jc);

   float32x4_t j2 = sse_load(jc + 4);

   for (int i = 0; i < vn; ++i, ++jc, block += 8) {

     float32x4_t a = sse_load1(jc);

     sse_store(block + 0, sse_add(sse_mul(a, j1), sse_load(block + 0)));

     sse_store(block + 4, sse_add(sse_mul(a, j2), sse_load(block + 4)));

   }

 }

 };

 #endif


 namespace ProgramCPU {

 int __num_cpu_cores = 0;

 template <class Float>

 double ComputeVectorNorm(const avec<Float>& vec, int mt = 0);


 #if defined(CPUPBA_USE_SIMD)

 template <class Float>

 void ComputeSQRT(avec<Float>& vec) {

 #ifndef SIMD_NO_SQRT

   const size_t step = sse_step<Float>();

   Float *p = &vec[0], *pe = p + vec.size(), *pex = pe - step;

   for (; p <= pex; p += step) sse_store(p, sse_sqrt(sse_load(p)));

   for (; p < pe; ++p) p[0] = sqrt(p[0]);

 #else

   for (Float* it = vec.begin(); it < vec.end(); ++it) *it = sqrt(*it);

 #endif

 }


 template <class Float>

 void ComputeRSQRT(avec<Float>& vec) {

   Float *p = &vec[0], *pe = p + vec.size();

   for (; p < pe; ++p) p[0] = (p[0] == 0 ? 0 : Float(1.0) / p[0]);

   ComputeSQRT(vec);

 }


 template <class Float>

 void SetVectorZero(Float* p, Float* pe) {

   SSE_T sse = SSE_ZERO;

   const size_t step = sse_step<Float>();

   Float* pex = pe - step;

   for (; p <= pex; p += step) sse_store(p, sse);

   for (; p < pe; ++p) *p = 0;

 }


 template <class Float>

 void SetVectorZero(avec<Float>& vec) {

   Float *p = &vec[0], *pe = p + vec.size();

   SetVectorZero(p, pe);

 }


 // function not used

 template <class Float>

 inline void MemoryCopyA(const Float* p, const Float* pe, Float* d) {

   const size_t step = sse_step<Float>();

   const Float* pex = pe - step;

   for (; p <= pex; p += step, d += step) sse_store(d, sse_load(p));

   // while(p < pe) *d++ = *p++;

 }


 template <class Float>

 void ComputeVectorNorm(const Float* p, const Float* pe, double* psum) {

   SSE_T sse = SSE_ZERO;

   const size_t step = sse_step<Float>();

   const Float* pex = pe - step;

   for (; p <= pex; p += step) {

     SSE_T ps = sse_load(p);

     sse = sse_add(sse, sse_mul(ps, ps));

   }

   double sum = sse_sum(sse);

   for (; p < pe; ++p) sum += p[0] * p[0];

   *psum = sum;

 }


 template <class Float>

 double ComputeVectorNormW(const avec<Float>& vec, const avec<Float>& weight) {

   if (weight.begin() != NULL) {

     SSE_T sse = SSE_ZERO;

     const size_t step = sse_step<Float>();

     const Float *p = vec, *pe = p + vec.size(), *pex = pe - step;

     const Float* w = weight;

     for (; p <= pex; p += step, w += step) {

       SSE_T pw = sse_load(w), ps = sse_load(p);

       sse = sse_add(sse, sse_mul(sse_mul(ps, pw), ps));

     }

     double sum = sse_sum(sse);

     for (; p < pe; ++p, ++w) sum += p[0] * w[0] * p[0];

     return sum;

   } else {

     return ComputeVectorNorm<Float>(vec, 0);

   }

 }


 template <class Float>

 double ComputeVectorDot(const avec<Float>& vec1, const avec<Float>& vec2) {

   SSE_T sse = SSE_ZERO;

   const size_t step = sse_step<Float>();

   const Float *p1 = vec1, *pe = p1 + vec1.size(), *pex = pe - step;

   const Float* p2 = vec2;

   for (; p1 <= pex; p1 += step, p2 += step) {

     SSE_T ps1 = sse_load(p1), ps2 = sse_load(p2);

     sse = sse_add(sse, sse_mul(ps1, ps2));

   }

   double sum = sse_sum(sse);

   for (; p1 < pe; ++p1, ++p2) sum += p1[0] * p2[0];

   return sum;

 }


 template <class Float>

 void ComputeVXY(const avec<Float>& vec1, const avec<Float>& vec2,

                 avec<Float>& result, size_t part = 0, size_t skip = 0) {

   const size_t step = sse_step<Float>();

   const Float *p1 = vec1 + skip, *pe = p1 + (part ? part : vec1.size()),

               *pex = pe - step;

   const Float* p2 = vec2 + skip;

   Float* p3 = result + skip;

   for (; p1 <= pex; p1 += step, p2 += step, p3 += step) {

     SSE_T ps1 = sse_load(p1), ps2 = sse_load(p2);

     sse_store(p3, sse_mul(ps1, ps2));

   }

   for (; p1 < pe; ++p1, ++p2, ++p3) *p3 = p1[0] * p2[0];

 }


 template <class Float>

 void ComputeSAXPY(Float a, const Float* p1, const Float* p2, Float* p3,

                   Float* pe) {

   const size_t step = sse_step<Float>();

   SSE_T aa = sse_load1(&a);

   Float* pex = pe - step;

   if (a == 1.0f) {

     for (; p3 <= pex; p1 += step, p2 += step, p3 += step) {

       SSE_T ps1 = sse_load(p1), ps2 = sse_load(p2);

       sse_store(p3, sse_add(ps2, ps1));

     }

   } else if (a == -1.0f) {

     for (; p3 <= pex; p1 += step, p2 += step, p3 += step) {

       SSE_T ps1 = sse_load(p1), ps2 = sse_load(p2);

       sse_store(p3, sse_sub(ps2, ps1));

     }

   } else {

     for (; p3 <= pex; p1 += step, p2 += step, p3 += step) {

       SSE_T ps1 = sse_load(p1), ps2 = sse_load(p2);

       sse_store(p3, sse_add(ps2, sse_mul(ps1, aa)));

     }

   }

   for (; p3 < pe; ++p1, ++p2, ++p3) p3[0] = a * p1[0] + p2[0];

 }


 template <class Float>

 void ComputeSAX(Float a, const avec<Float>& vec1, avec<Float>& result) {

   const size_t step = sse_step<Float>();

   SSE_T aa = sse_load1(&a);

   const Float *p1 = vec1, *pe = p1 + vec1.size(), *pex = pe - step;

   Float* p3 = result;

   for (; p1 <= pex; p1 += step, p3 += step) {

     sse_store(p3, sse_mul(sse_load(p1), aa));

   }

   for (; p1 < pe; ++p1, ++p3) p3[0] = a * p1[0];

 }


 template <class Float>

 inline void ComputeSXYPZ(Float a, const Float* p1, const Float* p2,

                          const Float* p3, Float* p4, Float* pe) {

   const size_t step = sse_step<Float>();

   SSE_T aa = sse_load1(&a);

   Float* pex = pe - step;

   for (; p4 <= pex; p1 += step, p2 += step, p3 += step, p4 += step) {

     SSE_T ps1 = sse_load(p1), ps2 = sse_load(p2), ps3 = sse_load(p3);

     sse_store(p4, sse_add(ps3, sse_mul(sse_mul(ps1, aa), ps2)));

   }

   for (; p4 < pe; ++p1, ++p2, ++p3, ++p4) p4[0] = a * p1[0] * p2[0] + p3[0];

 }


 #else

 template <class Float>

 void ComputeSQRT(avec<Float>& vec) {

   Float* it = vec.begin();

   for (; it < vec.end(); ++it) {

     *it = sqrt(*it);

   }

 }

 template <class Float>

 void ComputeRSQRT(avec<Float>& vec) {

   Float* it = vec.begin();

   for (; it < vec.end(); ++it) {

     *it = (*it == 0 ? 0 : Float(1.0) / sqrt(*it));

   }

 }

 template <class Float>

 inline void SetVectorZero(Float* p, Float* pe) {

   std::fill(p, pe, 0);

 }

 template <class Float>

 inline void SetVectorZero(avec<Float>& vec) {

   std::fill(vec.begin(), vec.end(), 0);

 }


 template <class Float>

 inline void MemoryCopyA(const Float* p, const Float* pe, Float* d) {

   while (p < pe) *d++ = *p++;

 }


 template <class Float>

 double ComputeVectorNormW(const avec<Float>& vec, const avec<Float>& weight) {

   double sum = 0;

   const Float *it1 = vec.begin(), *it2 = weight.begin();

   for (; it1 < vec.end(); ++it1, ++it2) {

     sum += (*it1) * (*it2) * (*it1);

   }

   return sum;

 }


 template <class Float>

 double ComputeVectorDot(const avec<Float>& vec1, const avec<Float>& vec2) {

   double sum = 0;

   const Float *it1 = vec1.begin(), *it2 = vec2.begin();

   for (; it1 < vec1.end(); ++it1, ++it2) {

     sum += (*it1) * (*it2);

   }

   return sum;

 }

 template <class Float>

 void ComputeVectorNorm(const Float* p, const Float* pe, double* psum) {

   double sum = 0;

   for (; p < pe; ++p) sum += (*p) * (*p);

   *psum = sum;

 }

 template <class Float>

 inline void ComputeVXY(const avec<Float>& vec1, const avec<Float>& vec2,

                        avec<Float>& result, size_t part = 0, size_t skip = 0) {

   const Float *it1 = vec1.begin() + skip, *it2 = vec2.begin() + skip;

   const Float* ite = part ? (it1 + part) : vec1.end();

   Float* it3 = result.begin() + skip;

   for (; it1 < ite; ++it1, ++it2, ++it3) {

     (*it3) = (*it1) * (*it2);

   }

 }

 template <class Float>

 void ScaleJ8(Float* jcx, Float* jcy, const Float* sj) {

   for (int i = 0; i < 8; ++i) {

     jcx[i] *= sj[i];

     jcy[i] *= sj[i];

   }

 }


 template <class Float>

 inline void AddScaledVec8(Float a, const Float* x, Float* v) {

   for (int i = 0; i < 8; ++i) v[i] += (a * x[i]);

 }


 template <class Float>

 void ComputeSAX(Float a, const avec<Float>& vec1, avec<Float>& result) {

   const Float* it1 = vec1.begin();

   Float* it3 = result.begin();

   for (; it1 < vec1.end(); ++it1, ++it3) {

     (*it3) = (a * (*it1));

   }

 }


 template <class Float>

 inline void ComputeSXYPZ(Float a, const Float* p1, const Float* p2,

                          const Float* p3, Float* p4, Float* pe) {

   for (; p4 < pe; ++p1, ++p2, ++p3, ++p4) *p4 = (a * (*p1) * (*p2) + (*p3));

 }


 template <class Float>

 void ComputeSAXPY(Float a, const Float* it1, const Float* it2, Float* it3,

                   Float* ite) {

   if (a == (Float)1.0) {

     for (; it3 < ite; ++it1, ++it2, ++it3) {

       (*it3) = ((*it1) + (*it2));

     }

   } else {

     for (; it3 < ite; ++it1, ++it2, ++it3) {

       (*it3) = (a * (*it1) + (*it2));

     }

   }

 }

 template <class Float>

 void AddBlockJtJ(const Float* jc, Float* block, int vn) {

   for (int i = 0; i < vn; ++i) {

     Float *row = block + i * 8, a = jc[i];

     for (int j = 0; j < vn; ++j) row[j] += a * jc[j];

   }

 }

 #endif


 #ifdef _WIN32

 #define DEFINE_THREAD_DATA(X) \

   template <class Float>      \

   struct X##_STRUCT {

 #define DECLEAR_THREAD_DATA(X, ...)        \

   X##_STRUCT<Float> tdata = {__VA_ARGS__}; \

   X##_STRUCT<Float>* newdata = new X##_STRUCT<Float>(tdata)

 #define BEGIN_THREAD_PROC(X) \

   }                          \

   ;                          \

   template <class Float>     \

   DWORD X##_PROC(X##_STRUCT<Float>* q) {

 #define END_THREAD_RPOC(X) \

   delete q;                \

   return 0;                \

   }


 #if defined(WINAPI_FAMILY) && WINAPI_FAMILY == WINAPI_FAMILY_APP

 #define MYTHREAD std::thread

 #define RUN_THREAD(X, t, ...)          \

   DECLEAR_THREAD_DATA(X, __VA_ARGS__); \

   t = std::thread(X##_PROC<Float>, newdata)

 #define WAIT_THREAD(tv, n)                               \

   {                                                      \

     for (size_t i = 0; i < size_t(n); ++i) tv[i].join(); \

   }

 #else

 #define MYTHREAD HANDLE

 #define RUN_THREAD(X, t, ...)                                                 \

   DECLEAR_THREAD_DATA(X, __VA_ARGS__);                                        \

   t = CreateThread(NULL, 0, (LPTHREAD_START_ROUTINE)X##_PROC<Float>, newdata, \

                    0, 0)

 #define WAIT_THREAD(tv, n)                                     \

   {                                                            \

     WaitForMultipleObjects((DWORD)n, tv, TRUE, INFINITE);      \

     for (size_t i = 0; i < size_t(n); ++i) CloseHandle(tv[i]); \

   }

 #endif

 #else

 #define DEFINE_THREAD_DATA(X) \

   template <class Float>      \

   struct X##_STRUCT {         \

     int tid;

 #define DECLEAR_THREAD_DATA(X, ...)           \

   X##_STRUCT<Float> tdata = {i, __VA_ARGS__}; \

   X##_STRUCT<Float>* newdata = new X##_STRUCT<Float>(tdata)

 #define BEGIN_THREAD_PROC(X) \

   }                          \

   ;                          \

   template <class Float>     \

   void* X##_PROC(X##_STRUCT<Float>* q) {

 //                                 cpu_set_t mask;        CPU_ZERO( &mask );

 //                                 CPU_SET( q->tid, &mask );

 //                                 if( sched_setaffinity(0, sizeof(mask), &mask

 //                                 ) == -1 )

 //                                     std::cout <<"WARNING: Could not set CPU

 //                                     Affinity, continuing...\n";

 #define END_THREAD_RPOC(X)                                \

   delete q;                                               \

   return 0;                                               \

   }                                                       \

   template <class Float>                                  \

   struct X##_FUNCTOR {                                    \

     typedef void* (*func_type)(X##_STRUCT<Float>*);       \

     static func_type get() { return &(X##_PROC<Float>); } \

   };

 #define MYTHREAD pthread_t


 #define RUN_THREAD(X, t, ...)          \

   DECLEAR_THREAD_DATA(X, __VA_ARGS__); \

   pthread_create(&t, NULL, (void* (*)(void*))X##_FUNCTOR<Float>::get(), newdata)

 #define WAIT_THREAD(tv, n)                                            \

   {                                                                   \

     for (size_t i = 0; i < size_t(n); ++i) pthread_join(tv[i], NULL); \

   }

 #endif

 template <class Float>

 inline void MemoryCopyB(const Float* p, const Float* pe, Float* d) {

   while (p < pe) *d++ = *p++;

 }


 template <class Float>

 inline Float DotProduct8(const Float* v1, const Float* v2) {

   return v1[0] * v2[0] + v1[1] * v2[1] + v1[2] * v2[2] + v1[3] * v2[3] +

          v1[4] * v2[4] + v1[5] * v2[5] + v1[6] * v2[6] + v1[7] * v2[7];

 }

 template <class Float>

 inline void ComputeTwoJX(const Float* jc, const Float* jp, const Float* xc,

                          const Float* xp, Float* jx) {

   jx[0] = DotProduct8(jc, xc) + (jp[0] * xp[0] + jp[1] * xp[1] + jp[2] * xp[2]);

   jx[1] =

       DotProduct8(jc + 8, xc) + (jp[3] * xp[0] + jp[4] * xp[1] + jp[5] * xp[2]);

 }

 template <class Float>

 Float ComputeVectorMax(const avec<Float>& vec) {

   Float v = 0;

   const Float* it = vec.begin();

   for (; it < vec.end(); ++it) {

     Float vi = (Float)fabs(*it);

     v = std::max(v, vi);

   }

   return v;

 }


 template <class Float>

 void ComputeSXYPZ(Float a, const avec<Float>& vec1, const avec<Float>& vec2,

                   const avec<Float>& vec3, avec<Float>& result) {

   if (vec1.begin() != NULL) {

     const Float *p1 = &vec1[0], *p2 = &vec2[0], *p3 = &vec3[0];

     Float *p4 = &result[0], *pe = p4 + result.size();

     ComputeSXYPZ(a, p1, p2, p3, p4, pe);


   } else {

     // ComputeSAXPY<Float>(a, vec2, vec3, result, 0);

     ComputeSAXPY<Float>(a, vec2.begin(), vec3.begin(), result.begin(),

                         result.end());

   }

 }


 DEFINE_THREAD_DATA(ComputeSAXPY)

 Float a;

 const Float *p1, *p2;

 Float *p3, *pe;

 BEGIN_THREAD_PROC(ComputeSAXPY)

 ComputeSAXPY(q->a, q->p1, q->p2, q->p3, q->pe);

 END_THREAD_RPOC(ComputeSAXPY)


 template <class Float>

 void ComputeSAXPY(Float a, const avec<Float>& vec1, const avec<Float>& vec2,

                   avec<Float>& result, int mt = 0) {

   const bool auto_multi_thread = true;

   if (auto_multi_thread && mt == 0) {

     mt = AUTO_MT_NUM(result.size() * 2);

   }

   if (mt > 1 && result.size() >= mt * 4) {

     MYTHREAD threads[THREAD_NUM_MAX];

     const size_t thread_num = std::min(mt, THREAD_NUM_MAX);

     const Float *p1 = vec1.begin(), *p2 = vec2.begin();

     Float* p3 = result.begin();

     for (size_t i = 0; i < thread_num; ++i) {

       size_t first = (result.size() * i / thread_num + FLOAT_ALIGN - 1) /

                      FLOAT_ALIGN * FLOAT_ALIGN;

       size_t last_ = (result.size() * (i + 1) / thread_num + FLOAT_ALIGN - 1) /

                      FLOAT_ALIGN * FLOAT_ALIGN;

       size_t last = std::min(last_, result.size());

       RUN_THREAD(ComputeSAXPY, threads[i], a, p1 + first, p2 + first,

                  p3 + first, p3 + last);

     }

     WAIT_THREAD(threads, thread_num);

   } else {

     ComputeSAXPY(a, vec1.begin(), vec2.begin(), result.begin(), result.end());

   }

 }


 DEFINE_THREAD_DATA(ComputeVectorNorm)

 const Float *p, *pe;

 double* sum;

 BEGIN_THREAD_PROC(ComputeVectorNorm)

 ComputeVectorNorm(q->p, q->pe, q->sum);

 END_THREAD_RPOC(ComputeVectorNorm)


 template <class Float>

 double ComputeVectorNorm(const avec<Float>& vec, int mt) {

   const bool auto_multi_thread = true;

   if (auto_multi_thread && mt == 0) {

     mt = AUTO_MT_NUM(vec.size());

   }

   if (mt > 1 && vec.size() >= mt * 4) {

     MYTHREAD threads[THREAD_NUM_MAX];

     double sumv[THREAD_NUM_MAX];

     const size_t thread_num = std::min(mt, THREAD_NUM_MAX);

     const Float* p = vec;

     for (size_t i = 0; i < thread_num; ++i) {

       size_t first = (vec.size() * i / thread_num + FLOAT_ALIGN - 1) /

                      FLOAT_ALIGN * FLOAT_ALIGN;

       size_t last_ = (vec.size() * (i + 1) / thread_num + FLOAT_ALIGN - 1) /

                      FLOAT_ALIGN * FLOAT_ALIGN;

       size_t last = std::min(last_, vec.size());

       RUN_THREAD(ComputeVectorNorm, threads[i], p + first, p + last, sumv + i);

     }

     WAIT_THREAD(threads, thread_num);

     double sum = 0;

     for (size_t i = 0; i < thread_num; ++i) sum += sumv[i];

     return sum;

   } else {

     double sum;

     ComputeVectorNorm(vec.begin(), vec.end(), &sum);

     return sum;

   }

 }


 template <class Float>

 void GetRodriguesRotation(const Float m[3][3], Float r[3]) {

   // http://www.euclideanspace.com/maths/geometry/rotations/conversions/matrixToAngle/index.htm

   double a = (m[0][0] + m[1][1] + m[2][2] - 1.0) / 2.0;

   const double epsilon = 0.01;

   if (fabs(m[0][1] - m[1][0]) < epsilon && fabs(m[1][2] - m[2][1]) < epsilon &&

       fabs(m[0][2] - m[2][0]) < epsilon) {

     if (fabs(m[0][1] + m[1][0]) < 0.1 && fabs(m[1][2] + m[2][1]) < 0.1 &&

         fabs(m[0][2] + m[2][0]) < 0.1 && a > 0.9) {

       r[0] = 0;

       r[1] = 0;

       r[2] = 0;

     } else {

       const Float ha = Float(sqrt(0.5) * 3.14159265358979323846);

       double xx = (m[0][0] + 1.0) / 2.0;

       double yy = (m[1][1] + 1.0) / 2.0;

       double zz = (m[2][2] + 1.0) / 2.0;

       double xy = (m[0][1] + m[1][0]) / 4.0;

       double xz = (m[0][2] + m[2][0]) / 4.0;

       double yz = (m[1][2] + m[2][1]) / 4.0;


       if ((xx > yy) && (xx > zz)) {

         if (xx < epsilon) {

           r[0] = 0;

           r[1] = r[2] = ha;

         } else {

           double t = sqrt(xx);

           r[0] = Float(t * 3.14159265358979323846);

           r[1] = Float(xy / t * 3.14159265358979323846);

           r[2] = Float(xz / t * 3.14159265358979323846);

         }

       } else if (yy > zz) {

         if (yy < epsilon) {

           r[0] = r[2] = ha;

           r[1] = 0;

         } else {

           double t = sqrt(yy);

           r[0] = Float(xy / t * 3.14159265358979323846);

           r[1] = Float(t * 3.14159265358979323846);

           r[2] = Float(yz / t * 3.14159265358979323846);

         }

       } else {

         if (zz < epsilon) {

           r[0] = r[1] = ha;

           r[2] = 0;

         } else {

           double t = sqrt(zz);

           r[0] = Float(xz / t * 3.14159265358979323846);

           r[1] = Float(yz / t * 3.14159265358979323846);

           r[2] = Float(t * 3.14159265358979323846);

         }

       }

     }

   } else {

     a = acos(a);

     double b = 0.5 * a / sin(a);

     r[0] = Float(b * (m[2][1] - m[1][2]));

     r[1] = Float(b * (m[0][2] - m[2][0]));

     r[2] = Float(b * (m[1][0] - m[0][1]));

   }

 }

 template <class Float>

 void UncompressRodriguesRotation(const Float r[3], Float m[]) {

   double a = sqrt(r[0] * r[0] + r[1] * r[1] + r[2] * r[2]);

   double ct = a == 0.0 ? 0.5f : (1.0f - cos(a)) / a / a;

   double st = a == 0.0 ? 1 : sin(a) / a;

   m[0] = Float(1.0 - (r[1] * r[1] + r[2] * r[2]) * ct);

   m[1] = Float(r[0] * r[1] * ct - r[2] * st);

   m[2] = Float(r[2] * r[0] * ct + r[1] * st);

   m[3] = Float(r[0] * r[1] * ct + r[2] * st);

   m[4] = Float(1.0f - (r[2] * r[2] + r[0] * r[0]) * ct);

   m[5] = Float(r[1] * r[2] * ct - r[0] * st);

   m[6] = Float(r[2] * r[0] * ct - r[1] * st);

   m[7] = Float(r[1] * r[2] * ct + r[0] * st);

   m[8] = Float(1.0 - (r[0] * r[0] + r[1] * r[1]) * ct);

 }

 template <class Float>

 void UpdateCamera(int ncam, const avec<Float>& camera, const avec<Float>& delta,

                   avec<Float>& new_camera) {

   const Float *c = &camera[0], *d = &delta[0];

   Float *nc = &new_camera[0], m[9];

   // f[1], t[3], r[3][3], d[1]

   for (int i = 0; i < ncam; ++i, c += 16, d += 8, nc += 16) {

     nc[0] = max(c[0] + d[0], ((Float)1e-10));

     nc[1] = c[1] + d[1];

     nc[2] = c[2] + d[2];

     nc[3] = c[3] + d[3];

     nc[13] = c[13] + d[7];


     UncompressRodriguesRotation(d + 4, m);

     nc[4] = m[0] * c[4 + 0] + m[1] * c[4 + 3] + m[2] * c[4 + 6];

     nc[5] = m[0] * c[4 + 1] + m[1] * c[4 + 4] + m[2] * c[4 + 7];

     nc[6] = m[0] * c[4 + 2] + m[1] * c[4 + 5] + m[2] * c[4 + 8];

     nc[7] = m[3] * c[4 + 0] + m[4] * c[4 + 3] + m[5] * c[4 + 6];

     nc[8] = m[3] * c[4 + 1] + m[4] * c[4 + 4] + m[5] * c[4 + 7];

     nc[9] = m[3] * c[4 + 2] + m[4] * c[4 + 5] + m[5] * c[4 + 8];

     nc[10] = m[6] * c[4 + 0] + m[7] * c[4 + 3] + m[8] * c[4 + 6];

     nc[11] = m[6] * c[4 + 1] + m[7] * c[4 + 4] + m[8] * c[4 + 7];

     nc[12] = m[6] * c[4 + 2] + m[7] * c[4 + 5] + m[8] * c[4 + 8];


     // Float temp[3];

     // GetRodriguesRotation((Float (*)[3])  (nc + 4), temp);

     // UncompressRodriguesRotation(temp, nc + 4);

     nc[14] = c[14];

     nc[15] = c[15];

   }

 }


 template <class Float>

 void UpdateCameraPoint(int ncam, const avec<Float>& camera,

                        const avec<Float>& point, avec<Float>& delta,

                        avec<Float>& new_camera, avec<Float>& new_point,

                        int mode, int mt) {

   if (mode != 2) {

     UpdateCamera(ncam, camera, delta, new_camera);

   }

   if (mode != 1) {

     avec<Float> dp;

     dp.set(delta.begin() + 8 * ncam, point.size());

     ComputeSAXPY((Float)1.0, dp, point, new_point, mt);

   }

 }


 template <class Float>

 void ComputeProjection(size_t nproj, const Float* camera, const Float* point,

                        const Float* ms, const int* jmap, Float* pj, int radial,

                        int mt);


 DEFINE_THREAD_DATA(ComputeProjection)

 size_t nproj;

 const Float *camera, *point, *ms;

 const int* jmap;

 Float* pj;

 int radial_distortion;

 BEGIN_THREAD_PROC(ComputeProjection)

 ComputeProjection(q->nproj, q->camera, q->point, q->ms, q->jmap, q->pj,

                   q->radial_distortion, 0);

 END_THREAD_RPOC(ComputeProjection)


 template <class Float>

 void ComputeProjection(size_t nproj, const Float* camera, const Float* point,

                        const Float* ms, const int* jmap, Float* pj, int radial,

                        int mt) {

   if (mt > 1 && nproj >= mt) {

     MYTHREAD threads[THREAD_NUM_MAX];

     const size_t thread_num = std::min(mt, THREAD_NUM_MAX);

     for (size_t i = 0; i < thread_num; ++i) {

       size_t first = nproj * i / thread_num;

       size_t last_ = nproj * (i + 1) / thread_num;

       size_t last = std::min(last_, nproj);

       RUN_THREAD(ComputeProjection, threads[i], last - first, camera, point,

                  ms + 2 * first, jmap + 2 * first, pj + 2 * first, radial);

     }

     WAIT_THREAD(threads, thread_num);


   } else {

     for (size_t i = 0; i < nproj; ++i, jmap += 2, ms += 2, pj += 2) {

       const Float* c = camera + jmap[0] * 16;

       const Float* m = point + jmap[1] * POINT_ALIGN;

       Float p0 = c[4] * m[0] + c[5] * m[1] + c[6] * m[2] + c[1];

       Float p1 = c[7] * m[0] + c[8] * m[1] + c[9] * m[2] + c[2];

       Float p2 = c[10] * m[0] + c[11] * m[1] + c[12] * m[2] + c[3];


       if (radial == 1) {

         Float rr = Float(1.0) + c[13] * (p0 * p0 + p1 * p1) / (p2 * p2);

         Float f_p2 = c[0] * rr / p2;

         pj[0] = ms[0] - p0 * f_p2;

         pj[1] = ms[1] - p1 * f_p2;

       } else if (radial == -1) {

         Float f_p2 = c[0] / p2;

         Float rd = Float(1.0) + c[13] * (ms[0] * ms[0] + ms[1] * ms[1]);

         pj[0] = ms[0] * rd - p0 * f_p2;

         pj[1] = ms[1] * rd - p1 * f_p2;

       } else {

         pj[0] = ms[0] - p0 * c[0] / p2;

         pj[1] = ms[1] - p1 * c[0] / p2;

       }

     }

   }

 }


 template <class Float>

 void ComputeProjectionX(size_t nproj, const Float* camera, const Float* point,

                         const Float* ms, const int* jmap, Float* pj, int radial,

                         int mt);


 DEFINE_THREAD_DATA(ComputeProjectionX)

 size_t nproj;

 const Float *camera, *point, *ms;

 const int* jmap;

 Float* pj;

 int radial_distortion;

 BEGIN_THREAD_PROC(ComputeProjectionX)

 ComputeProjectionX(q->nproj, q->camera, q->point, q->ms, q->jmap, q->pj,

                    q->radial_distortion, 0);

 END_THREAD_RPOC(ComputeProjectionX)


 template <class Float>

 void ComputeProjectionX(size_t nproj, const Float* camera, const Float* point,

                         const Float* ms, const int* jmap, Float* pj, int radial,

                         int mt) {

   if (mt > 1 && nproj >= mt) {

     MYTHREAD threads[THREAD_NUM_MAX];

     const size_t thread_num = std::min(mt, THREAD_NUM_MAX);

     for (size_t i = 0; i < thread_num; ++i) {

       size_t first = nproj * i / thread_num;

       size_t last_ = nproj * (i + 1) / thread_num;

       size_t last = std::min(last_, nproj);

       RUN_THREAD(ComputeProjectionX, threads[i], last - first, camera, point,

                  ms + 2 * first, jmap + 2 * first, pj + 2 * first, radial);

     }

     WAIT_THREAD(threads, thread_num);

   } else {

     for (size_t i = 0; i < nproj; ++i, jmap += 2, ms += 2, pj += 2) {

       const Float* c = camera + jmap[0] * 16;

       const Float* m = point + jmap[1] * POINT_ALIGN;

       Float p0 = c[4] * m[0] + c[5] * m[1] + c[6] * m[2] + c[1];

       Float p1 = c[7] * m[0] + c[8] * m[1] + c[9] * m[2] + c[2];

       Float p2 = c[10] * m[0] + c[11] * m[1] + c[12] * m[2] + c[3];

       if (radial == 1) {

         Float rr = Float(1.0) + c[13] * (p0 * p0 + p1 * p1) / (p2 * p2);

         Float f_p2 = c[0] / p2;

         pj[0] = ms[0] / rr - p0 * f_p2;

         pj[1] = ms[1] / rr - p1 * f_p2;

       } else if (radial == -1) {

         Float rd = Float(1.0) + c[13] * (ms[0] * ms[0] + ms[1] * ms[1]);

         Float f_p2 = c[0] / p2 / rd;

         pj[0] = ms[0] - p0 * f_p2;

         pj[1] = ms[1] - p1 * f_p2;

       } else {

         pj[0] = ms[0] - p0 * c[0] / p2;

         pj[1] = ms[1] - p1 * c[0] / p2;

       }

     }

   }

 }


 template <class Float>

 void ComputeProjectionQ(size_t nq, const Float* camera, const int* qmap,

                         const Float* wq, Float* pj) {

   for (size_t i = 0; i < nq; ++i, qmap += 2, pj += 2, wq += 2) {

     const Float* c1 = camera + qmap[0] * 16;

     const Float* c2 = camera + qmap[1] * 16;

     pj[0] = -(c1[0] - c2[0]) * wq[0];

     pj[1] = -(c1[13] - c2[13]) * wq[1];

   }

 }


 template <class Float>

 void ComputeJQX(size_t nq, const Float* x, const int* qmap, const Float* wq,

                 const Float* sj, Float* jx) {

   if (sj) {

     for (size_t i = 0; i < nq; ++i, qmap += 2, jx += 2, wq += 2) {

       int idx1 = qmap[0] * 8, idx2 = qmap[1] * 8;

       const Float* x1 = x + idx1;

       const Float* x2 = x + idx2;

       const Float* sj1 = sj + idx1;

       const Float* sj2 = sj + idx2;

       jx[0] = (x1[0] * sj1[0] - x2[0] * sj2[0]) * wq[0];

       jx[1] = (x1[7] * sj1[7] - x2[7] * sj2[7]) * wq[1];

     }

   } else {

     for (size_t i = 0; i < nq; ++i, qmap += 2, jx += 2, wq += 2) {

       const Float* x1 = x + qmap[0] * 8;

       const Float* x2 = x + qmap[1] * 8;

       jx[0] = (x1[0] - x2[0]) * wq[0];

       jx[1] = (x1[7] - x2[7]) * wq[1];

     }

   }

 }


 template <class Float>

 void ComputeJQtEC(size_t ncam, const Float* pe, const int* qlist,

                   const Float* wq, const Float* sj, Float* v) {

   if (sj) {

     for (size_t i = 0; i < ncam; ++i, qlist += 2, wq += 2, v += 8, sj += 8) {

       int ip = qlist[0];

       if (ip == -1) continue;

       int in = qlist[1];

       const Float* e1 = pe + ip * 2;

       const Float* e2 = pe + in * 2;

       v[0] += wq[0] * sj[0] * (e1[0] - e2[0]);

       v[7] += wq[1] * sj[7] * (e1[1] - e2[1]);

     }

   } else {

     for (size_t i = 0; i < ncam; ++i, qlist += 2, wq += 2, v += 8) {

       int ip = qlist[0];

       if (ip == -1) continue;

       int in = qlist[1];

       const Float* e1 = pe + ip * 2;

       const Float* e2 = pe + in * 2;

       v[0] += wq[0] * (e1[0] - e2[0]);

       v[7] += wq[1] * (e1[1] - e2[1]);

     }

   }

 }


 template <class Float>

 inline void JacobianOne(const Float* c, const Float* pt, const Float* ms,

                         Float* jxc, Float* jyc, Float* jxp, Float* jyp,

                         bool intrinsic_fixed, int radial_distortion) {

   const Float* r = c + 4;

   Float x0 = c[4] * pt[0] + c[5] * pt[1] + c[6] * pt[2];

   Float y0 = c[7] * pt[0] + c[8] * pt[1] + c[9] * pt[2];

   Float z0 = c[10] * pt[0] + c[11] * pt[1] + c[12] * pt[2];

   Float p2 = (z0 + c[3]);

   Float f_p2 = c[0] / p2;

   Float p0_p2 = (x0 + c[1]) / p2;

   Float p1_p2 = (y0 + c[2]) / p2;


   if (radial_distortion == 1) {

     Float rr1 = c[13] * p0_p2 * p0_p2;

     Float rr2 = c[13] * p1_p2 * p1_p2;

     Float f_p2_x = Float(f_p2 * (1.0 + 3.0 * rr1 + rr2));

     Float f_p2_y = Float(f_p2 * (1.0 + 3.0 * rr2 + rr1));

     if (jxc) {

 #ifndef PBA_DISABLE_CONST_CAMERA

       if (c[15] != 0.0f) {

         jxc[0] = 0;

         jxc[1] = 0;

         jxc[2] = 0;

         jxc[3] = 0;

         jxc[4] = 0;

         jxc[5] = 0;

         jxc[6] = 0;

         jxc[7] = 0;

         jyc[0] = 0;

         jyc[1] = 0;

         jyc[2] = 0;

         jyc[3] = 0;

         jyc[4] = 0;

         jyc[5] = 0;

         jyc[6] = 0;

         jyc[7] = 0;

       } else

 #endif

       {

         Float jfc = intrinsic_fixed ? 0 : Float(1.0 + rr1 + rr2);

         Float ft_x_pn =

             intrinsic_fixed ? 0 : c[0] * (p0_p2 * p0_p2 + p1_p2 * p1_p2);

         jxc[0] = p0_p2 * jfc;

         jxc[1] = f_p2_x;

         jxc[2] = 0;

         jxc[3] = -f_p2_x * p0_p2;

         jxc[4] = -f_p2_x * p0_p2 * y0;

         jxc[5] = f_p2_x * (z0 + x0 * p0_p2);

         jxc[6] = -f_p2_x * y0;

         jxc[7] = ft_x_pn * p0_p2;


         jyc[0] = p1_p2 * jfc;

         jyc[1] = 0;

         jyc[2] = f_p2_y;

         jyc[3] = -f_p2_y * p1_p2;

         jyc[4] = -f_p2_y * (z0 + y0 * p1_p2);

         jyc[5] = f_p2_y * x0 * p1_p2;

         jyc[6] = f_p2_y * x0;

         jyc[7] = ft_x_pn * p1_p2;

       }

     }


     if (jxp) {

       jxp[0] = f_p2_x * (r[0] - r[6] * p0_p2);

       jxp[1] = f_p2_x * (r[1] - r[7] * p0_p2);

       jxp[2] = f_p2_x * (r[2] - r[8] * p0_p2);

       jyp[0] = f_p2_y * (r[3] - r[6] * p1_p2);

       jyp[1] = f_p2_y * (r[4] - r[7] * p1_p2);

       jyp[2] = f_p2_y * (r[5] - r[8] * p1_p2);

 #ifdef POINT_DATA_ALIGN4

       jxp[3] = jyp[3] = 0;

 #endif

     }

   } else {

     if (jxc) {

 #ifndef PBA_DISABLE_CONST_CAMERA

       if (c[15] != 0.0f) {

         jxc[0] = 0;

         jxc[1] = 0;

         jxc[2] = 0;

         jxc[3] = 0;

         jxc[4] = 0;

         jxc[5] = 0;

         jxc[6] = 0;

         jxc[7] = 0;

         jyc[0] = 0;

         jyc[1] = 0;

         jyc[2] = 0;

         jyc[3] = 0;

         jyc[4] = 0;

         jyc[5] = 0;

         jyc[6] = 0;

         jyc[7] = 0;

       } else

 #endif

       {

         jxc[0] = intrinsic_fixed ? 0 : p0_p2;

         jxc[1] = f_p2;

         jxc[2] = 0;

         jxc[3] = -f_p2 * p0_p2;

         jxc[4] = -f_p2 * p0_p2 * y0;

         jxc[5] = f_p2 * (z0 + x0 * p0_p2);

         jxc[6] = -f_p2 * y0;


         jyc[0] = intrinsic_fixed ? 0 : p1_p2;

         jyc[1] = 0;

         jyc[2] = f_p2;

         jyc[3] = -f_p2 * p1_p2;

         jyc[4] = -f_p2 * (z0 + y0 * p1_p2);

         jyc[5] = f_p2 * x0 * p1_p2;

         jyc[6] = f_p2 * x0;


         if (radial_distortion == -1 && !intrinsic_fixed) {

           Float msn = ms[0] * ms[0] + ms[1] * ms[1];

           jxc[7] = -ms[0] * msn;

           jyc[7] = -ms[1] * msn;

         } else {

           jxc[7] = 0;

           jyc[7] = 0;

         }

       }

     }

     if (jxp) {

       jxp[0] = f_p2 * (r[0] - r[6] * p0_p2);

       jxp[1] = f_p2 * (r[1] - r[7] * p0_p2);

       jxp[2] = f_p2 * (r[2] - r[8] * p0_p2);

       jyp[0] = f_p2 * (r[3] - r[6] * p1_p2);

       jyp[1] = f_p2 * (r[4] - r[7] * p1_p2);

       jyp[2] = f_p2 * (r[5] - r[8] * p1_p2);

 #ifdef POINT_DATA_ALIGN4

       jxp[3] = jyp[3] = 0;

 #endif

     }

   }

 }


 template <class Float>

 void ComputeJacobian(size_t nproj, size_t ncam, const Float* camera,

                      const Float* point, Float* jc, Float* jp, const int* jmap,

                      const Float* sj, const Float* ms, const int* cmlist,

                      bool intrinsic_fixed, int radial_distortion, bool shuffle,

                      Float* jct, int mt = 2, int i0 = 0);


 DEFINE_THREAD_DATA(ComputeJacobian)

 size_t nproj, ncam;

 const Float *camera, *point;

 Float *jc, *jp;

 const int* jmap;

 const Float *sj, *ms;

 const int* cmlist;

 bool intrinsic_fixed;

 int radial_distortion;

 bool shuffle;

 Float* jct;

 int i0;

 BEGIN_THREAD_PROC(ComputeJacobian)

 ComputeJacobian(q->nproj, q->ncam, q->camera, q->point, q->jc, q->jp, q->jmap,

                 q->sj, q->ms, q->cmlist, q->intrinsic_fixed,

                 q->radial_distortion, q->shuffle, q->jct, 0, q->i0);

 END_THREAD_RPOC(ComputeJacobian)


 template <class Float>

 void ComputeJacobian(size_t nproj, size_t ncam, const Float* camera,

                      const Float* point, Float* jc, Float* jp, const int* jmap,

                      const Float* sj, const Float* ms, const int* cmlist,

                      bool intrinsic_fixed, int radial_distortion, bool shuffle,

                      Float* jct, int mt, int i0) {

   if (mt > 1 && nproj >= mt) {

     MYTHREAD threads[THREAD_NUM_MAX];

     const size_t thread_num = std::min(mt, THREAD_NUM_MAX);

     for (size_t i = 0; i < thread_num; ++i) {

       size_t first = nproj * i / thread_num;

       size_t last_ = nproj * (i + 1) / thread_num;

       size_t last = std::min(last_, nproj);

       RUN_THREAD(ComputeJacobian, threads[i], last, ncam, camera, point, jc, jp,

                  jmap + 2 * first, sj, ms + 2 * first, cmlist + first,

                  intrinsic_fixed, radial_distortion, shuffle, jct, first);

     }

     WAIT_THREAD(threads, thread_num);

   } else {

     const Float* sjc0 = sj;

     const Float* sjp0 = sj ? sj + ncam * 8 : NULL;


     for (size_t i = i0; i < nproj; ++i, jmap += 2, ms += 2, ++cmlist) {

       int cidx = jmap[0], pidx = jmap[1];

       const Float *c = camera + cidx * 16, *pt = point + pidx * POINT_ALIGN;

       Float* jci = jc ? (jc + (shuffle ? cmlist[0] : i) * 16) : NULL;

       Float* jpi = jp ? (jp + i * POINT_ALIGN2) : NULL;


       JacobianOne(c, pt, ms, jci, jci + 8, jpi, jpi + POINT_ALIGN,

                   intrinsic_fixed, radial_distortion);


       if (sjc0) {

         // jacobian scaling

         if (jci) {

           ScaleJ8(jci, jci + 8, sjc0 + cidx * 8);

         }

         if (jpi) {

           const Float* sjp = sjp0 + pidx * POINT_ALIGN;

           for (int j = 0; j < 3; ++j) {

             jpi[j] *= sjp[j];

             jpi[POINT_ALIGN + j] *= sjp[j];

           }

         }

       }


       if (jct && jc) MemoryCopyB(jci, jci + 16, jct + cmlist[0] * 16);

     }

   }

 }


 template <class Float>

 void ComputeDiagonalAddQ(size_t ncam, const Float* qw, Float* d,

                          const Float* sj = NULL) {

   if (sj) {

     for (size_t i = 0; i < ncam; ++i, qw += 2, d += 8, sj += 8) {

       if (qw[0] == 0) continue;

       Float j1 = qw[0] * sj[0];

       Float j2 = qw[1] * sj[7];

       d[0] += (j1 * j1 * 2.0f);

       d[7] += (j2 * j2 * 2.0f);

     }

   } else {

     for (size_t i = 0; i < ncam; ++i, qw += 2, d += 8) {

       if (qw[0] == 0) continue;

       d[0] += (qw[0] * qw[0] * 2.0f);

       d[7] += (qw[1] * qw[1] * 2.0f);

     }

   }

 }


 template <class Float>

 void ComputeDiagonal(const avec<Float>& jcv, const vector<int>& cmapv,

                      const avec<Float>& jpv, const vector<int>& pmapv,

                      const vector<int>& cmlistv, const Float* qw0,

                      avec<Float>& jtjdi, bool jc_transpose, int radial) {

   // first camera part

   if (jcv.size() == 0 || jpv.size() == 0) return;  // not gonna happen


   size_t ncam = cmapv.size() - 1, npts = pmapv.size() - 1;

   const int vn = radial ? 8 : 7;

   SetVectorZero(jtjdi);


   const int* cmap = &cmapv[0];

   const int* pmap = &pmapv[0];

   const int* cmlist = &cmlistv[0];

   const Float* jc = &jcv[0];

   const Float* jp = &jpv[0];

   const Float* qw = qw0;

   Float* jji = &jtjdi[0];


   for (size_t i = 0; i < ncam; ++i, jji += 8, ++cmap, qw += 2) {

     int idx1 = cmap[0], idx2 = cmap[1];

     for (int j = idx1; j < idx2; ++j) {

       int idx = jc_transpose ? j : cmlist[j];

       const Float* pj = jc + idx * 16;

       for (int k = 0; k < vn; ++k)

         jji[k] += (pj[k] * pj[k] + pj[k + 8] * pj[k + 8]);

     }

     if (qw0 && qw[0] > 0) {

       jji[0] += (qw[0] * qw[0] * 2.0f);

       jji[7] += (qw[1] * qw[1] * 2.0f);

     }

   }


   for (size_t i = 0; i < npts; ++i, jji += POINT_ALIGN, ++pmap) {

     int idx1 = pmap[0], idx2 = pmap[1];

     const Float* pj = jp + idx1 * POINT_ALIGN2;

     for (int j = idx1; j < idx2; ++j, pj += POINT_ALIGN2) {

       for (int k = 0; k < 3; ++k)

         jji[k] += (pj[k] * pj[k] + pj[k + POINT_ALIGN] * pj[k + POINT_ALIGN]);

     }

   }

   Float* it = jtjdi.begin();

   for (; it < jtjdi.end(); ++it) {

     *it = (*it == 0) ? 0 : Float(1.0 / (*it));

   }

 }


 template <class T, int n, int m>

 void InvertSymmetricMatrix(T a[n][m], T ai[n][m]) {

   for (int i = 0; i < n; ++i) {

     if (a[i][i] > 0) {

       a[i][i] = sqrt(a[i][i]);

       for (int j = i + 1; j < n; ++j) a[j][i] = a[j][i] / a[i][i];

       for (int j = i + 1; j < n; ++j)

         for (int k = j; k < n; ++k) a[k][j] -= a[k][i] * a[j][i];

     }

   }

   // inv(L)

   for (int i = 0; i < n; ++i) {

     if (a[i][i] == 0) continue;

     a[i][i] = 1.0f / a[i][i];

   }

   for (int i = 1; i < n; ++i) {

     if (a[i][i] == 0) continue;

     for (int j = 0; j < i; ++j) {

       T sum = 0;

       for (int k = j; k < i; ++k) sum += (a[i][k] * a[k][j]);

       a[i][j] = -sum * a[i][i];

     }

   }

   // inv(L)'  * inv(L)

   for (int i = 0; i < n; ++i) {

     for (int j = i; j < n; ++j) {

       ai[i][j] = 0;

       for (int k = j; k < n; ++k) ai[i][j] += a[k][i] * a[k][j];

       ai[j][i] = ai[i][j];

     }

   }

 }

 template <class T, int n, int m>

 void InvertSymmetricMatrix(T* a, T* ai) {

   InvertSymmetricMatrix<T, n, m>((T(*)[m])a, (T(*)[m])ai);

 }


 template <class Float>

 void ComputeDiagonalBlockC(size_t ncam, float lambda1, float lambda2,

                            const Float* jc, const int* cmap, const int* cmlist,

                            Float* di, Float* bi, int vn, bool jc_transpose,

                            bool use_jq, int mt);


 DEFINE_THREAD_DATA(ComputeDiagonalBlockC)

 size_t ncam;

 float lambda1, lambda2;

 const Float* jc;

 const int *cmap, *cmlist;

 Float *di, *bi;

 int vn;

 bool jc_transpose, use_jq;

 BEGIN_THREAD_PROC(ComputeDiagonalBlockC)

 ComputeDiagonalBlockC(q->ncam, q->lambda1, q->lambda2, q->jc, q->cmap,

                       q->cmlist, q->di, q->bi, q->vn, q->jc_transpose,

                       q->use_jq, 0);

 END_THREAD_RPOC(ComputeDiagonalBlockC)


 template <class Float>

 void ComputeDiagonalBlockC(size_t ncam, float lambda1, float lambda2,

                            const Float* jc, const int* cmap, const int* cmlist,

                            Float* di, Float* bi, int vn, bool jc_transpose,

                            bool use_jq, int mt) {

   const size_t bc = vn * 8;


   if (mt > 1 && ncam >= (size_t)mt) {

     MYTHREAD threads[THREAD_NUM_MAX];

     const size_t thread_num = std::min(mt, THREAD_NUM_MAX);

     for (size_t i = 0; i < thread_num; ++i) {

       size_t first = ncam * i / thread_num;

       size_t last_ = ncam * (i + 1) / thread_num;

       size_t last = std::min(last_, ncam);

       RUN_THREAD(ComputeDiagonalBlockC, threads[i], (last - first), lambda1,

                  lambda2, jc, cmap + first, cmlist, di + 8 * first,

                  bi + bc * first, vn, jc_transpose, use_jq);

     }

     WAIT_THREAD(threads, thread_num);

   } else {

     Float bufv[64 + 8];  // size_t offset = ((size_t)bufv) & 0xf;

     // Float* pbuf = bufv + ((16 - offset) / sizeof(Float));

     Float* pbuf = (Float*)ALIGN_PTR(bufv);


     for (size_t i = 0; i < ncam; ++i, ++cmap, bi += bc) {

       int idx1 = cmap[0], idx2 = cmap[1];

       if (idx1 == idx2) {

         SetVectorZero(bi, bi + bc);

       } else {

         SetVectorZero(pbuf, pbuf + 64);


         for (int j = idx1; j < idx2; ++j) {

           int idx = jc_transpose ? j : cmlist[j];

           const Float* pj = jc + idx * 16;

           AddBlockJtJ(pj, pbuf, vn);

           AddBlockJtJ(pj + 8, pbuf, vn);

         }


         // change and copy the diagonal


         if (use_jq) {

           Float* pb = pbuf;

           for (int j = 0; j < 8; ++j, ++di, pb += 9) {

             Float temp;

             di[0] = temp = (di[0] + pb[0]);

             pb[0] = lambda2 * temp + lambda1;

           }

         } else {

           Float* pb = pbuf;

           for (int j = 0; j < 8; ++j, ++di, pb += 9) {

             *pb = lambda2 * ((*di) = (*pb)) + lambda1;

           }

         }


         // invert the matrix?

         if (vn == 8)

           InvertSymmetricMatrix<Float, 8, 8>(pbuf, bi);

         else

           InvertSymmetricMatrix<Float, 7, 8>(pbuf, bi);

       }

     }

   }

 }


 template <class Float>

 void ComputeDiagonalBlockP(size_t npt, float lambda1, float lambda2,

                            const Float* jp, const int* pmap, Float* di,

                            Float* bi, int mt);


 DEFINE_THREAD_DATA(ComputeDiagonalBlockP)

 size_t npt;

 float lambda1, lambda2;

 const Float* jp;

 const int* pmap;

 Float *di, *bi;

 BEGIN_THREAD_PROC(ComputeDiagonalBlockP)

 ComputeDiagonalBlockP(q->npt, q->lambda1, q->lambda2, q->jp, q->pmap, q->di,

                       q->bi, 0);

 END_THREAD_RPOC(ComputeDiagonalBlockP)


 template <class Float>

 void ComputeDiagonalBlockP(size_t npt, float lambda1, float lambda2,

                            const Float* jp, const int* pmap, Float* di,

                            Float* bi, int mt) {

   if (mt > 1) {

     MYTHREAD threads[THREAD_NUM_MAX];

     const size_t thread_num = std::min(mt, THREAD_NUM_MAX);

     for (size_t i = 0; i < thread_num; ++i) {

       size_t first = npt * i / thread_num;

       size_t last_ = npt * (i + 1) / thread_num;

       size_t last = std::min(last_, npt);

       RUN_THREAD(ComputeDiagonalBlockP, threads[i], (last - first), lambda1,

                  lambda2, jp, pmap + first, di + POINT_ALIGN * first,

                  bi + 6 * first);

     }

     WAIT_THREAD(threads, thread_num);

   } else {

     for (size_t i = 0; i < npt; ++i, ++pmap, di += POINT_ALIGN, bi += 6) {

       int idx1 = pmap[0], idx2 = pmap[1];


       Float M00 = 0, M01 = 0, M02 = 0, M11 = 0, M12 = 0, M22 = 0;

       const Float *jxp = jp + idx1 * (POINT_ALIGN2), *jyp = jxp + POINT_ALIGN;

       for (int j = idx1; j < idx2;

            ++j, jxp += POINT_ALIGN2, jyp += POINT_ALIGN2) {

         M00 += (jxp[0] * jxp[0] + jyp[0] * jyp[0]);

         M01 += (jxp[0] * jxp[1] + jyp[0] * jyp[1]);

         M02 += (jxp[0] * jxp[2] + jyp[0] * jyp[2]);

         M11 += (jxp[1] * jxp[1] + jyp[1] * jyp[1]);

         M12 += (jxp[1] * jxp[2] + jyp[1] * jyp[2]);

         M22 += (jxp[2] * jxp[2] + jyp[2] * jyp[2]);

       }


       di[0] = M00;

       di[1] = M11;

       di[2] = M22;


       M00 = M00 * lambda2 + lambda1;

       M11 = M11 * lambda2 + lambda1;

       M22 = M22 * lambda2 + lambda1;


       Float det = (M00 * M11 - M01 * M01) * M22 + Float(2.0) * M01 * M12 * M02 -

                   M02 * M02 * M11 - M12 * M12 * M00;

       if (det >= FLT_MAX || det <= FLT_MIN * 2.0f) {

         // SetVectorZero(bi, bi + 6);

         for (int j = 0; j < 6; ++j) bi[j] = 0;

       } else {

         bi[0] = (M11 * M22 - M12 * M12) / det;

         bi[1] = -(M01 * M22 - M12 * M02) / det;

         bi[2] = (M01 * M12 - M02 * M11) / det;

         bi[3] = (M00 * M22 - M02 * M02) / det;

         bi[4] = -(M00 * M12 - M01 * M02) / det;

         bi[5] = (M00 * M11 - M01 * M01) / det;

       }

     }

   }

 }


 template <class Float>

 void ComputeDiagonalBlock(size_t ncam, size_t npts, float lambda, bool dampd,

                           const Float* jc, const int* cmap, const Float* jp,

                           const int* pmap, const int* cmlist, const Float* sj,

                           const Float* wq, Float* diag, Float* blocks,

                           int radial_distortion, bool jc_transpose, int mt1 = 2,

                           int mt2 = 2, int mode = 0) {

   const int vn = radial_distortion ? 8 : 7;

   const size_t bc = vn * 8;

   float lambda1 = dampd ? 0.0f : lambda;

   float lambda2 = dampd ? (1.0f + lambda) : 1.0f;


   if (mode == 0) {

     const size_t bsz = bc * ncam + npts * 6;

     const size_t dsz = 8 * ncam + npts * POINT_ALIGN;

     bool use_jq = wq != NULL;

     SetVectorZero(blocks, blocks + bsz);

     SetVectorZero(diag, diag + dsz);


     if (use_jq) ComputeDiagonalAddQ(ncam, wq, diag, sj);

     ComputeDiagonalBlockC(ncam, lambda1, lambda2, jc, cmap, cmlist, diag,

                           blocks, vn, jc_transpose, use_jq, mt1);

     ComputeDiagonalBlockP(npts, lambda1, lambda2, jp, pmap, diag + 8 * ncam,

                           blocks + bc * ncam, mt2);

   } else if (mode == 1) {

     const size_t bsz = bc * ncam;

     const size_t dsz = 8 * ncam;

     bool use_jq = wq != NULL;

     SetVectorZero(blocks, blocks + bsz);

     SetVectorZero(diag, diag + dsz);


     if (use_jq) ComputeDiagonalAddQ(ncam, wq, diag, sj);

     ComputeDiagonalBlockC(ncam, lambda1, lambda2, jc, cmap, cmlist, diag,

                           blocks, vn, jc_transpose, use_jq, mt1);

   } else {

     blocks += bc * ncam;

     diag += 8 * ncam;

     const size_t bsz = npts * 6;

     const size_t dsz = npts * POINT_ALIGN;

     SetVectorZero(blocks, blocks + bsz);

     SetVectorZero(diag, diag + dsz);


     ComputeDiagonalBlockP(npts, lambda1, lambda2, jp, pmap, diag, blocks, mt2);

   }

 }


 template <class Float>

 void ComputeDiagonalBlock_(float lambda, bool dampd, const avec<Float>& camerav,

                            const avec<Float>& pointv, const avec<Float>& meas,

                            const vector<int>& jmapv, const avec<Float>& sjv,

                            avec<Float>& qwv, avec<Float>& diag,

                            avec<Float>& blocks, bool intrinsic_fixed,

                            int radial_distortion, int mode = 0) {

   const int vn = radial_distortion ? 8 : 7;

   const size_t szbc = vn * 8;

   size_t ncam = camerav.size() / 16;

   size_t npts = pointv.size() / POINT_ALIGN;

   size_t sz_jcd = ncam * 8;

   size_t sz_jcb = ncam * szbc;

   avec<Float> blockpv(blocks.size());

   SetVectorZero(blockpv);

   SetVectorZero(diag);

   float lambda1 = dampd ? 0.0f : lambda;

   float lambda2 = dampd ? (1.0f + lambda) : 1.0f;


   Float jbufv[24 + 8];  // size_t offset = ((size_t) jbufv) & 0xf;

   // Float* jxc = jbufv + ((16 - offset) / sizeof(Float));

   Float* jxc = (Float*)ALIGN_PTR(jbufv);

   Float *jyc = jxc + 8, *jxp = jxc + 16, *jyp = jxc + 20;


   const int* jmap = &jmapv[0];

   const Float* camera = &camerav[0];

   const Float* point = &pointv[0];

   const Float* ms = &meas[0];

   const Float* sjc0 = sjv.size() ? &sjv[0] : NULL;

   const Float* sjp0 = sjv.size() ? &sjv[sz_jcd] : NULL;

   Float *blockpc = &blockpv[0], *blockpp = &blockpv[sz_jcb];

   Float *bo = blockpc, *bi = &blocks[0], *di = &diag[0];


   // diagonal blocks

   for (size_t i = 0; i < jmapv.size(); i += 2, jmap += 2, ms += 2) {

     int cidx = jmap[0], pidx = jmap[1];

     const Float *c = camera + cidx * 16, *pt = point + pidx * POINT_ALIGN;

     JacobianOne(c, pt, ms, jxc, jyc, jxp, jyp, intrinsic_fixed,

                 radial_distortion);


     if (mode != 2) {

       if (sjc0) {

         const Float* sjc = sjc0 + cidx * 8;

         ScaleJ8(jxc, jyc, sjc);

       }

       Float* bc = blockpc + cidx * szbc;

       AddBlockJtJ(jxc, bc, vn);

       AddBlockJtJ(jyc, bc, vn);

     }


     if (mode != 1) {

       if (sjp0) {

         const Float* sjp = sjp0 + pidx * POINT_ALIGN;

         jxp[0] *= sjp[0];

         jxp[1] *= sjp[1];

         jxp[2] *= sjp[2];

         jyp[0] *= sjp[0];

         jyp[1] *= sjp[1];

         jyp[2] *= sjp[2];

       }


       Float* bp = blockpp + pidx * 6;

       bp[0] += (jxp[0] * jxp[0] + jyp[0] * jyp[0]);

       bp[1] += (jxp[0] * jxp[1] + jyp[0] * jyp[1]);

       bp[2] += (jxp[0] * jxp[2] + jyp[0] * jyp[2]);

       bp[3] += (jxp[1] * jxp[1] + jyp[1] * jyp[1]);

       bp[4] += (jxp[1] * jxp[2] + jyp[1] * jyp[2]);

       bp[5] += (jxp[2] * jxp[2] + jyp[2] * jyp[2]);

     }

   }


   if (mode != 2) {

     const Float* qw = qwv.begin();

     if (qw) {

       for (size_t i = 0; i < ncam; ++i, qw += 2) {

         if (qw[0] == 0) continue;

         Float* bc = blockpc + i * szbc;

         if (sjc0) {

           const Float* sjc = sjc0 + i * 8;

           Float j1 = sjc[0] * qw[0];

           Float j2 = sjc[7] * qw[1];

           bc[0] += (j1 * j1 * 2.0f);

           if (radial_distortion) bc[63] += (j2 * j2 * 2.0f);

         } else {

           const Float* sjc = sjc0 + i * 8;

           bc[0] += (qw[0] * qw[0] * 2.0f);

           if (radial_distortion) bc[63] += (qw[1] * qw[1] * 2.0f);

         }

       }

     }


     for (size_t i = 0; i < ncam; ++i, bo += szbc, bi += szbc, di += 8) {

       Float *bp = bo, *dip = di;

       for (int j = 0; j < vn; ++j, ++dip, bp += 9) {

         dip[0] = bp[0];

         bp[0] = lambda2 * bp[0] + lambda1;

       }


       // invert the matrix?

       if (radial_distortion)

         InvertSymmetricMatrix<Float, 8, 8>(bo, bi);

       else

         InvertSymmetricMatrix<Float, 7, 8>(bo, bi);

     }

   } else {

     bo += szbc * ncam;

     bi += szbc * ncam;

     di += 8 * ncam;

   }


   // inverting the point part

   if (mode != 1) {

     for (size_t i = 0; i < npts; ++i, bo += 6, bi += 6, di += POINT_ALIGN) {

       Float &M00 = bo[0], &M01 = bo[1], &M02 = bo[2];

       Float &M11 = bo[3], &M12 = bo[4], &M22 = bo[5];

       di[0] = M00;

       di[1] = M11;

       di[2] = M22;


       M00 = M00 * lambda2 + lambda1;

       M11 = M11 * lambda2 + lambda1;

       M22 = M22 * lambda2 + lambda1;


       Float det = (M00 * M11 - M01 * M01) * M22 + Float(2.0) * M01 * M12 * M02 -

                   M02 * M02 * M11 - M12 * M12 * M00;

       if (det >= FLT_MAX || det <= FLT_MIN * 2.0f) {

         for (int j = 0; j < 6; ++j) bi[j] = 0;

       } else {

         bi[0] = (M11 * M22 - M12 * M12) / det;

         bi[1] = -(M01 * M22 - M12 * M02) / det;

         bi[2] = (M01 * M12 - M02 * M11) / det;

         bi[3] = (M00 * M22 - M02 * M02) / det;

         bi[4] = -(M00 * M12 - M01 * M02) / det;

         bi[5] = (M00 * M11 - M01 * M01) / det;

       }

     }

   }

 }


 template <class Float>

 void MultiplyBlockConditionerC(int ncam, const Float* bi, const Float* x,

                                Float* vx, int vn, int mt = 0);


 DEFINE_THREAD_DATA(MultiplyBlockConditionerC)

 int ncam;

 const Float *bi, *x;

 Float* vx;

 int vn;

 BEGIN_THREAD_PROC(MultiplyBlockConditionerC)

 MultiplyBlockConditionerC(q->ncam, q->bi, q->x, q->vx, q->vn, 0);

 END_THREAD_RPOC(MultiplyBlockConditionerC)


 template <class Float>

 void MultiplyBlockConditionerC(int ncam, const Float* bi, const Float* x,

                                Float* vx, int vn, int mt) {

   if (mt > 1 && ncam >= mt) {

     const size_t bc = vn * 8;

     MYTHREAD threads[THREAD_NUM_MAX];

     const int thread_num = std::min(mt, THREAD_NUM_MAX);

     for (int i = 0; i < thread_num; ++i) {

       int first = ncam * i / thread_num;

       int last_ = ncam * (i + 1) / thread_num;

       int last = std::min(last_, ncam);

       RUN_THREAD(MultiplyBlockConditionerC, threads[i], (last - first),

                  bi + first * bc, x + 8 * first, vx + 8 * first, vn);

     }

     WAIT_THREAD(threads, thread_num);

   } else {

     for (int i = 0; i < ncam; ++i, x += 8, vx += 8) {

       Float* vxc = vx;

       for (int j = 0; j < vn; ++j, bi += 8, ++vxc) *vxc = DotProduct8(bi, x);

     }

   }

 }


 template <class Float>

 void MultiplyBlockConditionerP(int npoint, const Float* bi, const Float* x,

                                Float* vx, int mt = 0);


 DEFINE_THREAD_DATA(MultiplyBlockConditionerP)

 int npoint;

 const Float *bi, *x;

 Float* vx;

 BEGIN_THREAD_PROC(MultiplyBlockConditionerP)

 MultiplyBlockConditionerP(q->npoint, q->bi, q->x, q->vx, 0);

 END_THREAD_RPOC(MultiplyBlockConditionerP)


 template <class Float>

 void MultiplyBlockConditionerP(int npoint, const Float* bi, const Float* x,

                                Float* vx, int mt) {

   if (mt > 1 && npoint >= mt) {

     MYTHREAD threads[THREAD_NUM_MAX];

     const int thread_num = std::min(mt, THREAD_NUM_MAX);

     for (int i = 0; i < thread_num; ++i) {

       int first = npoint * i / thread_num;

       int last_ = npoint * (i + 1) / thread_num;

       int last = std::min(last_, npoint);

       RUN_THREAD(MultiplyBlockConditionerP, threads[i], (last - first),

                  bi + first * 6, x + POINT_ALIGN * first,

                  vx + POINT_ALIGN * first);

     }

     WAIT_THREAD(threads, thread_num);

   } else {

     for (int i = 0; i < npoint;

          ++i, bi += 6, x += POINT_ALIGN, vx += POINT_ALIGN) {

       vx[0] = (bi[0] * x[0] + bi[1] * x[1] + bi[2] * x[2]);

       vx[1] = (bi[1] * x[0] + bi[3] * x[1] + bi[4] * x[2]);

       vx[2] = (bi[2] * x[0] + bi[4] * x[1] + bi[5] * x[2]);

     }

   }

 }


 template <class Float>

 void MultiplyBlockConditioner(int ncam, int npoint, const Float* blocksv,

                               const Float* vec, Float* resultv, int radial,

                               int mode, int mt1, int mt2) {

   const int vn = radial ? 8 : 7;

   if (mode != 2)

     MultiplyBlockConditionerC(ncam, blocksv, vec, resultv, vn, mt1);

   if (mt2 == 0) mt2 = AUTO_MT_NUM(npoint * 24);

   if (mode != 1)

     MultiplyBlockConditionerP(npoint, blocksv + (vn * 8 * ncam), vec + ncam * 8,

                               resultv + 8 * ncam, mt2);

 }


 template <class Float>

 void ComputeJX(size_t nproj, size_t ncam, const Float* x, const Float* jc,

                const Float* jp, const int* jmap, Float* jx, int mode,

                int mt = 2);


 DEFINE_THREAD_DATA(ComputeJX)

 size_t nproj, ncam;

 const Float *xc, *jc, *jp;

 const int* jmap;

 Float* jx;

 int mode;

 BEGIN_THREAD_PROC(ComputeJX)

 ComputeJX(q->nproj, q->ncam, q->xc, q->jc, q->jp, q->jmap, q->jx, q->mode, 0);

 END_THREAD_RPOC(ComputeJX)


 template <class Float>

 void ComputeJX(size_t nproj, size_t ncam, const Float* x, const Float* jc,

                const Float* jp, const int* jmap, Float* jx, int mode, int mt) {

   if (mt > 1 && nproj >= mt) {

     MYTHREAD threads[THREAD_NUM_MAX];

     const size_t thread_num = std::min(mt, THREAD_NUM_MAX);

     for (size_t i = 0; i < thread_num; ++i) {

       size_t first = nproj * i / thread_num;

       size_t last_ = nproj * (i + 1) / thread_num;

       size_t last = std::min(last_, nproj);

       RUN_THREAD(ComputeJX, threads[i], (last - first), ncam, x,

                  jc + 16 * first, jp + POINT_ALIGN2 * first, jmap + first * 2,

                  jx + first * 2, mode);

     }

     WAIT_THREAD(threads, thread_num);

   } else if (mode == 0) {

     const Float *pxc = x, *pxp = pxc + ncam * 8;

     // clock_t tp = clock(); double s1 = 0, s2  = 0;

     for (size_t i = 0; i < nproj;

          ++i, jmap += 2, jc += 16, jp += POINT_ALIGN2, jx += 2) {

       ComputeTwoJX(jc, jp, pxc + jmap[0] * 8, pxp + jmap[1] * POINT_ALIGN, jx);

     }

   } else if (mode == 1) {

     const Float* pxc = x;

     // clock_t tp = clock(); double s1 = 0, s2  = 0;

     for (size_t i = 0; i < nproj;

          ++i, jmap += 2, jc += 16, jp += POINT_ALIGN2, jx += 2) {

       const Float* xc = pxc + jmap[0] * 8;

       jx[0] = DotProduct8(jc, xc);

       jx[1] = DotProduct8(jc + 8, xc);

     }

   } else if (mode == 2) {

     const Float* pxp = x + ncam * 8;

     // clock_t tp = clock(); double s1 = 0, s2  = 0;

     for (size_t i = 0; i < nproj;

          ++i, jmap += 2, jc += 16, jp += POINT_ALIGN2, jx += 2) {

       const Float* xp = pxp + jmap[1] * POINT_ALIGN;

       jx[0] = (jp[0] * xp[0] + jp[1] * xp[1] + jp[2] * xp[2]);

       jx[1] = (jp[3] * xp[0] + jp[4] * xp[1] + jp[5] * xp[2]);

     }

   }

 }


 template <class Float>

 void ComputeJX_(size_t nproj, size_t ncam, const Float* x, Float* jx,

                 const Float* camera, const Float* point, const Float* ms,

                 const Float* sj, const int* jmap, bool intrinsic_fixed,

                 int radial_distortion, int mode, int mt = 16);


 DEFINE_THREAD_DATA(ComputeJX_)

 size_t nproj, ncam;

 const Float* x;

 Float* jx;

 const Float *camera, *point, *ms, *sj;

 const int* jmap;

 bool intrinsic_fixed;

 int radial_distortion;

 int mode;

 BEGIN_THREAD_PROC(ComputeJX_)

 ComputeJX_(q->nproj, q->ncam, q->x, q->jx, q->camera, q->point, q->ms, q->sj,

            q->jmap, q->intrinsic_fixed, q->radial_distortion, q->mode, 0);

 END_THREAD_RPOC(ComputeJX_)


 template <class Float>

 void ComputeJX_(size_t nproj, size_t ncam, const Float* x, Float* jx,

                 const Float* camera, const Float* point, const Float* ms,

                 const Float* sj, const int* jmap, bool intrinsic_fixed,

                 int radial_distortion, int mode, int mt) {

   if (mt > 1 && nproj >= mt) {

     MYTHREAD threads[THREAD_NUM_MAX];

     const size_t thread_num = std::min(mt, THREAD_NUM_MAX);

     for (size_t i = 0; i < thread_num; ++i) {

       size_t first = nproj * i / thread_num;

       size_t last_ = nproj * (i + 1) / thread_num;

       size_t last = std::min(last_, nproj);

       RUN_THREAD(ComputeJX_, threads[i], (last - first), ncam, x,

                  jx + first * 2, camera, point, ms + 2 * first, sj,

                  jmap + first * 2, intrinsic_fixed, radial_distortion, mode);

     }

     WAIT_THREAD(threads, thread_num);

   } else if (mode == 0) {

     Float jcv[24 + 8];  // size_t offset = ((size_t) jcv) & 0xf;

     // Float* jc = jcv + (16 - offset) / sizeof(Float), *jp = jc + 16;

     Float *jc = (Float *)ALIGN_PTR(jcv), *jp = jc + 16;

     const Float* sjc = sj;

     const Float* sjp = sjc ? (sjc + ncam * 8) : NULL;

     const Float *xc0 = x, *xp0 = x + ncam * 8;


     for (size_t i = 0; i < nproj; ++i, ms += 2, jmap += 2, jx += 2) {

       const int cidx = jmap[0], pidx = jmap[1];

       const Float *c = camera + cidx * 16, *pt = point + pidx * POINT_ALIGN;

       JacobianOne(c, pt, ms, jc, jc + 8, jp, jp + POINT_ALIGN, intrinsic_fixed,

                   radial_distortion);

       if (sjc) {

         // jacobian scaling

         ScaleJ8(jc, jc + 8, sjc + cidx * 8);

         const Float* sjpi = sjp + pidx * POINT_ALIGN;

         for (int j = 0; j < 3; ++j) {

           jp[j] *= sjpi[j];

           jp[POINT_ALIGN + j] *= sjpi[j];

         }

       }

       ComputeTwoJX(jc, jp, xc0 + cidx * 8, xp0 + pidx * POINT_ALIGN, jx);

     }

   } else if (mode == 1) {

     Float jcv[24 + 8];  // size_t offset = ((size_t) jcv) & 0xf;

     // Float* jc = jcv + (16 - offset) / sizeof(Float);

     Float* jc = (Float*)ALIGN_PTR(jcv);


     const Float *sjc = sj, *xc0 = x;


     for (size_t i = 0; i < nproj; ++i, ms += 2, jmap += 2, jx += 2) {

       const int cidx = jmap[0], pidx = jmap[1];

       const Float *c = camera + cidx * 16, *pt = point + pidx * POINT_ALIGN;

       JacobianOne(c, pt, ms, jc, jc + 8, (Float*)NULL, (Float*)NULL,

                   intrinsic_fixed, radial_distortion);

       if (sjc) ScaleJ8(jc, jc + 8, sjc + cidx * 8);

       const Float* xc = xc0 + cidx * 8;

       jx[0] = DotProduct8(jc, xc);

       jx[1] = DotProduct8(jc + 8, xc);

     }

   } else if (mode == 2) {

     Float jp[8];


     const Float* sjp = sj ? (sj + ncam * 8) : NULL;

     const Float* xp0 = x + ncam * 8;


     for (size_t i = 0; i < nproj; ++i, ms += 2, jmap += 2, jx += 2) {

       const int cidx = jmap[0], pidx = jmap[1];

       const Float *c = camera + cidx * 16, *pt = point + pidx * POINT_ALIGN;

       JacobianOne(c, pt, ms, (Float*)NULL, (Float*)NULL, jp, jp + POINT_ALIGN,

                   intrinsic_fixed, radial_distortion);


       const Float* xp = xp0 + pidx * POINT_ALIGN;

       if (sjp) {

         const Float* s = sjp + pidx * POINT_ALIGN;

         jx[0] = (jp[0] * xp[0] * s[0] + jp[1] * xp[1] * s[1] +

                  jp[2] * xp[2] * s[2]);

         jx[1] = (jp[3] * xp[0] * s[0] + jp[4] * xp[1] * s[1] +

                  jp[5] * xp[2] * s[2]);

       } else {

         jx[0] = (jp[0] * xp[0] + jp[1] * xp[1] + jp[2] * xp[2]);

         jx[1] = (jp[3] * xp[0] + jp[4] * xp[1] + jp[5] * xp[2]);

       }

     }

   }

 }


 template <class Float>

 void ComputeJtEC(size_t ncam, const Float* pe, const Float* jc, const int* cmap,

                  const int* cmlist, Float* v, bool jc_transpose, int mt);


 DEFINE_THREAD_DATA(ComputeJtEC)

 size_t ncam;

 const Float *pe, *jc;

 const int *cmap, *cmlist;

 Float* v;

 bool jc_transpose;

 BEGIN_THREAD_PROC(ComputeJtEC)

 ComputeJtEC(q->ncam, q->pe, q->jc, q->cmap, q->cmlist, q->v, q->jc_transpose,

             0);

 END_THREAD_RPOC(ComputeJtEC)


 template <class Float>

 void ComputeJtEC(size_t ncam, const Float* pe, const Float* jc, const int* cmap,

                  const int* cmlist, Float* v, bool jc_transpose, int mt) {

   if (mt > 1 && ncam >= mt) {

     MYTHREAD threads[THREAD_NUM_MAX];  // if(ncam < mt) mt = ncam;

     const size_t thread_num = std::min(mt, THREAD_NUM_MAX);

     for (size_t i = 0; i < thread_num; ++i) {

       size_t first = ncam * i / thread_num;

       size_t last_ = ncam * (i + 1) / thread_num;

       size_t last = std::min(last_, ncam);

       RUN_THREAD(ComputeJtEC, threads[i], (last - first), pe, jc, cmap + first,

                  cmlist, v + 8 * first, jc_transpose);

     }

     WAIT_THREAD(threads, thread_num);

   } else {

     for (size_t i = 0; i < ncam; ++i, ++cmap, v += 8) {

       int idx1 = cmap[0], idx2 = cmap[1];

       for (int j = idx1; j < idx2; ++j) {

         int edx = cmlist[j];

         const Float* pj = jc + ((jc_transpose ? j : edx) * 16);

         const Float* e = pe + edx * 2;

         AddScaledVec8(e[0], pj, v);

         AddScaledVec8(e[1], pj + 8, v);

       }

     }

   }

 }


 template <class Float>

 void ComputeJtEP(size_t npt, const Float* pe, const Float* jp, const int* pmap,

                  Float* v, int mt);


 DEFINE_THREAD_DATA(ComputeJtEP)

 size_t npt;

 const Float *pe, *jp;

 const int* pmap;

 Float* v;

 BEGIN_THREAD_PROC(ComputeJtEP)

 ComputeJtEP(q->npt, q->pe, q->jp, q->pmap, q->v, 0);

 END_THREAD_RPOC(ComputeJtEP)


 template <class Float>

 void ComputeJtEP(size_t npt, const Float* pe, const Float* jp, const int* pmap,

                  Float* v, int mt) {

   if (mt > 1 && npt >= mt) {

     MYTHREAD threads[THREAD_NUM_MAX];

     const size_t thread_num = std::min(mt, THREAD_NUM_MAX);

     for (size_t i = 0; i < thread_num; ++i) {

       size_t first = npt * i / thread_num;

       size_t last_ = npt * (i + 1) / thread_num;

       size_t last = std::min(last_, npt);

       RUN_THREAD(ComputeJtEP, threads[i], (last - first), pe, jp, pmap + first,

                  v + POINT_ALIGN * first);

     }

     WAIT_THREAD(threads, thread_num);

   } else {

     for (size_t i = 0; i < npt; ++i, ++pmap, v += POINT_ALIGN) {

       int idx1 = pmap[0], idx2 = pmap[1];

       const Float* pj = jp + idx1 * POINT_ALIGN2;

       const Float* e = pe + idx1 * 2;

       Float temp[3] = {0, 0, 0};

       for (int j = idx1; j < idx2; ++j, pj += POINT_ALIGN2, e += 2) {

         temp[0] += (e[0] * pj[0] + e[1] * pj[POINT_ALIGN]);

         temp[1] += (e[0] * pj[1] + e[1] * pj[POINT_ALIGN + 1]);

         temp[2] += (e[0] * pj[2] + e[1] * pj[POINT_ALIGN + 2]);

       }

       v[0] = temp[0];

       v[1] = temp[1];

       v[2] = temp[2];

     }

   }

 }


 template <class Float>

 void ComputeJtE(size_t ncam, size_t npt, const Float* pe, const Float* jc,

                 const int* cmap, const int* cmlist, const Float* jp,

                 const int* pmap, Float* v, bool jc_transpose, int mode, int mt1,

                 int mt2) {

   if (mode != 2) {

     SetVectorZero(v, v + ncam * 8);

     ComputeJtEC(ncam, pe, jc, cmap, cmlist, v, jc_transpose, mt1);

   }

   if (mode != 1) {

     ComputeJtEP(npt, pe, jp, pmap, v + 8 * ncam, mt2);

   }

 }


 template <class Float>

 void ComputeJtEC_(size_t ncam, const Float* ee, Float* jte, const Float* c,

                   const Float* point, const Float* ms, const int* jmap,

                   const int* cmap, const int* cmlist, bool intrinsic_fixed,

                   int radial_distortion, int mt);


 DEFINE_THREAD_DATA(ComputeJtEC_)

 size_t ncam;

 const Float* ee;

 Float* jte;

 const Float *c, *point, *ms;

 const int *jmap, *cmap, *cmlist;

 bool intrinsic_fixed;

 int radial_distortion;

 BEGIN_THREAD_PROC(ComputeJtEC_)

 ComputeJtEC_(q->ncam, q->ee, q->jte, q->c, q->point, q->ms, q->jmap, q->cmap,

              q->cmlist, q->intrinsic_fixed, q->radial_distortion, 0);

 END_THREAD_RPOC(ComputeJtEC_)


 template <class Float>

 void ComputeJtEC_(size_t ncam, const Float* ee, Float* jte, const Float* c,

                   const Float* point, const Float* ms, const int* jmap,

                   const int* cmap, const int* cmlist, bool intrinsic_fixed,

                   int radial_distortion, int mt) {

   if (mt > 1 && ncam >= mt) {

     MYTHREAD threads[THREAD_NUM_MAX];

     // if(ncam < mt) mt = ncam;

     const size_t thread_num = std::min(mt, THREAD_NUM_MAX);

     for (size_t i = 0; i < thread_num; ++i) {

       size_t first = ncam * i / thread_num;

       size_t last_ = ncam * (i + 1) / thread_num;

       size_t last = std::min(last_, ncam);

       RUN_THREAD(ComputeJtEC_, threads[i], (last - first), ee, jte + 8 * first,

                  c + first * 16, point, ms, jmap, cmap + first, cmlist,

                  intrinsic_fixed, radial_distortion);

     }

     WAIT_THREAD(threads, thread_num);


   } else {

     Float jcv[16 + 8];  // size_t offset = ((size_t) jcv) & 0xf;

     // Float* jcx = jcv + ((16 - offset) / sizeof(Float)), * jcy = jcx + 8;

     Float *jcx = (Float *)ALIGN_PTR(jcv), *jcy = jcx + 8;


     for (size_t i = 0; i < ncam; ++i, ++cmap, jte += 8, c += 16) {

       int idx1 = cmap[0], idx2 = cmap[1];


       for (int j = idx1; j < idx2; ++j) {

         int index = cmlist[j];

         const Float* pt = point + jmap[2 * index + 1] * POINT_ALIGN;

         const Float* e = ee + index * 2;


         JacobianOne(c, pt, ms + index * 2, jcx, jcy, (Float*)NULL, (Float*)NULL,

                     intrinsic_fixed, radial_distortion);


         AddScaledVec8(e[0], jcx, jte);

         AddScaledVec8(e[1], jcy, jte);

       }

     }

   }

 }


 template <class Float>

 void ComputeJtE_(size_t nproj, size_t ncam, size_t npt, const Float* ee,

                  Float* jte, const Float* camera, const Float* point,

                  const Float* ms, const int* jmap, const int* cmap,

                  const int* cmlist, const int* pmap, const Float* jp,

                  bool intrinsic_fixed, int radial_distortion, int mode,

                  int mt) {

   if (mode != 2) {

     SetVectorZero(jte, jte + ncam * 8);

     ComputeJtEC_(ncam, ee, jte, camera, point, ms, jmap, cmap, cmlist,

                  intrinsic_fixed, radial_distortion, mt);

   }

   if (mode != 1) {

     ComputeJtEP(npt, ee, jp, pmap, jte + 8 * ncam, mt);

   }

 }


 template <class Float>

 void ComputeJtE_(size_t nproj, size_t ncam, size_t npt, const Float* ee,

                  Float* jte, const Float* camera, const Float* point,

                  const Float* ms, const int* jmap, bool intrinsic_fixed,

                  int radial_distortion, int mode) {

   SetVectorZero(jte, jte + (ncam * 8 + npt * POINT_ALIGN));

   Float jcv[24 + 8];  // size_t offset = ((size_t) jcv) & 0xf;

   // Float* jc = jcv + (16 - offset) / sizeof(Float), *pj = jc + 16;

   Float *jc = (Float *)ALIGN_PTR(jcv), *pj = jc + 16;


   Float *vc0 = jte, *vp0 = jte + ncam * 8;


   for (size_t i = 0; i < nproj; ++i, jmap += 2, ms += 2, ee += 2) {

     int cidx = jmap[0], pidx = jmap[1];

     const Float *c = camera + cidx * 16, *pt = point + pidx * POINT_ALIGN;


     if (mode == 0) {

       JacobianOne(c, pt, ms, jc, jc + 8, pj, pj + POINT_ALIGN, intrinsic_fixed,

                   radial_distortion);


       Float *vc = vc0 + cidx * 8, *vp = vp0 + pidx * POINT_ALIGN;

       AddScaledVec8(ee[0], jc, vc);

       AddScaledVec8(ee[1], jc + 8, vc);

       vp[0] += (ee[0] * pj[0] + ee[1] * pj[POINT_ALIGN]);

       vp[1] += (ee[0] * pj[1] + ee[1] * pj[POINT_ALIGN + 1]);

       vp[2] += (ee[0] * pj[2] + ee[1] * pj[POINT_ALIGN + 2]);

     } else if (mode == 1) {

       JacobianOne(c, pt, ms, jc, jc + 8, (Float*)NULL, (Float*)NULL,

                   intrinsic_fixed, radial_distortion);


       Float* vc = vc0 + cidx * 8;

       AddScaledVec8(ee[0], jc, vc);

       AddScaledVec8(ee[1], jc + 8, vc);

     } else {

       JacobianOne(c, pt, ms, (Float*)NULL, (Float*)NULL, pj, pj + POINT_ALIGN,

                   intrinsic_fixed, radial_distortion);


       Float* vp = vp0 + pidx * POINT_ALIGN;

       vp[0] += (ee[0] * pj[0] + ee[1] * pj[POINT_ALIGN]);

       vp[1] += (ee[0] * pj[1] + ee[1] * pj[POINT_ALIGN + 1]);

       vp[2] += (ee[0] * pj[2] + ee[1] * pj[POINT_ALIGN + 2]);

     }

   }

 }

 };


 using namespace ProgramCPU;


 template <class Float>

 SparseBundleCPU<Float>::SparseBundleCPU(const int num_threads)

     : ParallelBA(PBA_INVALID_DEVICE),

       _num_camera(0),

       _num_point(0),

       _num_imgpt(0),

       _num_imgpt_q(0),

       _camera_data(NULL),

       _point_data(NULL),

       _imgpt_data(NULL),

       _camera_idx(NULL),

       _point_idx(NULL),

       _projection_sse(0) {

   __cpu_data_precision = sizeof(Float);

   if (num_threads <= 0) {

     __num_cpu_cores = FindProcessorCoreNum();

   } else {

     __num_cpu_cores = num_threads;

   }

   if (__verbose_level)

     std::cout << "CPU " << (__cpu_data_precision == 4 ? "single" : "double")

               << "-precision solver; " << __num_cpu_cores << " cores"

 #ifdef CPUPBA_USE_AVX

               << " (AVX)"

 #endif

               << ".\n";

   // the following configuration are totally based my personal experience

   // on two computers.. you should adjust them according to your system.

   // try run driver filename -profile --float to see how speed varies

   __num_cpu_thread[FUNC_JX] = __num_cpu_cores;

   __num_cpu_thread[FUNC_JX_] = __num_cpu_cores;

   __num_cpu_thread[FUNC_JTE_] = __num_cpu_cores;

   __num_cpu_thread[FUNC_JJ_JCO_JCT_JP] = __num_cpu_cores;

   __num_cpu_thread[FUNC_JJ_JCO_JP] = __num_cpu_cores;

   __num_cpu_thread[FUNC_JJ_JCT_JP] = __num_cpu_cores;

   __num_cpu_thread[FUNC_JJ_JP] = __num_cpu_cores;

   __num_cpu_thread[FUNC_PJ] = __num_cpu_cores;

   __num_cpu_thread[FUNC_BCC_JCO] = __num_cpu_cores;

   __num_cpu_thread[FUNC_BCC_JCT] = __num_cpu_cores;

   __num_cpu_thread[FUNC_BCP] = __num_cpu_cores;


   __multiply_jx_usenoj = false;


   // To get the best performance, you should ajust the number of threads

   // Linux and Windows may also have different thread launching overhead.


   __num_cpu_thread[FUNC_JTEC_JCT] = __num_cpu_cores * 2;

   __num_cpu_thread[FUNC_JTEC_JCO] = __num_cpu_cores * 2;

   __num_cpu_thread[FUNC_JTEP] = __num_cpu_cores;


   __num_cpu_thread[FUNC_MPC] =

       1;  // single thread always faster with my experience


   // see the AUTO_MT_NUM marcro for definition

   __num_cpu_thread[FUNC_MPP] = 0;  // automatically chosen according to size

   __num_cpu_thread[FUNC_VS] = 0;  // automatically chosen according to size

   __num_cpu_thread[FUNC_VV] = 0;  // automatically chosen accodring to size

 }


 template <class Float>

 void SparseBundleCPU<Float>::SetCameraData(size_t ncam, CameraT* cams) {

   if (sizeof(CameraT) != 16 * sizeof(float)) return;  // never gonna happen...?

   _num_camera = (int)ncam;

   _camera_data = cams;

   _focal_mask = NULL;

 }


 template <class Float>

 void SparseBundleCPU<Float>::SetFocalMask(const int* fmask, float weight) {

   _focal_mask = fmask;

   _weight_q = weight;

 }


 template <class Float>

 void SparseBundleCPU<Float>::SetPointData(size_t npoint, Point3D* pts) {

   _num_point = (int)npoint;

   _point_data = (float*)pts;

 }


 template <class Float>

 void SparseBundleCPU<Float>::SetProjection(size_t nproj, const Point2D* imgpts,

                                            const int* point_idx,

                                            const int* cam_idx) {

   _num_imgpt = (int)nproj;

   _imgpt_data = (float*)imgpts;

   _camera_idx = cam_idx;

   _point_idx = point_idx;

 }


 template <class Float>

 float SparseBundleCPU<Float>::GetMeanSquaredError() {

   return float(_projection_sse /

                (_num_imgpt * __focal_scaling * __focal_scaling));

 }


 template <class Float>

 int SparseBundleCPU<Float>::RunBundleAdjustment() {

   ResetBundleStatistics();

   BundleAdjustment();

   if (__num_lm_success > 0)

     SaveBundleStatistics(_num_camera, _num_point, _num_imgpt);

   if (__num_lm_success > 0) PrintBundleStatistics();

   ResetTemporarySetting();

   return __num_lm_success;

 }


 template <class Float>

 int SparseBundleCPU<Float>::ValidateInputData() {

   if (_camera_data == NULL) return STATUS_CAMERA_MISSING;

   if (_point_data == NULL) return STATUS_POINT_MISSING;

   if (_imgpt_data == NULL) return STATUS_MEASURMENT_MISSING;

   if (_camera_idx == NULL || _point_idx == NULL)

     return STATUS_PROJECTION_MISSING;

   return STATUS_SUCCESS;

 }


 template <class Float>

 int SparseBundleCPU<Float>::InitializeBundle() {

   TimerBA timer(this, TIMER_GPU_ALLOCATION);

   InitializeStorageForSFM();

   InitializeStorageForCG();


   if (__debug_pba) DumpCooJacobian();


   return STATUS_SUCCESS;

 }


 template <class Float>

 int SparseBundleCPU<Float>::GetParameterLength() {

   return _num_camera * 8 + POINT_ALIGN * _num_point;

 }


 template <class Float>

 void SparseBundleCPU<Float>::BundleAdjustment() {

   if (ValidateInputData() != STATUS_SUCCESS) return;


   TimerBA timer(this, TIMER_OVERALL);


   NormalizeData();

   if (InitializeBundle() != STATUS_SUCCESS) {

     // failed to allocate gpu storage

   } else if (__profile_pba) {

     // profiling some stuff

     RunProfileSteps();

   } else {

     // real optimization

     AdjustBundleAdjsutmentMode();

     NonlinearOptimizeLM();

     TransferDataToHost();

   }

   DenormalizeData();

 }


 template <class Float>

 void SparseBundleCPU<Float>::NormalizeData() {

   TimerBA timer(this, TIMER_PREPROCESSING);

   NormalizeDataD();

   NormalizeDataF();

 }


 template <class Float>

 void SparseBundleCPU<Float>::TransferDataToHost() {

   TimerBA timer(this, TIMER_GPU_DOWNLOAD);

   std::copy(_cuCameraData.begin(), _cuCameraData.end(), ((float*)_camera_data));

 #ifdef POINT_DATA_ALIGN4

   std::copy(_cuPointData.begin(), _cuPointData.end(), _point_data);

 #else

   for (size_t i = 0, j = 0; i < _cuPointData.size(); j++) {

     _point_data[j++] = (float)_cuPointData[i++];

     _point_data[j++] = (float)_cuPointData[i++];

     _point_data[j++] = (float)_cuPointData[i++];

   }

 #endif

 }


 #define ALLOCATE_REQUIRED_DATA(NAME, num, channels) \

   {                                                 \

     NAME.resize((num) * (channels));                \

     total_sz += NAME.size() * sizeof(Float);        \

   }

 #define ALLOCATE_OPTIONAL_DATA(NAME, num, channels, option)      \

   if (option) ALLOCATE_REQUIRED_DATA(NAME, num, channels) else { \

       NAME.resize(0);                                            \

     }

 template <class Float>

 bool SparseBundleCPU<Float>::InitializeStorageForSFM() {

   size_t total_sz = 0;

   ProcessIndexCameraQ(_cuCameraQMap, _cuCameraQList);

   total_sz += ((_cuCameraQMap.size() + _cuCameraQList.size()) * sizeof(int) /

                1024 / 1024);


   ALLOCATE_REQUIRED_DATA(_cuPointData, _num_point, POINT_ALIGN);  // 4n

   ALLOCATE_REQUIRED_DATA(_cuCameraData, _num_camera, 16);  // 16m

   ALLOCATE_REQUIRED_DATA(_cuCameraDataEX, _num_camera, 16);  // 16m


   ALLOCATE_REQUIRED_DATA(_cuCameraMeasurementMap, _num_camera + 1, 1);  // m

   ALLOCATE_REQUIRED_DATA(_cuCameraMeasurementList, _num_imgpt, 1);  // k

   ALLOCATE_REQUIRED_DATA(_cuPointMeasurementMap, _num_point + 1, 1);  // n

   ALLOCATE_REQUIRED_DATA(_cuProjectionMap, _num_imgpt, 2);  // 2k

   ALLOCATE_REQUIRED_DATA(_cuImageProj, _num_imgpt + _num_imgpt_q, 2);  // 2k

   ALLOCATE_REQUIRED_DATA(_cuPointDataEX, _num_point, POINT_ALIGN);  // 4n

   ALLOCATE_REQUIRED_DATA(_cuMeasurements, _num_imgpt, 2);  // 2k

   ALLOCATE_REQUIRED_DATA(_cuCameraQMapW, _num_imgpt_q, 2);

   ALLOCATE_REQUIRED_DATA(_cuCameraQListW, (_num_imgpt_q > 0 ? _num_camera : 0),

                          2);


   ALLOCATE_OPTIONAL_DATA(_cuJacobianPoint, _num_imgpt * 2, POINT_ALIGN,

                          !__no_jacobian_store);  // 8k

   ALLOCATE_OPTIONAL_DATA(_cuJacobianCameraT, _num_imgpt * 2, 8,

                          !__no_jacobian_store && __jc_store_transpose);  // 16k

   ALLOCATE_OPTIONAL_DATA(_cuJacobianCamera, _num_imgpt * 2, 8,

                          !__no_jacobian_store && __jc_store_original);  // 16k

   ALLOCATE_OPTIONAL_DATA(_cuCameraMeasurementListT, _num_imgpt, 1,

                          __jc_store_transpose);  // k


   BundleTimerSwap(TIMER_PREPROCESSING, TIMER_GPU_ALLOCATION);

   vector<int>& cpi = _cuCameraMeasurementMap;

   cpi.resize(_num_camera + 1);

   vector<int>& cpidx = _cuCameraMeasurementList;

   cpidx.resize(_num_imgpt);

   vector<int> cpnum(_num_camera, 0);

   cpi[0] = 0;

   for (int i = 0; i < _num_imgpt; ++i) cpnum[_camera_idx[i]]++;

   for (int i = 1; i <= _num_camera; ++i) cpi[i] = cpi[i - 1] + cpnum[i - 1];

   vector<int> cptidx = cpi;

   for (int i = 0; i < _num_imgpt; ++i) cpidx[cptidx[_camera_idx[i]]++] = i;


   if (_cuCameraMeasurementListT.size()) {

     vector<int>& ridx = _cuCameraMeasurementListT;

     ridx.resize(_num_imgpt);

     for (int i = 0; i < _num_imgpt; ++i) ridx[cpidx[i]] = i;

   }


   if (_num_imgpt_q > 0)

     ProcessWeightCameraQ(cpnum, _cuCameraQMap, _cuCameraQMapW.begin(),

                          _cuCameraQListW.begin());


   std::copy((float*)_camera_data, ((float*)_camera_data) + _cuCameraData.size(),

             _cuCameraData.begin());


 #ifdef POINT_DATA_ALIGN4

   std::copy(_point_data, _point_data + _cuPointData.size(),

             _cuPointData.begin());

 #else

   for (size_t i = 0, j = 0; i < _cuPointData.size(); j++) {

     _cuPointData[i++] = _point_data[j++];

     _cuPointData[i++] = _point_data[j++];

     _cuPointData[i++] = _point_data[j++];

   }

 #endif


   vector<int>& ppi = _cuPointMeasurementMap;

   ppi.resize(_num_point + 1);

   for (int i = 0, last_point = -1; i < _num_imgpt; ++i) {

     int pt = _point_idx[i];

     while (last_point < pt) ppi[++last_point] = i;

   }

   ppi[_num_point] = _num_imgpt;


   vector<int>& pmp = _cuProjectionMap;

   pmp.resize(_num_imgpt * 2);

   for (int i = 0; i < _num_imgpt; ++i) {

     int* imp = &pmp[i * 2];

     imp[0] = _camera_idx[i];

     imp[1] = _point_idx[i];

   }

   BundleTimerSwap(TIMER_PREPROCESSING, TIMER_GPU_ALLOCATION);


   __memory_usage = total_sz;

   if (__verbose_level > 1)

     std::cout << "Memory for Motion/Structure/Jacobian:\t"

               << (total_sz / 1024 / 1024) << "MB\n";


   return true;

 }


 template <class Float>

 bool SparseBundleCPU<Float>::ProcessIndexCameraQ(vector<int>& qmap,

                                                  vector<int>& qlist) {

   qlist.resize(0);

   qmap.resize(0);

   _num_imgpt_q = 0;


   if (_camera_idx == NULL) return true;

   if (_point_idx == NULL) return true;

   if (_focal_mask == NULL) return true;

   if (_num_camera == 0) return true;

   if (_weight_q <= 0) return true;


   int error = 0;

   vector<int> temp(_num_camera * 2, -1);


   for (int i = 0; i < _num_camera; ++i) {

     int iq = _focal_mask[i];

     if (iq > i) {

       error = 1;

       break;

     }

     if (iq < 0) continue;

     if (iq == i) continue;

     int ip = temp[2 * iq];

     // float ratio = _camera_data[i].f / _camera_data[iq].f;

     // if(ratio < 0.01 || ratio > 100)

     //{

     //  std::cout << "Warning: constaraints on largely different camreas\n";

     //  continue;

     //}else

     if (_focal_mask[iq] != iq) {

       error = 1;

       break;

     } else if (ip == -1) {

       temp[2 * iq] = i;

       temp[2 * iq + 1] = i;

       temp[2 * i] = iq;

       temp[2 * i + 1] = iq;

     } else {

       // maintain double-linked list

       temp[2 * i] = ip;

       temp[2 * i + 1] = iq;

       temp[2 * ip + 1] = i;

       temp[2 * iq] = i;

     }

   }


   if (error) {

     std::cout << "Error: incorrect constraints\n";

     _focal_mask = NULL;

     return false;

   }


   qlist.resize(_num_camera * 2, -1);

   for (int i = 0; i < _num_camera; ++i) {

     int inext = temp[2 * i + 1];

     if (inext == -1) continue;

     qlist[2 * i] = _num_imgpt_q;

     qlist[2 * inext + 1] = _num_imgpt_q;

     qmap.push_back(i);

     qmap.push_back(inext);

     _num_imgpt_q++;

   }

   return true;

 }


 template <class Float>

 void SparseBundleCPU<Float>::ProcessWeightCameraQ(vector<int>& cpnum,

                                                   vector<int>& qmap,

                                                   Float* qmapw, Float* qlistw) {

   // set average focal length and average radial distortion

   vector<Float> qpnum(_num_camera, 0), qcnum(_num_camera, 0);

   vector<Float> fs(_num_camera, 0), rs(_num_camera, 0);


   for (int i = 0; i < _num_camera; ++i) {

     int qi = _focal_mask[i];

     if (qi == -1) continue;

     // float ratio = _camera_data[i].f / _camera_data[qi].f;

     // if(ratio < 0.01 || ratio > 100)      continue;

     fs[qi] += _camera_data[i].f;

     rs[qi] += _camera_data[i].radial;

     qpnum[qi] += cpnum[i];

     qcnum[qi] += 1.0f;

   }


   // this seems not really matter..they will converge anyway

   for (int i = 0; i < _num_camera; ++i) {

     int qi = _focal_mask[i];

     if (qi == -1) continue;

     // float ratio = _camera_data[i].f / _camera_data[qi].f;

     // if(ratio < 0.01 || ratio > 100)      continue;

     _camera_data[i].f = fs[qi] / qcnum[qi];

     _camera_data[i].radial = rs[qi] / qcnum[qi];

   }


   std::fill(qlistw, qlistw + _num_camera * 2, 0);


   for (int i = 0; i < _num_imgpt_q; ++i) {

     int cidx = qmap[i * 2], qi = _focal_mask[cidx];

     Float wi = sqrt(qpnum[qi] / qcnum[qi]) * _weight_q;

     Float wr = (__use_radial_distortion ? wi * _camera_data[qi].f : 0.0);

     qmapw[i * 2] = wi;

     qmapw[i * 2 + 1] = wr;

     qlistw[cidx * 2] = wi;

     qlistw[cidx * 2 + 1] = wr;

   }

 }


 template <class Float>

 bool SparseBundleCPU<Float>::InitializeStorageForCG() {

   size_t total_sz = 0;

   int plen = GetParameterLength();  // q = 8m + 3n


   ALLOCATE_REQUIRED_DATA(_cuVectorJtE, plen, 1);

   ALLOCATE_REQUIRED_DATA(_cuVectorXK, plen, 1);

   ALLOCATE_REQUIRED_DATA(_cuVectorJJ, plen, 1);

   ALLOCATE_REQUIRED_DATA(_cuVectorZK, plen, 1);

   ALLOCATE_REQUIRED_DATA(_cuVectorPK, plen, 1);

   ALLOCATE_REQUIRED_DATA(_cuVectorRK, plen, 1);


   unsigned int cblock_len = (__use_radial_distortion ? 64 : 56);

   ALLOCATE_REQUIRED_DATA(_cuBlockPC, _num_camera * cblock_len + 6 * _num_point,

                          1);  // 64m + 12n

   ALLOCATE_REQUIRED_DATA(_cuVectorJX, _num_imgpt + _num_imgpt_q, 2);  // 2k

   ALLOCATE_OPTIONAL_DATA(_cuVectorSJ, plen, 1, __jacobian_normalize);


   __memory_usage += total_sz;

   if (__verbose_level > 1)

     std::cout << "Memory for Conjugate Gradient Solver:\t"

               << (total_sz / 1024 / 1024) << "MB\n";

   return true;

 }


 template <class Float>

 void SparseBundleCPU<Float>::PrepareJacobianNormalization() {

   if (!_cuVectorSJ.size()) return;


   if ((__jc_store_transpose || __jc_store_original) &&

       _cuJacobianPoint.size() && !__bundle_current_mode) {

     VectorF null;

     null.swap(_cuVectorSJ);

     EvaluateJacobians();

     null.swap(_cuVectorSJ);

     ComputeDiagonal(_cuVectorSJ);

     ComputeSQRT(_cuVectorSJ);

   } else {

     VectorF null;

     null.swap(_cuVectorSJ);

     EvaluateJacobians();

     ComputeBlockPC(0, true);

     null.swap(_cuVectorSJ);

     _cuVectorJJ.swap(_cuVectorSJ);

     ComputeRSQRT(_cuVectorSJ);

   }

 }


 template <class Float>

 void SparseBundleCPU<Float>::EvaluateJacobians() {

   if (__no_jacobian_store) return;

   if (__bundle_current_mode == BUNDLE_ONLY_MOTION && !__jc_store_original &&

       !__jc_store_transpose)

     return;


   ConfigBA::TimerBA timer(this, TIMER_FUNCTION_JJ, true);


   if (__jc_store_original || !__jc_store_transpose) {

     int fid = __jc_store_original

                   ? (__jc_store_transpose ? FUNC_JJ_JCO_JCT_JP : FUNC_JJ_JCO_JP)

                   : FUNC_JJ_JP;

     ComputeJacobian(

         _num_imgpt, _num_camera, _cuCameraData.begin(), _cuPointData.begin(),

         _cuJacobianCamera.begin(), _cuJacobianPoint.begin(),

         &_cuProjectionMap.front(), _cuVectorSJ.begin(), _cuMeasurements.begin(),

         __jc_store_transpose ? &_cuCameraMeasurementListT.front() : NULL,

         __fixed_intrinsics, __use_radial_distortion, false,

         _cuJacobianCameraT.begin(), __num_cpu_thread[fid]);

   } else {

     ComputeJacobian(_num_imgpt, _num_camera, _cuCameraData.begin(),

                     _cuPointData.begin(), _cuJacobianCameraT.begin(),

                     _cuJacobianPoint.begin(), &_cuProjectionMap.front(),

                     _cuVectorSJ.begin(), _cuMeasurements.begin(),

                     &_cuCameraMeasurementListT.front(), __fixed_intrinsics,

                     __use_radial_distortion, true, ((Float*)0),

                     __num_cpu_thread[FUNC_JJ_JCT_JP]);

   }

   ++__num_jacobian_eval;

 }


 template <class Float>

 void SparseBundleCPU<Float>::ComputeJtE(VectorF& E, VectorF& JtE, int mode) {

   ConfigBA::TimerBA timer(this, TIMER_FUNCTION_JTE, true);

   if (mode == 0) mode = __bundle_current_mode;


   if (__no_jacobian_store || (!__jc_store_original && !__jc_store_transpose)) {

     if (_cuJacobianPoint.size()) {

       ProgramCPU::ComputeJtE_(

           _num_imgpt, _num_camera, _num_point, E.begin(), JtE.begin(),

           _cuCameraData.begin(), _cuPointData.begin(), _cuMeasurements.begin(),

           &_cuProjectionMap.front(), &_cuCameraMeasurementMap.front(),

           &_cuCameraMeasurementList.front(), &_cuPointMeasurementMap.front(),

           _cuJacobianPoint.begin(), __fixed_intrinsics, __use_radial_distortion,

           mode, __num_cpu_thread[FUNC_JTE_]);


       if (_cuVectorSJ.size() && mode != 2)

         ProgramCPU::ComputeVXY(JtE, _cuVectorSJ, JtE, _num_camera * 8);

     } else {

       ProgramCPU::ComputeJtE_(_num_imgpt, _num_camera, _num_point, E.begin(),

                               JtE.begin(), _cuCameraData.begin(),

                               _cuPointData.begin(), _cuMeasurements.begin(),

                               &_cuProjectionMap.front(), __fixed_intrinsics,

                               __use_radial_distortion, mode);


       // if(_cuVectorSJ.size())  ProgramCPU::ComputeVXY(JtE, _cuVectorSJ, JtE);

       if (!_cuVectorSJ.size()) {

       } else if (mode == 2)

         ComputeVXY(JtE, _cuVectorSJ, JtE, _num_point * POINT_ALIGN,

                    _num_camera * 8);

       else if (mode == 1)

         ComputeVXY(JtE, _cuVectorSJ, JtE, _num_camera * 8);

       else

         ComputeVXY(JtE, _cuVectorSJ, JtE);

     }

   } else if (__jc_store_transpose) {

     ProgramCPU::ComputeJtE(

         _num_camera, _num_point, E.begin(), _cuJacobianCameraT.begin(),

         &_cuCameraMeasurementMap.front(), &_cuCameraMeasurementList.front(),

         _cuJacobianPoint.begin(), &_cuPointMeasurementMap.front(), JtE.begin(),

         true, mode, __num_cpu_thread[FUNC_JTEC_JCT],

         __num_cpu_thread[FUNC_JTEP]);

   } else {

     ProgramCPU::ComputeJtE(

         _num_camera, _num_point, E.begin(), _cuJacobianCamera.begin(),

         &_cuCameraMeasurementMap.front(), &_cuCameraMeasurementList.front(),

         _cuJacobianPoint.begin(), &_cuPointMeasurementMap.front(), JtE.begin(),

         false, mode, __num_cpu_thread[FUNC_JTEC_JCO],

         __num_cpu_thread[FUNC_JTEP]);

   }


   if (mode != 2 && _num_imgpt_q > 0) {

     ProgramCPU::ComputeJQtEC(_num_camera, E.begin() + 2 * _num_imgpt,

                              &_cuCameraQList.front(), _cuCameraQListW.begin(),

                              _cuVectorSJ.begin(), JtE.begin());

   }

 }


 template <class Float>

 void SparseBundleCPU<Float>::SaveBundleRecord(int iter, float res,

                                               float damping, float& g_norm,

                                               float& g_inf) {

   // do not really compute if parameter not specified...

   // for large dataset, it never converges..

   g_inf = __lm_check_gradient ? float(ComputeVectorMax(_cuVectorJtE)) : 0;

   g_norm =

       __save_gradient_norm ? float(ComputeVectorNorm(_cuVectorJtE)) : g_inf;

   ConfigBA::SaveBundleRecord(iter, res, damping, g_norm, g_inf);

 }


 template <class Float>

 float SparseBundleCPU<Float>::EvaluateProjection(VectorF& cam, VectorF& point,

                                                  VectorF& proj) {

   ++__num_projection_eval;

   ConfigBA::TimerBA timer(this, TIMER_FUNCTION_PJ, true);

   ComputeProjection(_num_imgpt, cam.begin(), point.begin(),

                     _cuMeasurements.begin(), &_cuProjectionMap.front(),

                     proj.begin(), __use_radial_distortion,

                     __num_cpu_thread[FUNC_PJ]);

   if (_num_imgpt_q > 0)

     ComputeProjectionQ(_num_imgpt_q, cam.begin(), &_cuCameraQMap.front(),

                        _cuCameraQMapW.begin(), proj.begin() + 2 * _num_imgpt);

   return (float)ComputeVectorNorm(proj, __num_cpu_thread[FUNC_VS]);

 }


 template <class Float>

 float SparseBundleCPU<Float>::EvaluateProjectionX(VectorF& cam, VectorF& point,

                                                   VectorF& proj) {

   ++__num_projection_eval;

   ConfigBA::TimerBA timer(this, TIMER_FUNCTION_PJ, true);

   ComputeProjectionX(_num_imgpt, cam.begin(), point.begin(),

                      _cuMeasurements.begin(), &_cuProjectionMap.front(),

                      proj.begin(), __use_radial_distortion,

                      __num_cpu_thread[FUNC_PJ]);

   if (_num_imgpt_q > 0)

     ComputeProjectionQ(_num_imgpt_q, cam.begin(), &_cuCameraQMap.front(),

                        _cuCameraQMapW.begin(), proj.begin() + 2 * _num_imgpt);

   return (float)ComputeVectorNorm(proj, __num_cpu_thread[FUNC_VS]);

 }


 template <class Float>

 void SparseBundleCPU<Float>::ComputeJX(VectorF& X, VectorF& JX, int mode) {

   ConfigBA::TimerBA timer(this, TIMER_FUNCTION_JX, true);

   if (__no_jacobian_store || (__multiply_jx_usenoj && mode != 2) ||

       !__jc_store_original) {

     ProgramCPU::ComputeJX_(

         _num_imgpt, _num_camera, X.begin(), JX.begin(), _cuCameraData.begin(),

         _cuPointData.begin(), _cuMeasurements.begin(), _cuVectorSJ.begin(),

         &_cuProjectionMap.front(), __fixed_intrinsics, __use_radial_distortion,

         mode, __num_cpu_thread[FUNC_JX_]);

   } else {

     ProgramCPU::ComputeJX(_num_imgpt, _num_camera, X.begin(),

                           _cuJacobianCamera.begin(), _cuJacobianPoint.begin(),

                           &_cuProjectionMap.front(), JX.begin(), mode,

                           __num_cpu_thread[FUNC_JX]);

   }


   if (_num_imgpt_q > 0 && mode != 2) {

     ProgramCPU::ComputeJQX(_num_imgpt_q, X.begin(), &_cuCameraQMap.front(),

                            _cuCameraQMapW.begin(), _cuVectorSJ.begin(),

                            JX.begin() + 2 * _num_imgpt);

   }

 }


 template <class Float>

 void SparseBundleCPU<Float>::ComputeBlockPC(float lambda, bool dampd) {

   ConfigBA::TimerBA timer(this, TIMER_FUNCTION_BC, true);


   if (__no_jacobian_store || (!__jc_store_original && !__jc_store_transpose &&

                               __bundle_current_mode != 2)) {

     ComputeDiagonalBlock_(

         lambda, dampd, _cuCameraData, _cuPointData, _cuMeasurements,

         _cuProjectionMap, _cuVectorSJ, _cuCameraQListW, _cuVectorJJ, _cuBlockPC,

         __fixed_intrinsics, __use_radial_distortion, __bundle_current_mode);

   } else if (__jc_store_transpose) {

     ComputeDiagonalBlock(

         _num_camera, _num_point, lambda, dampd, _cuJacobianCameraT.begin(),

         &_cuCameraMeasurementMap.front(), _cuJacobianPoint.begin(),

         &_cuPointMeasurementMap.front(), &_cuCameraMeasurementList.front(),

         _cuVectorSJ.begin(), _cuCameraQListW.begin(), _cuVectorJJ.begin(),

         _cuBlockPC.begin(), __use_radial_distortion, true,

         __num_cpu_thread[FUNC_BCC_JCT], __num_cpu_thread[FUNC_BCP],

         __bundle_current_mode);

   } else {

     ComputeDiagonalBlock(

         _num_camera, _num_point, lambda, dampd, _cuJacobianCamera.begin(),

         &_cuCameraMeasurementMap.front(), _cuJacobianPoint.begin(),

         &_cuPointMeasurementMap.front(), &_cuCameraMeasurementList.front(),

         _cuVectorSJ.begin(), _cuCameraQListW.begin(), _cuVectorJJ.begin(),

         _cuBlockPC.begin(), __use_radial_distortion, false,

         __num_cpu_thread[FUNC_BCC_JCO], __num_cpu_thread[FUNC_BCP],

         __bundle_current_mode);

   }

 }


 template <class Float>

 void SparseBundleCPU<Float>::ApplyBlockPC(VectorF& v, VectorF& pv, int mode) {

   ConfigBA::TimerBA timer(this, TIMER_FUNCTION_MP, true);

   MultiplyBlockConditioner(_num_camera, _num_point, _cuBlockPC.begin(),

                            v.begin(), pv.begin(), __use_radial_distortion, mode,

                            __num_cpu_thread[FUNC_MPC],

                            __num_cpu_thread[FUNC_MPP]);

 }


 template <class Float>

 void SparseBundleCPU<Float>::ComputeDiagonal(VectorF& JJ) {

   ConfigBA::TimerBA timer(this, TIMER_FUNCTION_DD, true);

   if (__no_jacobian_store) {

   } else if (__jc_store_transpose) {

     ProgramCPU::ComputeDiagonal(

         _cuJacobianCameraT, _cuCameraMeasurementMap, _cuJacobianPoint,

         _cuPointMeasurementMap, _cuCameraMeasurementList,

         _cuCameraQListW.begin(), JJ, true, __use_radial_distortion);

   } else if (__jc_store_original) {

     ProgramCPU::ComputeDiagonal(

         _cuJacobianCamera, _cuCameraMeasurementMap, _cuJacobianPoint,

         _cuPointMeasurementMap, _cuCameraMeasurementList,

         _cuCameraQListW.begin(), JJ, false, __use_radial_distortion);

   }

 }


 template <class Float>

 void SparseBundleCPU<Float>::NormalizeDataF() {

   int incompatible_radial_distortion = 0;

   _cuMeasurements.resize(_num_imgpt * 2);

   if (__focal_normalize) {

     if (__focal_scaling == 1.0f) {

       //------------------------------------------------------------------

       vector<float> focals(_num_camera);

       for (int i = 0; i < _num_camera; ++i) focals[i] = _camera_data[i].f;

       std::nth_element(focals.begin(), focals.begin() + _num_camera / 2,

                        focals.end());

       float median_focal_length = focals[_num_camera / 2];

       __focal_scaling = __data_normalize_median / median_focal_length;

       Float radial_factor = median_focal_length * median_focal_length * 4.0f;


       for (int i = 0; i < _num_imgpt * 2; ++i) {

         _cuMeasurements[i] = Float(_imgpt_data[i] * __focal_scaling);

       }

       for (int i = 0; i < _num_camera; ++i) {

         _camera_data[i].f *= __focal_scaling;

         if (!__use_radial_distortion) {

         } else if (__reset_initial_distortion) {

           _camera_data[i].radial = 0;

         } else if (_camera_data[i].distortion_type != __use_radial_distortion) {

           incompatible_radial_distortion++;

           _camera_data[i].radial = 0;

         } else if (__use_radial_distortion == -1) {

           _camera_data[i].radial *= radial_factor;

         }

       }

       if (__verbose_level > 2)

         std::cout << "Focal length normalized by " << __focal_scaling << '\n';

       __reset_initial_distortion = false;

     }

   } else {

     if (__use_radial_distortion) {

       for (int i = 0; i < _num_camera; ++i) {

         if (__reset_initial_distortion) {

           _camera_data[i].radial = 0;

         } else if (_camera_data[i].distortion_type != __use_radial_distortion) {

           _camera_data[i].radial = 0;

           incompatible_radial_distortion++;

         }

       }

       __reset_initial_distortion = false;

     }

     std::copy(_imgpt_data, _imgpt_data + _cuMeasurements.size(),

               _cuMeasurements.begin());

   }


   if (incompatible_radial_distortion) {

     std::cout << "WARNING: incompatible radial distortion input; reset to 0;\n";

   }

 }


 template <class Float>

 void SparseBundleCPU<Float>::NormalizeDataD() {

   if (__depth_scaling == 1.0f) {

     const float dist_bound = 1.0f;

     vector<float> oz(_num_imgpt);

     vector<float> cpdist1(_num_camera, dist_bound);

     vector<float> cpdist2(_num_camera, -dist_bound);

     vector<int> camnpj(_num_camera, 0), cambpj(_num_camera, 0);

     int bad_point_count = 0;

     for (int i = 0; i < _num_imgpt; ++i) {

       int cmidx = _camera_idx[i];

       CameraT* cam = _camera_data + cmidx;

       float* rz = cam->m[2];

       float* x = _point_data + 4 * _point_idx[i];

       oz[i] = (rz[0] * x[0] + rz[1] * x[1] + rz[2] * x[2] + cam->t[2]);


       // points behind camera may causes big problem

       float ozr = oz[i] / cam->t[2];

       if (fabs(ozr) < __depth_check_epsilon) {

         bad_point_count++;

         float px = cam->f * (cam->m[0][0] * x[0] + cam->m[0][1] * x[1] +

                              cam->m[0][2] * x[2] + cam->t[0]);

         float py = cam->f * (cam->m[1][0] * x[0] + cam->m[1][1] * x[1] +

                              cam->m[1][2] * x[2] + cam->t[1]);

         float mx = _imgpt_data[i * 2], my = _imgpt_data[2 * i + 1];

         bool checkx = fabs(mx) > fabs(my);

         if ((checkx && px * oz[i] * mx < 0 && fabs(mx) > 64) ||

             (!checkx && py * oz[i] * my < 0 && fabs(my) > 64)) {

           if (__verbose_level > 3)

             std::cout << "Warning: proj of #" << cmidx

                       << " on the wrong side, oz = " << oz[i] << " ("

                       << (px / oz[i]) << ',' << (py / oz[i]) << ") (" << mx

                       << ',' << my << ")\n";

           if (oz[i] > 0)

             cpdist2[cmidx] = 0;

           else

             cpdist1[cmidx] = 0;

         }

         if (oz[i] >= 0)

           cpdist1[cmidx] = std::min(cpdist1[cmidx], oz[i]);

         else

           cpdist2[cmidx] = std::max(cpdist2[cmidx], oz[i]);

       }

       if (oz[i] < 0) {

         __num_point_behind++;

         cambpj[cmidx]++;

       }

       camnpj[cmidx]++;

     }

     if (bad_point_count > 0 && __depth_degeneracy_fix) {

       if (!__focal_normalize || !__depth_normalize)

         std::cout << "Enable data normalization on degeneracy\n";

       __focal_normalize = true;

       __depth_normalize = true;

     }

     if (__depth_normalize) {

       std::nth_element(oz.begin(), oz.begin() + _num_imgpt / 2, oz.end());

       float oz_median = oz[_num_imgpt / 2];

       float shift_min = std::min(oz_median * 0.001f, 1.0f);

       float dist_threshold = shift_min * 0.1f;

       __depth_scaling = (1.0 / oz_median) / __data_normalize_median;

       if (__verbose_level > 2)

         std::cout << "Depth normalized by " << __depth_scaling << " ("

                   << oz_median << ")\n";


       for (int i = 0; i < _num_camera; ++i) {

         // move the camera a little bit?

         if (!__depth_degeneracy_fix) {

         } else if ((cpdist1[i] < dist_threshold ||

                     cpdist2[i] > -dist_threshold)) {

           float shift_epsilon = fabs(_camera_data[i].t[2] * FLT_EPSILON);

           float shift = std::max(shift_min, shift_epsilon);

           bool boths =

               cpdist1[i] < dist_threshold && cpdist2[i] > -dist_threshold;

           _camera_data[i].t[2] += shift;

           if (__verbose_level > 3)

             std::cout << "Adjust C" << std::setw(5) << i << " by "

                       << std::setw(12) << shift << " [B" << std::setw(2)

                       << cambpj[i] << "/" << std::setw(5) << camnpj[i] << "] ["

                       << (boths ? 'X' : ' ') << "][" << cpdist1[i] << ", "

                       << cpdist2[i] << "]\n";

           __num_camera_modified++;

         }

         _camera_data[i].t[0] *= __depth_scaling;

         _camera_data[i].t[1] *= __depth_scaling;

         _camera_data[i].t[2] *= __depth_scaling;

       }

       for (int i = 0; i < _num_point; ++i) {

         _point_data[4 * i + 0] *= __depth_scaling;

         _point_data[4 * i + 1] *= __depth_scaling;

         _point_data[4 * i + 2] *= __depth_scaling;

       }

     }

     if (__num_point_behind > 0)

       std::cout << "WARNING: " << __num_point_behind

                 << " points are behind cameras.\n";

     if (__num_camera_modified > 0)

       std::cout << "WARNING: " << __num_camera_modified

                 << " camera moved to avoid degeneracy.\n";

   }

 }


 template <class Float>

 void SparseBundleCPU<Float>::DenormalizeData() {

   if (__focal_normalize && __focal_scaling != 1.0f) {

     float squared_focal_factor = (__focal_scaling * __focal_scaling);

     for (int i = 0; i < _num_camera; ++i) {

       _camera_data[i].f /= __focal_scaling;

       if (__use_radial_distortion == -1)

         _camera_data[i].radial *= squared_focal_factor;

       _camera_data[i].distortion_type = __use_radial_distortion;

     }

     _projection_sse /= squared_focal_factor;

     __focal_scaling = 1.0f;

   } else if (__use_radial_distortion) {

     for (int i = 0; i < _num_camera; ++i)

       _camera_data[i].distortion_type = __use_radial_distortion;

   }


   if (__depth_normalize && __depth_scaling != 1.0f) {

     for (int i = 0; i < _num_camera; ++i) {

       _camera_data[i].t[0] /= __depth_scaling;

       _camera_data[i].t[1] /= __depth_scaling;

       _camera_data[i].t[2] /= __depth_scaling;

     }

     for (int i = 0; i < _num_point; ++i) {

       _point_data[4 * i + 0] /= __depth_scaling;

       _point_data[4 * i + 1] /= __depth_scaling;

       _point_data[4 * i + 2] /= __depth_scaling;

     }

     __depth_scaling = 1.0f;

   }

 }


 template <class Float>

 int SparseBundleCPU<Float>::SolveNormalEquationPCGX(float lambda) {

   //----------------------------------------------------------

   //(Jt * J + lambda * diag(Jt * J)) X = Jt * e

   //-------------------------------------------------------------

   TimerBA timer(this, TIMER_CG_ITERATION);

   __recent_cg_status = ' ';


   // diagonal for jacobian preconditioning...

   int plen = GetParameterLength();

   VectorF null;

   VectorF& VectorDP = __lm_use_diagonal_damp ? _cuVectorJJ : null;  // diagonal

   ComputeBlockPC(lambda, __lm_use_diagonal_damp);


   // B = [BC 0 ; 0 BP]

   // m = [mc 0; 0 mp];

   // A x= BC * x - JcT * Jp * mp * JpT * Jc * x

   //   = JcT * Jc x + lambda * D * x + ........


   VectorF r;

   r.set(_cuVectorRK.data(), 8 * _num_camera);

   VectorF p;

   p.set(_cuVectorPK.data(), 8 * _num_camera);

   VectorF z;

   z.set(_cuVectorZK.data(), 8 * _num_camera);

   VectorF x;

   x.set(_cuVectorXK.data(), 8 * _num_camera);

   VectorF d;

   d.set(VectorDP.data(), 8 * _num_camera);


   VectorF& u = _cuVectorRK;

   VectorF& v = _cuVectorPK;

   VectorF up;

   up.set(u.data() + 8 * _num_camera, 3 * _num_point);

   VectorF vp;

   vp.set(v.data() + 8 * _num_camera, 3 * _num_point);

   VectorF uc;

   uc.set(z.data(), 8 * _num_camera);


   VectorF& e = _cuVectorJX;

   VectorF& e2 = _cuImageProj;


   ApplyBlockPC(_cuVectorJtE, u, 2);

   ComputeJX(u, e, 2);

   ComputeJtE(e, uc, 1);

   ComputeSAXPY(Float(-1.0f), uc, _cuVectorJtE, r);  // r

   ApplyBlockPC(r, p, 1);  // z = p = M r


   float_t rtz0 = (float_t)ComputeVectorDot(r, p);  // r(0)' * z(0)

   ComputeJX(p, e, 1);  // Jc * x

   ComputeJtE(e, u, 2);  // JpT * jc * x

   ApplyBlockPC(u, v, 2);

   float_t qtq0 =

       (float_t)ComputeVectorNorm(e, __num_cpu_thread[FUNC_VS]);  // q(0)' * q(0)

   float_t pdp0 = (float_t)ComputeVectorNormW(p, d);  // p(0)' * DDD * p(0)

   float_t uv0 = (float_t)ComputeVectorDot(up, vp);

   float_t alpha0 = rtz0 / (qtq0 + lambda * pdp0 - uv0);


   if (__verbose_cg_iteration)

     std::cout << " --0,\t alpha = " << alpha0

               << ", t = " << BundleTimerGetNow(TIMER_CG_ITERATION) << "\n";

   if (!std::isfinite(alpha0)) {

     return 0;

   }

   if (alpha0 == 0) {

     __recent_cg_status = 'I';

     return 1;

   }


   ComputeSAX((Float)alpha0, p, x);  // x(k+1) = x(k) + a(k) * p(k)

   ComputeJX(v, e2, 2);  //                          //Jp * mp * JpT * JcT * p

   ComputeSAXPY(Float(-1.0f), e2, e, e, __num_cpu_thread[FUNC_VV]);

   ComputeJtE(e, uc, 1);  // JcT * ....

   ComputeSXYPZ((Float)lambda, d, p, uc, uc);

   ComputeSAXPY((Float)-alpha0, uc, r, r);  // r(k + 1) = r(k) - a(k) * A * pk


   float_t rtzk = rtz0, rtz_min = rtz0, betak;

   int iteration = 1;

   ++__num_cg_iteration;


   while (true) {

     ApplyBlockPC(r, z, 1);


     float_t rtzp = rtzk;

     rtzk = (float_t)ComputeVectorDot(

         r, z);  //[r(k + 1) = M^(-1) * z(k + 1)] * z(k+1)

     float_t rtz_ratio = sqrt(fabs(rtzk / rtz0));

     if (rtz_ratio < __cg_norm_threshold) {

       if (__recent_cg_status == ' ')

         __recent_cg_status = iteration < std::min(10, __cg_min_iteration)

                                  ? '0' + iteration

                                  : 'N';

       if (iteration >= __cg_min_iteration) break;

     }

     betak = rtzk / rtzp;  // beta

     rtz_min = std::min(rtz_min, rtzk);


     ComputeSAXPY((Float)betak, p, z, p);  // p(k) = z(k) + b(k) * p(k - 1)

     ComputeJX(p, e, 1);  // Jc * p

     ComputeJtE(e, u, 2);  // JpT * jc * p

     ApplyBlockPC(u, v, 2);


     float_t qtqk =

         (float_t)ComputeVectorNorm(e, __num_cpu_thread[FUNC_VS]);  // q(k)' q(k)

     float_t pdpk = (float_t)ComputeVectorNormW(p, d);  // p(k)' * DDD * p(k)

     float_t uvk = (float_t)ComputeVectorDot(up, vp);

     float_t alphak = rtzk / (qtqk + lambda * pdpk - uvk);


     if (__verbose_cg_iteration)

       std::cout << " --" << iteration << ",\t alpha= " << alphak

                 << ", rtzk/rtz0 = " << rtz_ratio

                 << ", t = " << BundleTimerGetNow(TIMER_CG_ITERATION) << "\n";


     if (!std::isfinite(alphak) || rtz_ratio > __cg_norm_guard) {

       __recent_cg_status = 'X';

       break;

     }  // something doesn't converge..


     ComputeSAXPY((Float)alphak, p, x, x);  // x(k+1) = x(k) + a(k) * p(k)


     ++iteration;

     ++__num_cg_iteration;

     if (iteration >= std::min(__cg_max_iteration, plen)) break;


     ComputeJX(v, e2, 2);  //                          //Jp * mp * JpT * JcT * p

     ComputeSAXPY((Float)-1.0f, e2, e, e, __num_cpu_thread[FUNC_VV]);

     ComputeJtE(e, uc, 1);  // JcT * ....

     ComputeSXYPZ((Float)lambda, d, p, uc, uc);

     ComputeSAXPY((Float)-alphak, uc, r, r);  // r(k + 1) = r(k) - a(k) * A * pk

   }


   ComputeJX(x, e, 1);

   ComputeJtE(e, u, 2);

   VectorF jte_p;

   jte_p.set(_cuVectorJtE.data() + 8 * _num_camera, _num_point * 3);

   ComputeSAXPY((Float)-1.0f, up, jte_p, vp);

   ApplyBlockPC(v, _cuVectorXK, 2);

   return iteration;

 }


 template <class Float>

 int SparseBundleCPU<Float>::SolveNormalEquationPCGB(float lambda) {

   //----------------------------------------------------------

   //(Jt * J + lambda * diag(Jt * J)) X = Jt * e

   //-------------------------------------------------------------

   TimerBA timer(this, TIMER_CG_ITERATION);

   __recent_cg_status = ' ';


   // diagonal for jacobian preconditioning...

   int plen = GetParameterLength();

   VectorF null;

   VectorF& VectorDP = __lm_use_diagonal_damp ? _cuVectorJJ : null;  // diagonal

   VectorF& VectorQK = _cuVectorZK;  // temporary

   ComputeBlockPC(lambda, __lm_use_diagonal_damp);


   ApplyBlockPC(_cuVectorJtE,

                _cuVectorPK);  // z(0) = p(0) = M * r(0)//r(0) = Jt * e

   ComputeJX(_cuVectorPK, _cuVectorJX);  // q(0) = J * p(0)


   float_t rtz0 =

       (float_t)ComputeVectorDot(_cuVectorJtE, _cuVectorPK);  // r(0)' * z(0)

   float_t qtq0 = (float_t)ComputeVectorNorm(

       _cuVectorJX, __num_cpu_thread[FUNC_VS]);  // q(0)' * q(0)

   float_t ptdp0 =

       (float_t)ComputeVectorNormW(_cuVectorPK, VectorDP);  // p(0)' * DDD * p(0)

   float_t alpha0 = rtz0 / (qtq0 + lambda * ptdp0);


   if (__verbose_cg_iteration)

     std::cout << " --0,\t alpha = " << alpha0

               << ", t = " << BundleTimerGetNow(TIMER_CG_ITERATION) << "\n";

   if (!std::isfinite(alpha0)) {

     return 0;

   }

   if (alpha0 == 0) {

     __recent_cg_status = 'I';

     return 1;

   }


   ComputeSAX((Float)alpha0, _cuVectorPK,

              _cuVectorXK);  // x(k+1) = x(k) + a(k) * p(k)

   ComputeJtE(_cuVectorJX, VectorQK);  // Jt * (J * p0)


   ComputeSXYPZ((Float)lambda, VectorDP, _cuVectorPK, VectorQK,

                VectorQK);  // Jt * J * p0 + lambda * DDD * p0


   ComputeSAXPY(

       (Float)-alpha0, VectorQK, _cuVectorJtE,

       _cuVectorRK);  // r(k+1) = r(k) - a(k) * (Jt * q(k)  + DDD * p(k)) ;


   float_t rtzk = rtz0, rtz_min = rtz0, betak;

   int iteration = 1;

   ++__num_cg_iteration;


   while (true) {

     ApplyBlockPC(_cuVectorRK, _cuVectorZK);


     float_t rtzp = rtzk;

     rtzk = (float_t)ComputeVectorDot(

         _cuVectorRK, _cuVectorZK);  //[r(k + 1) = M^(-1) * z(k + 1)] * z(k+1)

     float_t rtz_ratio = sqrt(fabs(rtzk / rtz0));

     if (rtz_ratio < __cg_norm_threshold) {

       if (__recent_cg_status == ' ')

         __recent_cg_status = iteration < std::min(10, __cg_min_iteration)

                                  ? '0' + iteration

                                  : 'N';

       if (iteration >= __cg_min_iteration) break;

     }

     betak = rtzk / rtzp;  // beta

     rtz_min = std::min(rtz_min, rtzk);


     ComputeSAXPY((Float)betak, _cuVectorPK, _cuVectorZK,

                  _cuVectorPK);  // p(k) = z(k) + b(k) * p(k - 1)

     ComputeJX(_cuVectorPK, _cuVectorJX);  // q(k) = J * p(k)


     float_t qtqk = (float_t)ComputeVectorNorm(

         _cuVectorJX, __num_cpu_thread[FUNC_VS]);  // q(k)' q(k)

     float_t ptdpk = (float_t)ComputeVectorNormW(

         _cuVectorPK, VectorDP);  // p(k)' * DDD * p(k)


     float_t alphak = rtzk / (qtqk + lambda * ptdpk);


     if (__verbose_cg_iteration)

       std::cout << " --" << iteration << ",\t alpha= " << alphak

                 << ", rtzk/rtz0 = " << rtz_ratio

                 << ", t = " << BundleTimerGetNow(TIMER_CG_ITERATION) << "\n";


     if (!std::isfinite(alphak) || rtz_ratio > __cg_norm_guard) {

       __recent_cg_status = 'X';

       break;

     }  // something doesn't converge..


     ComputeSAXPY((Float)alphak, _cuVectorPK, _cuVectorXK,

                  _cuVectorXK);  // x(k+1) = x(k) + a(k) * p(k)


     ++iteration;

     ++__num_cg_iteration;

     if (iteration >= std::min(__cg_max_iteration, plen)) break;


     if (__cg_recalculate_freq > 0 && iteration % __cg_recalculate_freq == 0) {

       ComputeJX(_cuVectorXK, _cuVectorJX);

       ComputeJtE(_cuVectorJX, VectorQK);

       ComputeSXYPZ((Float)lambda, VectorDP, _cuVectorXK, VectorQK, VectorQK);

       ComputeSAXPY((Float)-1.0f, VectorQK, _cuVectorJtE, _cuVectorRK);

     } else {

       ComputeJtE(_cuVectorJX, VectorQK);

       ComputeSXYPZ((Float)lambda, VectorDP, _cuVectorPK, VectorQK,

                    VectorQK);  //

       ComputeSAXPY(

           (Float)-alphak, VectorQK, _cuVectorRK,

           _cuVectorRK);  // r(k+1) = r(k) - a(k) * (Jt * q(k)  + DDD * p(k)) ;

     }

   }

   return iteration;

 }


 template <class Float>

 int SparseBundleCPU<Float>::SolveNormalEquation(float lambda) {

   if (__bundle_current_mode == BUNDLE_ONLY_MOTION) {

     ComputeBlockPC(lambda, __lm_use_diagonal_damp);

     ApplyBlockPC(_cuVectorJtE, _cuVectorXK, 1);

     return 1;

   } else if (__bundle_current_mode == BUNDLE_ONLY_STRUCTURE) {

     ComputeBlockPC(lambda, __lm_use_diagonal_damp);

     ApplyBlockPC(_cuVectorJtE, _cuVectorXK, 2);

     return 1;

   } else {

     return __cg_schur_complement ? SolveNormalEquationPCGX(lambda)

                                  : SolveNormalEquationPCGB(lambda);

   }

 }


 template <class Float>

 void SparseBundleCPU<Float>::DumpCooJacobian() {

   ofstream jo("j.txt");

   int cn = __use_radial_distortion ? 8 : 7;

   int width = cn * _num_camera + 3 * _num_point;

   jo << "%%MatrixMarket matrix coordinate real general\n";

   jo << (_num_imgpt * 2) << " " << width << " " << (cn + 3) * _num_imgpt * 2

      << '\n';

   for (int i = 0; i < _num_imgpt; ++i) {

     int ci = _camera_idx[i];

     int pi = _point_idx[i];

     int row = i * 2 + 1;

     // Float * jc = _cuJacobianCamera.data() + i * 16;

     // Float * jp = _cuJacobianPoint.data() + i * 6;

     int idx1 = ci * cn;

     int idx2 = _num_camera * cn + 3 * pi;


     for (int k = 0; k < 2; ++k, ++row) {

       for (int j = 0; j < cn; ++j) {

         jo << row << " " << (idx1 + j + 1) << " 1\n";

       }

       for (int j = 0; j < 3; ++j) {

         jo << row << " " << (idx2 + j + 1) << " 1\n";

       }

     }

   }


   ofstream jt("jt.txt");

   jt << "%%MatrixMarket matrix coordinate real general\n";

   jt << width << " " << (_num_imgpt * 2) << " " << (cn + 3) * _num_imgpt * 2

      << '\n';


   int* lisc = &_cuCameraMeasurementList[0];

   int* mapc = &_cuCameraMeasurementMap[0];

   int* mapp = &_cuPointMeasurementMap[0];


   for (int i = 0; i < _num_camera; ++i) {

     int c0 = mapc[i];

     int c1 = mapc[i + 1];

     for (int k = 0; k < cn; ++k) {

       int row = i * cn + k + 1;

       for (int j = c0; j < c1; ++j)

         jt << row << " " << (lisc[j] * 2 + 1) << " 1\n" << row << " "

            << (2 * lisc[j] + 2) << " 1\n";

       ;

     }

   }

   for (int i = 0; i < _num_point; ++i) {

     int p0 = mapp[i];

     int p1 = mapp[i + 1];

     for (int k = 0; k < 3; ++k) {

       int row = i * 3 + _num_camera * cn + k + 1;

       for (int j = p0; j < p1; ++j)

         jt << row << " " << (2 * j + 1) << " 1\n" << row << " " << (2 * j + 2)

            << " 1\n";

       ;

     }

   }

 }


 template <class Float>

 void SparseBundleCPU<Float>::RunTestIterationLM(bool reduced) {

   EvaluateProjection(_cuCameraData, _cuPointData, _cuImageProj);

   EvaluateJacobians();

   ComputeJtE(_cuImageProj, _cuVectorJtE);

   if (reduced)

     SolveNormalEquationPCGX(__lm_initial_damp);

   else

     SolveNormalEquationPCGB(__lm_initial_damp);

   UpdateCameraPoint(_cuVectorZK, _cuImageProj);

   ComputeVectorDot(_cuVectorXK, _cuVectorJtE);

   ComputeJX(_cuVectorXK, _cuVectorJX);

   ComputeVectorNorm(_cuVectorJX, __num_cpu_thread[FUNC_VS]);

 }


 template <class Float>

 float SparseBundleCPU<Float>::UpdateCameraPoint(VectorF& dx,

                                                 VectorF& cuImageTempProj) {

   ConfigBA::TimerBA timer(this, TIMER_FUNCTION_UP, true);


   if (__bundle_current_mode == BUNDLE_ONLY_MOTION) {

     if (__jacobian_normalize)

       ComputeVXY(_cuVectorXK, _cuVectorSJ, dx, 8 * _num_camera);

     ProgramCPU::UpdateCameraPoint(

         _num_camera, _cuCameraData, _cuPointData, dx, _cuCameraDataEX,

         _cuPointDataEX, __bundle_current_mode, __num_cpu_thread[FUNC_VV]);

     return EvaluateProjection(_cuCameraDataEX, _cuPointData, cuImageTempProj);

   } else if (__bundle_current_mode == BUNDLE_ONLY_STRUCTURE) {

     if (__jacobian_normalize)

       ComputeVXY(_cuVectorXK, _cuVectorSJ, dx, _num_point * POINT_ALIGN,

                  _num_camera * 8);

     ProgramCPU::UpdateCameraPoint(

         _num_camera, _cuCameraData, _cuPointData, dx, _cuCameraDataEX,

         _cuPointDataEX, __bundle_current_mode, __num_cpu_thread[FUNC_VV]);

     return EvaluateProjection(_cuCameraData, _cuPointDataEX, cuImageTempProj);

   } else {

     if (__jacobian_normalize) ComputeVXY(_cuVectorXK, _cuVectorSJ, dx);

     ProgramCPU::UpdateCameraPoint(

         _num_camera, _cuCameraData, _cuPointData, dx, _cuCameraDataEX,

         _cuPointDataEX, __bundle_current_mode, __num_cpu_thread[FUNC_VV]);

     return EvaluateProjection(_cuCameraDataEX, _cuPointDataEX, cuImageTempProj);

   }

 }


 template <class Float>

 float SparseBundleCPU<Float>::SaveUpdatedSystem(float residual_reduction,

                                                 float dx_sqnorm,

                                                 float damping) {

   float expected_reduction;

   if (__bundle_current_mode == BUNDLE_ONLY_MOTION) {

     VectorF xk;

     xk.set(_cuVectorXK.data(), 8 * _num_camera);

     VectorF jte;

     jte.set(_cuVectorJtE.data(), 8 * _num_camera);

     float dxtg = (float)ComputeVectorDot(xk, jte);

     if (__lm_use_diagonal_damp) {

       VectorF jj;

       jj.set(_cuVectorJJ.data(), 8 * _num_camera);

       float dq = (float)ComputeVectorNormW(xk, jj);

       expected_reduction = damping * dq + dxtg;

     } else {

       expected_reduction = damping * dx_sqnorm + dxtg;

     }

     _cuCameraData.swap(_cuCameraDataEX);

   } else if (__bundle_current_mode == BUNDLE_ONLY_STRUCTURE) {

     VectorF xk;

     xk.set(_cuVectorXK.data() + 8 * _num_camera, POINT_ALIGN * _num_point);

     VectorF jte;

     jte.set(_cuVectorJtE.data() + 8 * _num_camera, POINT_ALIGN * _num_point);

     float dxtg = (float)ComputeVectorDot(xk, jte);

     if (__lm_use_diagonal_damp) {

       VectorF jj;

       jj.set(_cuVectorJJ.data() + 8 * _num_camera, POINT_ALIGN * _num_point);

       float dq = (float)ComputeVectorNormW(xk, jj);

       expected_reduction = damping * dq + dxtg;

     } else {

       expected_reduction = damping * dx_sqnorm + dxtg;

     }

     _cuPointData.swap(_cuPointDataEX);

   } else {

     float dxtg = (float)ComputeVectorDot(_cuVectorXK, _cuVectorJtE);

     if (__accurate_gain_ratio) {

       ComputeJX(_cuVectorXK, _cuVectorJX);

       float njx =

           (float)ComputeVectorNorm(_cuVectorJX, __num_cpu_thread[FUNC_VS]);

       expected_reduction = 2.0f * dxtg - njx;


       // could the expected reduction be negative??? not sure

       if (expected_reduction <= 0)

         expected_reduction = 0.001f * residual_reduction;

     } else if (__lm_use_diagonal_damp) {

       float dq = (float)ComputeVectorNormW(_cuVectorXK, _cuVectorJJ);

       expected_reduction = damping * dq + dxtg;

     } else {

       expected_reduction = damping * dx_sqnorm + dxtg;

     }

     _cuCameraData.swap(_cuCameraDataEX);

     _cuPointData.swap(_cuPointDataEX);

   }

   return float(residual_reduction / expected_reduction);

 }


 template <class Float>

 void SparseBundleCPU<Float>::AdjustBundleAdjsutmentMode() {

   if (__bundle_current_mode == BUNDLE_ONLY_MOTION) {

     _cuJacobianPoint.resize(0);

   } else if (__bundle_current_mode == BUNDLE_ONLY_STRUCTURE) {

     _cuJacobianCamera.resize(0);

     _cuJacobianCameraT.resize(0);

   }

 }


 template <class Float>

 float SparseBundleCPU<Float>::EvaluateDeltaNorm() {

   if (__bundle_current_mode == BUNDLE_ONLY_MOTION) {

     VectorF temp;

     temp.set(_cuVectorXK.data(), 8 * _num_camera);

     return (float)ComputeVectorNorm(temp);

   } else if (__bundle_current_mode == BUNDLE_ONLY_STRUCTURE) {

     VectorF temp;

     temp.set(_cuVectorXK.data() + 8 * _num_camera, POINT_ALIGN * _num_point);

     return (float)ComputeVectorNorm(temp);

   } else {

     return (float)ComputeVectorNorm(_cuVectorXK);

   }

 }


 template <class Float>

 void SparseBundleCPU<Float>::NonlinearOptimizeLM() {

   TimerBA timer(this, TIMER_OPTIMIZATION);


   float mse_convert_ratio =

       1.0f / (_num_imgpt * __focal_scaling * __focal_scaling);

   float error_display_ratio = __verbose_sse ? _num_imgpt : 1.0f;

   const int edwidth = __verbose_sse ? 12 : 8;

   _projection_sse =

       EvaluateProjection(_cuCameraData, _cuPointData, _cuImageProj);

   __initial_mse = __final_mse = _projection_sse * mse_convert_ratio;


   // compute jacobian diagonals for normalization

   if (__jacobian_normalize) PrepareJacobianNormalization();


   // evalaute jacobian

   EvaluateJacobians();

   ComputeJtE(_cuImageProj, _cuVectorJtE);

   if (__verbose_level)

     std::cout << "Initial " << (__verbose_sse ? "sumed" : "mean")

               << " squared error = " << __initial_mse * error_display_ratio

               << "\n----------------------------------------------\n";


   VectorF& cuImageTempProj = _cuVectorJX;

   // VectorF& cuVectorTempJX  =   _cuVectorJX;

   VectorF& cuVectorDX = _cuVectorSJ.size() ? _cuVectorZK : _cuVectorXK;


   float damping_adjust = 2.0f, damping = __lm_initial_damp, g_norm, g_inf;

   SaveBundleRecord(0, _projection_sse * mse_convert_ratio, damping, g_norm,

                    g_inf);


   std::cout << std::left;

   for (int i = 0; i < __lm_max_iteration && !__abort_flag;

        __current_iteration = (++i)) {

     int num_cg_iteration = SolveNormalEquation(damping);


     // there must be NaN somewhere

     if (num_cg_iteration == 0) {

       if (__verbose_level)

         std::cout << "#" << std::setw(3) << i << " quit on numeric errors\n";

       __pba_return_code = 'E';

       break;

     }


     // there must be infinity somewhere

     if (__recent_cg_status == 'I') {

       std::cout << "#" << std::setw(3) << i << " 0  I e=" << std::setw(edwidth)

                 << "------- "

                 << " u=" << std::setprecision(3) << std::setw(9) << damping

                 << '\n' << std::setprecision(6);

       damping = damping * damping_adjust;

       damping_adjust = 2.0f * damping_adjust;

       --i;

       continue;

     }


     ++__num_lm_iteration;


     float dx_sqnorm = EvaluateDeltaNorm(), dx_norm = sqrt(dx_sqnorm);


     // In this library, we check absolute difference instead of realtive

     // difference

     if (dx_norm <= __lm_delta_threshold) {

       // damping factor must be way too big...or it converges

       if (__verbose_level > 1)

         std::cout << "#" << std::setw(3) << i << " " << std::setw(3)

                   << num_cg_iteration << char(__recent_cg_status)

                   << " quit on too small change (" << dx_norm << "  < "

                   << __lm_delta_threshold << ")\n";

       __pba_return_code = 'S';

       break;

     }

     // update structure and motion, check reprojection error

     float new_residual = UpdateCameraPoint(cuVectorDX, cuImageTempProj);

     float average_residual = new_residual * mse_convert_ratio;

     float residual_reduction = _projection_sse - new_residual;


     // do we find a better solution?

     if (std::isfinite(new_residual) && residual_reduction > 0) {

       float relative_reduction = 1.0f - (new_residual / _projection_sse);


       __num_lm_success++;  // increase counter

       _projection_sse = new_residual;  // save the new residual

       _cuImageProj.swap(cuImageTempProj);  // save the new projection


       float gain_ratio =

           SaveUpdatedSystem(residual_reduction, dx_sqnorm, damping);


       SaveBundleRecord(i + 1, _projection_sse * mse_convert_ratio, damping,

                        g_norm, g_inf);


       if (__verbose_level > 1)

         std::cout << "#" << std::setw(3) << i << " " << std::setw(3)

                   << num_cg_iteration << char(__recent_cg_status)

                   << " e=" << std::setw(edwidth)

                   << average_residual * error_display_ratio

                   << " u=" << std::setprecision(3) << std::setw(9) << damping

                   << " r=" << std::setw(6)

                   << floor(gain_ratio * 1000.f) * 0.001f

                   << " g=" << std::setw(g_norm > 0 ? 9 : 1) << g_norm << " "

                   << std::setw(9) << relative_reduction << ' ' << std::setw(9)

                   << dx_norm << " t=" << int(BundleTimerGetNow()) << "\n"

                   << std::setprecision(6);


       if (!IsTimeBudgetAvailable()) {

         if (__verbose_level > 1)

           std::cout << "#" << std::setw(3) << i << " used up time budget.\n";

         __pba_return_code = 'T';

         break;

       } else if (__lm_check_gradient && g_inf < __lm_gradient_threshold) {

         if (__verbose_level > 1)

           std::cout << "#" << std::setw(3) << i

                     << " converged with small gradient\n";

         __pba_return_code = 'G';

         break;

       } else if (average_residual * error_display_ratio <= __lm_mse_threshold) {

         if (__verbose_level > 1)

           std::cout << "#" << std::setw(3) << i << " satisfies MSE threshold\n";

         __pba_return_code = 'M';

         break;

       } else {

         float temp = gain_ratio * 2.0f - 1.0f;

         float adaptive_adjust = 1.0f - temp * temp * temp;  // powf(, 3.0f); //

         float auto_adjust = std::max(1.0f / 3.0f, adaptive_adjust);


         damping = damping * auto_adjust;

         damping_adjust = 2.0f;

         if (damping < __lm_minimum_damp)

           damping = __lm_minimum_damp;

         else if (__lm_damping_auto_switch == 0 && damping > __lm_maximum_damp &&

                  __lm_use_diagonal_damp)

           damping = __lm_maximum_damp;


         EvaluateJacobians();

         ComputeJtE(_cuImageProj, _cuVectorJtE);

       }

     } else {

       if (__verbose_level > 1)

         std::cout << "#" << std::setw(3) << i << " " << std::setw(3)

                   << num_cg_iteration << char(__recent_cg_status)

                   << " e=" << std::setw(edwidth) << std::left

                   << average_residual * error_display_ratio

                   << " u=" << std::setprecision(3) << std::setw(9) << damping

                   << " r=----- " << (__lm_check_gradient || __save_gradient_norm

                                          ? " g=---------"

                                          : " g=0")

                   << " --------- " << std::setw(9) << dx_norm

                   << " t=" << int(BundleTimerGetNow()) << "\n"

                   << std::setprecision(6);


       if (__lm_damping_auto_switch > 0 && __lm_use_diagonal_damp &&

           damping > __lm_damping_auto_switch) {

         __lm_use_diagonal_damp = false;

         damping = __lm_damping_auto_switch;

         damping_adjust = 2.0f;

         if (__verbose_level > 1)

           std::cout << "NOTE: switch to damping with an identity matix\n";

       } else {

         damping = damping * damping_adjust;

         damping_adjust = 2.0f * damping_adjust;

       }

     }


     if (__verbose_level == 1) std::cout << '.';

   }


   __final_mse = float(_projection_sse * mse_convert_ratio);

   __final_mse_x =

       __use_radial_distortion

           ? EvaluateProjectionX(_cuCameraData, _cuPointData, _cuImageProj) *

                 mse_convert_ratio

           : __final_mse;

 }


 #define PROFILE_REPORT2(A, T) \

   std::cout << std::setw(24) << A << ": " << (T) << "\n";


 #define PROFILE_REPORT(A)                 \

   std::cout << std::setw(24) << A << ": " \

             << (BundleTimerGet(TIMER_PROFILE_STEP) / repeat) << "\n";


 #define PROFILE_(B)                     \

   BundleTimerStart(TIMER_PROFILE_STEP); \

   for (int i = 0; i < repeat; ++i) {    \

     B;                                  \

   }                                     \

   BundleTimerSwitch(TIMER_PROFILE_STEP);


 #define PROFILE(A, B) PROFILE_(A B) PROFILE_REPORT(#A)

 #define PROXILE(A, B) PROFILE_(B) PROFILE_REPORT(A)

 #define PROTILE(FID, A, B)                                   \

   {                                                          \

     float tbest = FLT_MAX;                                   \

     int nbest = 1;                                           \

     int nto = nthread[FID];                                  \

     {                                                        \

       std::ostringstream os1;                                \

       os1 << #A "(" << nto << ")";                           \

       PROXILE(os1.str(), A B);                               \

     }                                                        \

     for (int j = 1; j <= THREAD_NUM_MAX; j *= 2) {           \

       nthread[FID] = j;                                      \

       PROFILE_(A B);                                         \

       float t = BundleTimerGet(TIMER_PROFILE_STEP) / repeat; \

       if (t > tbest) {                                       \

         if (j >= max(nto, 16)) break;                        \

       } else {                                               \

         tbest = t;                                           \

         nbest = j;                                           \

       }                                                      \

     }                                                        \

     if (nto != 0) nthread[FID] = nbest;                      \

     {                                                        \

       std::ostringstream os;                                 \

       os << #A "(" << nbest << ")";                          \

       PROFILE_REPORT2(os.str(), tbest);                      \

     }                                                        \

   }


 #define PROTILE2(FID1, FID2, A, B)                           \

   {                                                          \

     int nt1 = nthread[FID1], nt2 = nthread[FID2];            \

     {                                                        \

       std::ostringstream os1;                                \

       os1 << #A "(" << nt1 << "," << nt2 << ")";             \

       PROXILE(os1.str(), A B);                               \

     }                                                        \

     float tbest = FLT_MAX;                                   \

     int nbest1 = 1, nbest2 = 1;                              \

     nthread[FID2] = 1;                                       \

     for (int j = 1; j <= THREAD_NUM_MAX; j *= 2) {           \

       nthread[FID1] = j;                                     \

       PROFILE_(A B);                                         \

       float t = BundleTimerGet(TIMER_PROFILE_STEP) / repeat; \

       if (t > tbest) {                                       \

         if (j >= max(nt1, 16)) break;                        \

       } else {                                               \

         tbest = t;                                           \

         nbest1 = j;                                          \

       }                                                      \

     }                                                        \

     nthread[FID1] = nbest1;                                  \

     for (int j = 2; j <= THREAD_NUM_MAX; j *= 2) {           \

       nthread[FID2] = j;                                     \

       PROFILE_(A B);                                         \

       float t = BundleTimerGet(TIMER_PROFILE_STEP) / repeat; \

       if (t > tbest) {                                       \

         if (j >= max(nt2, 16)) break;                        \

       } else {                                               \

         tbest = t;                                           \

         nbest2 = j;                                          \

       }                                                      \

     }                                                        \

     nthread[FID2] = nbest2;                                  \

     {                                                        \

       std::ostringstream os;                                 \

       os << #A "(" << nbest1 << "," << nbest2 << ")";        \

       PROFILE_REPORT2(os.str(), tbest);                      \

     }                                                        \

     if (nt1 == 0) nthread[FID1] = 0;                         \

     if (nt2 == 0) nthread[FID2] = 0;                         \

   }


 template <class Float>

 void SparseBundleCPU<Float>::RunProfileSteps() {

   const int repeat = std::max(__profile_pba, 1);

   int* nthread = __num_cpu_thread;

   std::cout << "---------------------------------\n"

                "|    Run profiling steps ("

             << repeat << ")  |\n"

                          "---------------------------------\n"

             << std::left;

   ;


   EvaluateProjection(_cuCameraData, _cuPointData, _cuImageProj);

   if (__jacobian_normalize) PrepareJacobianNormalization();

   EvaluateJacobians();

   ComputeJtE(_cuImageProj, _cuVectorJtE);

   ComputeBlockPC(__lm_initial_damp, true);

   do {

     if (SolveNormalEquationPCGX(__lm_initial_damp) == 10 &&

         SolveNormalEquationPCGB(__lm_initial_damp) == 10)

       break;

     __lm_initial_damp *= 2.0f;

   } while (__lm_initial_damp < 1024.0f);

   std::cout << "damping set to " << __lm_initial_damp << " for profiling\n"

             << "---------------------------------\n";

   {

     int repeat = 10, cgmin = __cg_min_iteration, cgmax = __cg_max_iteration;

     __cg_max_iteration = __cg_min_iteration = 10;

     __num_cg_iteration = 0;

     PROFILE(SolveNormalEquationPCGX, (__lm_initial_damp));

     if (__num_cg_iteration != 100)

       std::cout << __num_cg_iteration << " cg iterations in all\n";

     __num_cg_iteration = 0;

     PROFILE(SolveNormalEquationPCGB, (__lm_initial_damp));

     if (__num_cg_iteration != 100)

       std::cout << __num_cg_iteration << " cg iterations in all\n";

     std::cout << "---------------------------------\n";

     __num_cg_iteration = 0;

     PROXILE("Single iteration LMX", RunTestIterationLM(true));

     if (__num_cg_iteration != 100)

       std::cout << __num_cg_iteration << " cg iterations in all\n";

     __num_cg_iteration = 0;

     PROXILE("Single iteration LMB", RunTestIterationLM(false));

     if (__num_cg_iteration != 100)

       std::cout << __num_cg_iteration << " cg iterations in all\n";

     std::cout << "---------------------------------\n";

     __cg_max_iteration = cgmax;

     __cg_min_iteration = cgmin;

   }


   PROFILE(UpdateCameraPoint, (_cuVectorZK, _cuImageProj));

   PROFILE(ComputeVectorNorm, (_cuVectorXK));

   PROFILE(ComputeVectorDot, (_cuVectorXK, _cuVectorRK));

   PROFILE(ComputeVectorNormW, (_cuVectorXK, _cuVectorRK));

   PROFILE(ComputeSAXPY, ((Float)0.01f, _cuVectorXK, _cuVectorRK, _cuVectorZK));

   PROFILE(ComputeSXYPZ,

           ((Float)0.01f, _cuVectorXK, _cuVectorPK, _cuVectorRK, _cuVectorZK));

   std::cout << "---------------------------------\n";

   PROTILE(FUNC_VS, ComputeVectorNorm,

           (_cuImageProj, nthread[FUNC_VS]));  // reset the parameter to 0


   {

     avec<Float> temp1(_cuImageProj.size()), temp2(_cuImageProj.size());

     SetVectorZero(temp1);

     PROTILE(FUNC_VV, ComputeSAXPY,

             ((Float)0.01f, _cuImageProj, temp1, temp2, nthread[FUNC_VV]));

   }


   std::cout << "---------------------------------\n";

   __multiply_jx_usenoj = false;


   PROTILE(FUNC_PJ, EvaluateProjection,

           (_cuCameraData, _cuPointData, _cuImageProj));

   PROTILE2(FUNC_MPC, FUNC_MPP, ApplyBlockPC, (_cuVectorJtE, _cuVectorPK));


   if (!__no_jacobian_store) {

     if (__jc_store_original) {

       PROTILE(FUNC_JX, ComputeJX, (_cuVectorJtE, _cuVectorJX));


       if (__jc_store_transpose) {

         PROTILE(FUNC_JJ_JCO_JCT_JP, EvaluateJacobians, ());

         PROTILE2(FUNC_JTEC_JCT, FUNC_JTEP, ComputeJtE,

                  (_cuImageProj, _cuVectorJtE));

         PROTILE2(FUNC_BCC_JCT, FUNC_BCP, ComputeBlockPC, (0.001f, true));

         PROFILE(ComputeDiagonal, (_cuVectorPK));


         std::cout << "---------------------------------\n"

                      "|   Not storing original  JC    | \n"

                      "---------------------------------\n";

         __jc_store_original = false;

         PROTILE(FUNC_JJ_JCT_JP, EvaluateJacobians, ());

         __jc_store_original = true;

       }


       std::cout << "---------------------------------\n"

                    "|   Not storing transpose JC    | \n"

                    "---------------------------------\n";

       __jc_store_transpose = false;

       _cuJacobianCameraT.resize(0);

       PROTILE(FUNC_JJ_JCO_JP, EvaluateJacobians, ());

       PROTILE2(FUNC_JTEC_JCO, FUNC_JTEP, ComputeJtE,

                (_cuImageProj, _cuVectorJtE));

       PROTILE2(FUNC_BCC_JCO, FUNC_BCP, ComputeBlockPC, (0.001f, true));

       PROFILE(ComputeDiagonal, (_cuVectorPK));

     } else if (__jc_store_transpose) {

       PROTILE2(FUNC_JTEC_JCT, FUNC_JTEP, ComputeJtE,

                (_cuImageProj, _cuVectorJtE));

       PROTILE2(FUNC_BCC_JCT, FUNC_BCP, ComputeBlockPC, (0.001f, true));

       PROFILE(ComputeDiagonal, (_cuVectorPK));


       std::cout << "---------------------------------\n"

                    "|   Not storing original  JC    | \n"

                    "---------------------------------\n";

       PROTILE(FUNC_JJ_JCT_JP, EvaluateJacobians, ());

     }

   }


   if (!__no_jacobian_store) {

     std::cout << "---------------------------------\n"

                  "| Not storing Camera Jacobians  | \n"

                  "---------------------------------\n";

     __jc_store_transpose = false;

     __jc_store_original = false;

     _cuJacobianCamera.resize(0);

     _cuJacobianCameraT.resize(0);

     PROTILE(FUNC_JJ_JP, EvaluateJacobians, ());

     PROTILE(FUNC_JTE_, ComputeJtE, (_cuImageProj, _cuVectorJtE));

     // PROFILE(ComputeBlockPC, (0.001f, true));

   }


   std::cout << "---------------------------------\n"

                "|   Not storing any jacobians   |\n"

                "---------------------------------\n";

   __no_jacobian_store = true;

   _cuJacobianPoint.resize(0);

   PROTILE(FUNC_JX_, ComputeJX, (_cuVectorJtE, _cuVectorJX));

   PROFILE(ComputeJtE, (_cuImageProj, _cuVectorJtE));

   PROFILE(ComputeBlockPC, (0.001f, true));

   std::cout << "---------------------------------\n";

 }


 template <class Float>

 int SparseBundleCPU<Float>::FindProcessorCoreNum() {

 #ifdef _WIN32

 #if defined(WINAPI_FAMILY) && WINAPI_FAMILY == WINAPI_FAMILY_APP

   SYSTEM_INFO sysinfo;

   GetNativeSystemInfo(&sysinfo);

 #else

   SYSTEM_INFO sysinfo;

   GetSystemInfo(&sysinfo);

 #endif

   return sysinfo.dwNumberOfProcessors;

 #else

   return sysconf(_SC_NPROCESSORS_ONLN);

 #endif

 }


 ParallelBA* NewSparseBundleCPU(bool dp, const int num_threads) {

 #ifndef SIMD_NO_DOUBLE

   if (dp)

     return new SparseBundleCPU<double>(num_threads);

   else

 #endif

     return new SparseBundleCPU<float>(num_threads);

 }


 }  // namespace pba

width
int width
Definition: FileIOFactory.cpp:142

name
std::string name
Definition: FileIOFactory.cpp:129

X
void * X
Definition: SmallVector.cpp:45

PROXILE
#define PROXILE(A, B)
Definition: SparseBundleCPU.cpp:4118

PROTILE
#define PROTILE(FID, A, B)
Definition: SparseBundleCPU.cpp:4119

MYTHREAD
#define MYTHREAD
Definition: SparseBundleCPU.cpp:930

DEFINE_THREAD_DATA
#define DEFINE_THREAD_DATA(X)
Definition: SparseBundleCPU.cpp:903

ALLOCATE_REQUIRED_DATA
#define ALLOCATE_REQUIRED_DATA(NAME, num, channels)
Definition: SparseBundleCPU.cpp:2731

PROTILE2
#define PROTILE2(FID1, FID2, A, B)
Definition: SparseBundleCPU.cpp:4148

END_THREAD_RPOC
#define END_THREAD_RPOC(X)
Definition: SparseBundleCPU.cpp:921

BEGIN_THREAD_PROC
#define BEGIN_THREAD_PROC(X)
Definition: SparseBundleCPU.cpp:910

POINT_ALIGN
#define POINT_ALIGN
Definition: SparseBundleCPU.cpp:73

WAIT_THREAD
#define WAIT_THREAD(tv, n)
Definition: SparseBundleCPU.cpp:935

POINT_ALIGN2
#define POINT_ALIGN2
Definition: SparseBundleCPU.cpp:76

PROFILE
#define PROFILE(A, B)
Definition: SparseBundleCPU.cpp:4117

THREAD_NUM_MAX
#define THREAD_NUM_MAX
Definition: SparseBundleCPU.cpp:90

ALLOCATE_OPTIONAL_DATA
#define ALLOCATE_OPTIONAL_DATA(NAME, num, channels, option)
Definition: SparseBundleCPU.cpp:2736

AUTO_MT_NUM
#define AUTO_MT_NUM(sz)
Definition: SparseBundleCPU.cpp:92

RUN_THREAD
#define RUN_THREAD(X, t,...)
Definition: SparseBundleCPU.cpp:932

SparseBundleCPU.h

ALIGN_PTR
#define ALIGN_PTR(p)
Definition: SparseBundleCPU.h:30

FLOAT_ALIGN
#define FLOAT_ALIGN
Definition: SparseBundleCPU.h:28

NULL
#define NULL
Definition: UVUnwrapping.cpp:40

result
core::Tensor result
Definition: VtkUtils.cpp:76

copy
bool copy
Definition: VtkUtils.cpp:74

pba::ConfigBA::TimerBA
Definition: ConfigBA.h:68

pba::ConfigBA::__verbose_level
int __verbose_level
Definition: ConfigBA.h:121

pba::ConfigBA::__cpu_data_precision
int __cpu_data_precision
Definition: ConfigBA.h:153

pba::ConfigBA::SaveBundleRecord
void SaveBundleRecord(int iter, float res, float damping, float gn, float gi)
Definition: ConfigBA.cpp:329

pba::ConfigBA::FUNC_VS
@ FUNC_VS
Definition: ConfigBA.h:64

pba::ConfigBA::FUNC_PJ
@ FUNC_PJ
Definition: ConfigBA.h:58

pba::ConfigBA::FUNC_MPP
@ FUNC_MPP
Definition: ConfigBA.h:63

pba::ConfigBA::FUNC_JX
@ FUNC_JX
Definition: ConfigBA.h:48

pba::ConfigBA::FUNC_JJ_JP
@ FUNC_JJ_JP
Definition: ConfigBA.h:57

pba::ConfigBA::FUNC_JJ_JCO_JCT_JP
@ FUNC_JJ_JCO_JCT_JP
Definition: ConfigBA.h:54

pba::ConfigBA::FUNC_BCC_JCT
@ FUNC_BCC_JCT
Definition: ConfigBA.h:59

pba::ConfigBA::FUNC_JJ_JCO_JP
@ FUNC_JJ_JCO_JP
Definition: ConfigBA.h:55

pba::ConfigBA::FUNC_BCC_JCO
@ FUNC_BCC_JCO
Definition: ConfigBA.h:60

pba::ConfigBA::FUNC_MPC
@ FUNC_MPC
Definition: ConfigBA.h:62

pba::ConfigBA::FUNC_JJ_JCT_JP
@ FUNC_JJ_JCT_JP
Definition: ConfigBA.h:56

pba::ConfigBA::FUNC_JTE_
@ FUNC_JTE_
Definition: ConfigBA.h:53

pba::ConfigBA::FUNC_JX_
@ FUNC_JX_
Definition: ConfigBA.h:49

pba::ConfigBA::FUNC_JTEC_JCO
@ FUNC_JTEC_JCO
Definition: ConfigBA.h:51

pba::ConfigBA::FUNC_BCP
@ FUNC_BCP
Definition: ConfigBA.h:61

pba::ConfigBA::FUNC_JTEP
@ FUNC_JTEP
Definition: ConfigBA.h:52

pba::ConfigBA::FUNC_JTEC_JCT
@ FUNC_JTEC_JCT
Definition: ConfigBA.h:50

pba::ConfigBA::FUNC_VV
@ FUNC_VV
Definition: ConfigBA.h:65

pba::ConfigBA::__num_cpu_thread
int __num_cpu_thread[NUM_FUNC]
Definition: ConfigBA.h:186

pba::ConfigBA::__multiply_jx_usenoj
bool __multiply_jx_usenoj
Definition: ConfigBA.h:149

pba::ParallelBA
Definition: pba.h:54

pba::SparseBundleCPU
Definition: SparseBundleCPU.h:144

pba::SparseBundleCPU::InitializeBundle
int InitializeBundle()
Definition: SparseBundleCPU.cpp:2671

pba::SparseBundleCPU::NormalizeDataF
void NormalizeDataF()
Definition: SparseBundleCPU.cpp:3228

pba::SparseBundleCPU::float_t
float float_t
Definition: SparseBundleCPU.h:150

pba::SparseBundleCPU::InitializeStorageForCG
bool InitializeStorageForCG()
Definition: SparseBundleCPU.cpp:2963

pba::SparseBundleCPU::SaveBundleRecord
void SaveBundleRecord(int iter, float res, float damping, float &g_norm, float &g_inf)
Definition: SparseBundleCPU.cpp:3105

pba::SparseBundleCPU::InitializeStorageForSFM
bool InitializeStorageForSFM()
Definition: SparseBundleCPU.cpp:2742

pba::SparseBundleCPU::SetProjection
virtual void SetProjection(size_t nproj, const Point2D *imgpts, const int *point_idx, const int *cam_idx)
Definition: SparseBundleCPU.cpp:2634

pba::SparseBundleCPU::ComputeJtE
void ComputeJtE(VectorF &E, VectorF &JtE, int mode=0)
Definition: SparseBundleCPU.cpp:3047

pba::SparseBundleCPU::ProcessIndexCameraQ
bool ProcessIndexCameraQ(std::vector< int > &qmap, std::vector< int > &qlist)
Definition: SparseBundleCPU.cpp:2848

pba::SparseBundleCPU::RunTestIterationLM
void RunTestIterationLM(bool reduced)
Definition: SparseBundleCPU.cpp:3781

pba::SparseBundleCPU::BundleAdjustment
void BundleAdjustment()
Definition: SparseBundleCPU.cpp:2688

pba::SparseBundleCPU::SolveNormalEquationPCGX
int SolveNormalEquationPCGX(float lambda)
Definition: SparseBundleCPU.cpp:3423

pba::SparseBundleCPU::EvaluateProjectionX
float EvaluateProjectionX(VectorF &cam, VectorF &point, VectorF &proj)
Definition: SparseBundleCPU.cpp:3132

pba::SparseBundleCPU::NormalizeData
void NormalizeData()
Definition: SparseBundleCPU.cpp:2710

pba::SparseBundleCPU::RunBundleAdjustment
virtual int RunBundleAdjustment()
Definition: SparseBundleCPU.cpp:2650

pba::SparseBundleCPU::RunProfileSteps
void RunProfileSteps()
Definition: SparseBundleCPU.cpp:4193

pba::SparseBundleCPU::EvaluateDeltaNorm
float EvaluateDeltaNorm()
Definition: SparseBundleCPU.cpp:3895

pba::SparseBundleCPU::PrepareJacobianNormalization
void PrepareJacobianNormalization()
Definition: SparseBundleCPU.cpp:2992

pba::SparseBundleCPU::NonlinearOptimizeLM
void NonlinearOptimizeLM()
Definition: SparseBundleCPU.cpp:3910

pba::SparseBundleCPU::SolveNormalEquationPCGB
int SolveNormalEquationPCGB(float lambda)
Definition: SparseBundleCPU.cpp:3576

pba::SparseBundleCPU::SparseBundleCPU
SparseBundleCPU()

pba::SparseBundleCPU::ValidateInputData
int ValidateInputData()
Definition: SparseBundleCPU.cpp:2661

pba::SparseBundleCPU::SaveUpdatedSystem
float SaveUpdatedSystem(float residual_reduction, float dx_sqnorm, float damping)
Definition: SparseBundleCPU.cpp:3825

pba::SparseBundleCPU::SetCameraData
virtual void SetCameraData(size_t ncam, CameraT *cams)
Definition: SparseBundleCPU.cpp:2614

pba::SparseBundleCPU::ProcessWeightCameraQ
void ProcessWeightCameraQ(std::vector< int > &cpnum, std::vector< int > &qmap, Float *qmapw, Float *qlistw)
Definition: SparseBundleCPU.cpp:2919

pba::SparseBundleCPU::ComputeBlockPC
void ComputeBlockPC(float lambda, bool dampd)
Definition: SparseBundleCPU.cpp:3171

pba::SparseBundleCPU::GetMeanSquaredError
virtual float GetMeanSquaredError()
Definition: SparseBundleCPU.cpp:2644

pba::SparseBundleCPU::SetPointData
virtual void SetPointData(size_t npoint, Point3D *pts)
Definition: SparseBundleCPU.cpp:2628

pba::SparseBundleCPU::ComputeDiagonal
void ComputeDiagonal(VectorF &JJI)
Definition: SparseBundleCPU.cpp:3211

pba::SparseBundleCPU::SetFocalMask
virtual void SetFocalMask(const int *fmask, float weight)
Definition: SparseBundleCPU.cpp:2622

pba::SparseBundleCPU::ComputeJX
void ComputeJX(VectorF &X, VectorF &JX, int mode=0)
Definition: SparseBundleCPU.cpp:3147

pba::SparseBundleCPU::SolveNormalEquation
int SolveNormalEquation(float lambda)
Definition: SparseBundleCPU.cpp:3703

pba::SparseBundleCPU::GetParameterLength
int GetParameterLength()
Definition: SparseBundleCPU.cpp:2683

pba::SparseBundleCPU::ApplyBlockPC
void ApplyBlockPC(VectorF &v, VectorF &pv, int mode=0)
Definition: SparseBundleCPU.cpp:3202

pba::SparseBundleCPU::DenormalizeData
void DenormalizeData()
Definition: SparseBundleCPU.cpp:3391

pba::SparseBundleCPU::DumpCooJacobian
void DumpCooJacobian()
Definition: SparseBundleCPU.cpp:3720

pba::SparseBundleCPU::EvaluateJacobians
void EvaluateJacobians()
Definition: SparseBundleCPU.cpp:3015

pba::SparseBundleCPU::UpdateCameraPoint
float UpdateCameraPoint(VectorF &dx, VectorF &cuImageTempProj)
Definition: SparseBundleCPU.cpp:3796

pba::SparseBundleCPU::NormalizeDataD
void NormalizeDataD()
Definition: SparseBundleCPU.cpp:3286

pba::SparseBundleCPU::AdjustBundleAdjsutmentMode
void AdjustBundleAdjsutmentMode()
Definition: SparseBundleCPU.cpp:3885

pba::SparseBundleCPU::EvaluateProjection
float EvaluateProjection(VectorF &cam, VectorF &point, VectorF &proj)
Definition: SparseBundleCPU.cpp:3117

pba::SparseBundleCPU::TransferDataToHost
void TransferDataToHost()
Definition: SparseBundleCPU.cpp:2717

pba::avec
Definition: SparseBundleCPU.h:36

pba::avec::SaveToFile
void SaveToFile(const char *name)
Definition: SparseBundleCPU.cpp:98

pba::avec::begin
Float * begin()
Definition: SparseBundleCPU.h:133

pba::avec::size
size_t size() const
Definition: SparseBundleCPU.h:138

pba::avec::end
Float * end()
Definition: SparseBundleCPU.h:135

pba::avec::data
Float * data()
Definition: SparseBundleCPU.h:134

pba::avec::swap
void swap(avec< Float > &next)
Definition: SparseBundleCPU.h:111

pba::avec::set
void set(Float *data, size_t count)
Definition: SparseBundleCPU.h:103

fabs
__host__ __device__ float2 fabs(float2 v)
Definition: cutil_math.h:1254

min
int min(int a, int b)
Definition: cutil_math.h:53

max
int max(int a, int b)
Definition: cutil_math.h:48

error
static void error(char *msg)
Definition: lsd.c:159

cloudViewer::utility::floor
MiniVec< float, N > floor(const MiniVec< float, N > &a)
Definition: MiniVec.h:75

pba::ProgramCPU::ComputeVectorDot
double ComputeVectorDot(const avec< Float > &vec1, const avec< Float > &vec2)
Definition: SparseBundleCPU.cpp:790

pba::ProgramCPU::ComputeJX_
void ComputeJX_(size_t nproj, size_t ncam, const Float *x, Float *jx, const Float *camera, const Float *point, const Float *ms, const Float *sj, const int *jmap, bool intrinsic_fixed, int radial_distortion, int mode, int mt=16)
Definition: SparseBundleCPU.cpp:2217

pba::ProgramCPU::ComputeProjection
void ComputeProjection(size_t nproj, const Float *camera, const Float *point, const Float *ms, const int *jmap, Float *pj, int radial, int mt)
Definition: SparseBundleCPU.cpp:1198

pba::ProgramCPU::ComputeVectorNorm
void ComputeVectorNorm(const Float *p, const Float *pe, double *psum)
Definition: SparseBundleCPU.cpp:799

pba::ProgramCPU::ComputeProjectionX
void ComputeProjectionX(size_t nproj, const Float *camera, const Float *point, const Float *ms, const int *jmap, Float *pj, int radial, int mt)
Definition: SparseBundleCPU.cpp:1257

pba::ProgramCPU::AddScaledVec8
void AddScaledVec8(Float a, const Float *x, Float *v)
Definition: SparseBundleCPU.cpp:823

pba::ProgramCPU::ComputeVXY
void ComputeVXY(const avec< Float > &vec1, const avec< Float > &vec2, avec< Float > &result, size_t part=0, size_t skip=0)
Definition: SparseBundleCPU.cpp:805

pba::ProgramCPU::ComputeSAXPY
void ComputeSAXPY(Float a, const avec< Float > &vec1, const avec< Float > &vec2, avec< Float > &result, int mt=0)
Definition: SparseBundleCPU.cpp:992

pba::ProgramCPU::MemoryCopyA
void MemoryCopyA(const Float *p, const Float *pe, Float *d)
Definition: SparseBundleCPU.cpp:775

pba::ProgramCPU::ComputeDiagonalBlockC
void ComputeDiagonalBlockC(size_t ncam, float lambda1, float lambda2, const Float *jc, const int *cmap, const int *cmlist, Float *di, Float *bi, int vn, bool jc_transpose, bool use_jq, int mt)
Definition: SparseBundleCPU.cpp:1706

pba::ProgramCPU::ComputeSAX
void ComputeSAX(Float a, const avec< Float > &vec1, avec< Float > &result)
Definition: SparseBundleCPU.cpp:828

pba::ProgramCPU::ComputeVectorNorm
double ComputeVectorNorm(const avec< Float > &vec, int mt=0)
Definition: SparseBundleCPU.cpp:1026

pba::ProgramCPU::MultiplyBlockConditionerP
void MultiplyBlockConditionerP(int npoint, const Float *bi, const Float *x, Float *vx, int mt=0)
Definition: SparseBundleCPU.cpp:2101

pba::ProgramCPU::ComputeDiagonalBlock
void ComputeDiagonalBlock(size_t ncam, size_t npts, float lambda, bool dampd, const Float *jc, const int *cmap, const Float *jp, const int *pmap, const int *cmlist, const Float *sj, const Float *wq, Float *diag, Float *blocks, int radial_distortion, bool jc_transpose, int mt1=2, int mt2=2, int mode=0)
Definition: SparseBundleCPU.cpp:1849

pba::ProgramCPU::__num_cpu_cores
int __num_cpu_cores
Definition: SparseBundleCPU.cpp:589

pba::ProgramCPU::MemoryCopyB
void MemoryCopyB(const Float *p, const Float *pe, Float *d)
Definition: SparseBundleCPU.cpp:941

pba::ProgramCPU::MultiplyBlockConditioner
void MultiplyBlockConditioner(int ncam, int npoint, const Float *blocksv, const Float *vec, Float *resultv, int radial, int mode, int mt1, int mt2)
Definition: SparseBundleCPU.cpp:2126

pba::ProgramCPU::ComputeDiagonalAddQ
void ComputeDiagonalAddQ(size_t ncam, const Float *qw, Float *d, const Float *sj=NULL)
Definition: SparseBundleCPU.cpp:1575

pba::ProgramCPU::DotProduct8
Float DotProduct8(const Float *v1, const Float *v2)
Definition: SparseBundleCPU.cpp:946

pba::ProgramCPU::SetVectorZero
void SetVectorZero(Float *p, Float *pe)
Definition: SparseBundleCPU.cpp:766

pba::ProgramCPU::ComputeVectorMax
Float ComputeVectorMax(const avec< Float > &vec)
Definition: SparseBundleCPU.cpp:958

pba::ProgramCPU::ComputeJtEC
void ComputeJtEC(size_t ncam, const Float *pe, const Float *jc, const int *cmap, const int *cmlist, Float *v, bool jc_transpose, int mt)
Definition: SparseBundleCPU.cpp:2327

pba::ProgramCPU::ComputeJQtEC
void ComputeJQtEC(size_t ncam, const Float *pe, const int *qlist, const Float *wq, const Float *sj, Float *v)
Definition: SparseBundleCPU.cpp:1332

pba::ProgramCPU::ComputeJX
void ComputeJX(size_t nproj, size_t ncam, const Float *x, const Float *jc, const Float *jp, const int *jmap, Float *jx, int mode, int mt=2)
Definition: SparseBundleCPU.cpp:2154

pba::ProgramCPU::ComputeVectorNormW
double ComputeVectorNormW(const avec< Float > &vec, const avec< Float > &weight)
Definition: SparseBundleCPU.cpp:780

pba::ProgramCPU::MultiplyBlockConditionerC
void MultiplyBlockConditionerC(int ncam, const Float *bi, const Float *x, Float *vx, int vn, int mt=0)
Definition: SparseBundleCPU.cpp:2066

pba::ProgramCPU::ComputeSQRT
void ComputeSQRT(avec< Float > &vec)
Definition: SparseBundleCPU.cpp:752

pba::ProgramCPU::JacobianOne
void JacobianOne(const Float *c, const Float *pt, const Float *ms, Float *jxc, Float *jyc, Float *jxp, Float *jyp, bool intrinsic_fixed, int radial_distortion)
Definition: SparseBundleCPU.cpp:1358

pba::ProgramCPU::ComputeJacobian
void ComputeJacobian(size_t nproj, size_t ncam, const Float *camera, const Float *point, Float *jc, Float *jp, const int *jmap, const Float *sj, const Float *ms, const int *cmlist, bool intrinsic_fixed, int radial_distortion, bool shuffle, Float *jct, int mt=2, int i0=0)
Definition: SparseBundleCPU.cpp:1523

pba::ProgramCPU::ComputeJtE_
void ComputeJtE_(size_t nproj, size_t ncam, size_t npt, const Float *ee, Float *jte, const Float *camera, const Float *point, const Float *ms, const int *jmap, const int *cmap, const int *cmlist, const int *pmap, const Float *jp, bool intrinsic_fixed, int radial_distortion, int mode, int mt)
Definition: SparseBundleCPU.cpp:2479

pba::ProgramCPU::ComputeTwoJX
void ComputeTwoJX(const Float *jc, const Float *jp, const Float *xc, const Float *xp, Float *jx)
Definition: SparseBundleCPU.cpp:951

pba::ProgramCPU::ComputeJtEP
void ComputeJtEP(size_t npt, const Float *pe, const Float *jp, const int *pmap, Float *v, int mt)
Definition: SparseBundleCPU.cpp:2370

pba::ProgramCPU::AddBlockJtJ
void AddBlockJtJ(const Float *jc, Float *block, int vn)
Definition: SparseBundleCPU.cpp:856

pba::ProgramCPU::ComputeSXYPZ
void ComputeSXYPZ(Float a, const avec< Float > &vec1, const avec< Float > &vec2, const avec< Float > &vec3, avec< Float > &result)
Definition: SparseBundleCPU.cpp:969

pba::ProgramCPU::ComputeDiagonal
void ComputeDiagonal(const avec< Float > &jcv, const vector< int > &cmapv, const avec< Float > &jpv, const vector< int > &pmapv, const vector< int > &cmlistv, const Float *qw0, avec< Float > &jtjdi, bool jc_transpose, int radial)
Definition: SparseBundleCPU.cpp:1596

pba::ProgramCPU::ComputeRSQRT
void ComputeRSQRT(avec< Float > &vec)
Definition: SparseBundleCPU.cpp:759

pba::ProgramCPU::ComputeJQX
void ComputeJQX(size_t nq, const Float *x, const int *qmap, const Float *wq, const Float *sj, Float *jx)
Definition: SparseBundleCPU.cpp:1309

pba::ProgramCPU::ComputeProjectionQ
void ComputeProjectionQ(size_t nq, const Float *camera, const int *qmap, const Float *wq, Float *pj)
Definition: SparseBundleCPU.cpp:1298

pba::ProgramCPU::ComputeDiagonalBlockP
void ComputeDiagonalBlockP(size_t npt, float lambda1, float lambda2, const Float *jp, const int *pmap, Float *di, Float *bi, int mt)
Definition: SparseBundleCPU.cpp:1789

pba::ProgramCPU::InvertSymmetricMatrix
void InvertSymmetricMatrix(T a[n][m], T ai[n][m])
Definition: SparseBundleCPU.cpp:1647

pba::ProgramCPU::UpdateCamera
void UpdateCamera(int ncam, const avec< Float > &camera, const avec< Float > &delta, avec< Float > &new_camera)
Definition: SparseBundleCPU.cpp:1132

pba::ProgramCPU::UpdateCameraPoint
void UpdateCameraPoint(int ncam, const avec< Float > &camera, const avec< Float > &point, avec< Float > &delta, avec< Float > &new_camera, avec< Float > &new_point, int mode, int mt)
Definition: SparseBundleCPU.cpp:1165

pba::ProgramCPU::ComputeJtEC_
void ComputeJtEC_(size_t ncam, const Float *ee, Float *jte, const Float *c, const Float *point, const Float *ms, const int *jmap, const int *cmap, const int *cmlist, bool intrinsic_fixed, int radial_distortion, int mt)
Definition: SparseBundleCPU.cpp:2435

pba::ProgramCPU::UncompressRodriguesRotation
void UncompressRodriguesRotation(const Float r[3], Float m[])
Definition: SparseBundleCPU.cpp:1117

pba::ProgramCPU::GetRodriguesRotation
void GetRodriguesRotation(const Float m[3][3], Float r[3])
Definition: SparseBundleCPU.cpp:1056

pba::ProgramCPU::ComputeJtE
void ComputeJtE(size_t ncam, size_t npt, const Float *pe, const Float *jc, const int *cmap, const int *cmlist, const Float *jp, const int *pmap, Float *v, bool jc_transpose, int mode, int mt1, int mt2)
Definition: SparseBundleCPU.cpp:2402

pba::ProgramCPU::ComputeDiagonalBlock_
void ComputeDiagonalBlock_(float lambda, bool dampd, const avec< Float > &camerav, const avec< Float > &pointv, const avec< Float > &meas, const vector< int > &jmapv, const avec< Float > &sjv, avec< Float > &qwv, avec< Float > &diag, avec< Float > &blocks, bool intrinsic_fixed, int radial_distortion, int mode=0)
Definition: SparseBundleCPU.cpp:1901

pba::ProgramCPU::ScaleJ8
void ScaleJ8(Float *jcx, Float *jcy, const Float *sj)
Definition: SparseBundleCPU.cpp:815

pba::ProgramCPU::SetVectorZero
void SetVectorZero(avec< Float > &vec)
Definition: SparseBundleCPU.cpp:770

pba::ProgramCPU::ComputeSAXPY
void ComputeSAXPY(Float a, const Float *it1, const Float *it2, Float *it3, Float *ite)
Definition: SparseBundleCPU.cpp:843

pba::ProgramCPU::ComputeSXYPZ
void ComputeSXYPZ(Float a, const Float *p1, const Float *p2, const Float *p3, Float *p4, Float *pe)
Definition: SparseBundleCPU.cpp:837

pba
Definition: ConfigBA.cpp:44

pba::float_t
float float_t
Definition: SparseBundleCU.cpp:48

pba::NewSparseBundleCPU
ParallelBA * NewSparseBundleCPU(bool dp, const int num_threads)
Definition: SparseBundleCPU.cpp:4360

pybind11
Definition: cloudViewer_pybind.h:95

pba.h

timer
double timer
Definition: struct.h:215

pba::CameraT_
Definition: DataInterface.h:48

pba::CameraT_::m
float_t m[3][3]
Definition: DataInterface.h:53

pba::CameraT_::f
float_t f
Definition: DataInterface.h:51

pba::CameraT_::t
float_t t[3]
Definition: DataInterface.h:52

pba::Point2D
Definition: DataInterface.h:401

pba::Point3D_
Definition: DataInterface.h:362

point
Definition: lsd.c:149