Supplementary Material I: Derivation for (6). π(π), according to its definition in Case II, is 2 −1 −1 π π(π) = ∑πΎ π=1βπ²π − π π π°π β2 + π1 βπβ1 + π2 (ππππ|π| + πΎπππ|π½| + π‘π(π½ ππ π )). (A-1) Μ | (ππΎ − π‘ππΎ π Μ −1 π‘πΎ ). Then, Furthermore, |π| = |π ππππ|π| + πΎπππ|π½| Μ | + ππππ(ππΎ − π‘ππΎ π Μ −1 π‘πΎ ) + (πΎ − 1)πππ|π½| + πππ|π½| = ππππ|π Μ | + (πΎ − 1)πππ|π½| + πππ {(ππΎ − π‘ππΎ π Μ −1 π‘πΎ )π |π½|} = ππππ|π Μ | + (πΎ − 1)πππ|π½| + πππ|πΊπΎ |. = ππππ|π (A-2) πΊπΎ is defined in (10). Also, π‘π(π½ −1 ππ−1 π π ) Μ −1 π Μ −1 πΎπ Μ −1 + π π‘πΎπ π‘−1 π Μ π −π‘ π π‘πΎ πΎ πΎ Μ , π°πΎ ) [ = π‘π (π½ −1 (π π Μ −1 π‘ π − π −π‘πΎπ πΜ−1 π‘ πΎ πΎ πΎ Μ −1 π‘πΎ π π Μ −1 π‘ πΎ −π‘πΎ π πΎ −π 1 Μ −1 ππΎ −π‘π πΎ π π‘πΎ π Μ , π°πΎ ) ). ] (π (A-3) Expanding the block matrix multiplication within the trace and simplifying the result, we can get: Μ −1 π Μπ Μ π ) + (π°πΎ − ππΎ )π πΊπΎ−1 (π°πΎ − ππΎ ). π‘π(π½ −1 ππ−1 π π ) = π‘π(π½ −1 π (A-4) ππΎ is defined in (9). Inserting (A-4) and (A-2) into (A-1) and re-organizing the terms, (6) can be obtained. II: Proof of Theorem 1. (5) is a convex optimization, which can be solved by a Block Coordinate Descent (BCD) algorithm. We consider two coordinates in our problem, old domains 1, … , πΎ − 1 as a whole and 1 the new domain, respectively. Then, BCD works by alternately optimizing each coordinate. Specifically, at the π-the iteration, π = 1,2,3, …, BCD solves the following two optimizations: (π) Μ (π−1) , π°πΎ )), π°πΎ = argmin π ((π (A-5) Μ (π) = argmin π ((π Μ , π°πΎ(π) )). π (A-6) π°πΎ Μ π (A-5) is to optimize the new domain, π°πΎ , treating old domains as fixed by using estimates from Μ (π−1) . (A-6) then optimizes the old domains, π Μ , treating the new the previous iteration, π (π) domain as fixed by using the estimate from (A-5), π°πΎ . The objective function in (5), i.e., π(π), consists of a non-differentiable term, βπβ1 . According to the seminal work by Tseng (2001), when a convex objective function includes a non-differentiable term, BCD will converge to the optimal solution if the term is separable Μ β + βπ°πΎ β1 . Therefore, according to the coordinates. This is exactly our case, i.e., βπβ1 = βπ 1 Μ I (i.e., the solution to the BCD in (A-5) and (A-6) will converge to the global optimal solution π (5) in Case I). Furthermore, the convergence enjoys a monotone property (Tseng, 2001), i.e., Μ (0) , π°πΎ(1) )) ≥ π ((π Μ (1) , π°πΎ(1) )) ≥ π ((π Μ (1) , π°πΎ(2) )) ≥ π ((π Μ (2) , π°πΎ(2) )) ≥ β― ≥ π(π Μ I ). (A-7) π ((π Μ (0) , be the knowledge of old domains in Case II, i.e., π Μ (0) = π Μ ∗ . Then, Let the initial values, π (A-7) gives: (1) Μ ∗ , π°πΎ )) ≥ π(π Μ I ). π ((π (A-8) (1) Next, according to (A-5), π°πΎ is (1) Μ (0) , π°πΎ )) = argmin {π(π Μ (0) ) + π(π°πΎ |π Μ (0) )} = argmin π(π°πΎ |π Μ (0) ) . π°πΎ = argmin π ((π π°πΎ π°πΎ The π°πΎ Μ (0) ) is dropped in the last equation because it is a constant. second “=” follows from (6). π(π 2 (1) Μ ∗, π° Comparing (A-8) and (11), we get π°πΎ = π° Μ πΎII . Therefore, (A-8) becomes π ((π Μ πΎII )) ≥ I Μ I ). When π Μ ∗ = (π° ), it means that BCD attains the optimal solution in one π(π Μ1I , … , π° Μ πΎ−1 coordinate (the old domains). Then, it must attain the optimal solution in the other coordinate Μ I . This completes the proof for Theorem 1. (the new domain), i.e., π° Μ πΎII = π III: Proof of Theorem 2. Both (12) and (13) can be solved analytically, i.e., π° Μ πΎ = (π ππΎ π πΎ + ππ)−1 (π ππΎ π²πΎ + πππΎ ) and π° Μ πΎ = (π ππΎ π πΎ )−1 (π ππΎ π²πΎ ) Let π β (π ππΎ π πΎ + ππ)−1 and π β (π ππΎ π πΎ + ππ)−1 (π ππΎ π πΎ ). Then, it can be derived that π = π − ππ. Using π and π, we can show that π° Μ πΎ = ππ° Μ πΎ + ππππΎ . Therefore, π πππΈ(π° Μ πΎ ) = πΈ {(π° Μ πΎ − π°πΎ ) (π° Μ πΎ − π°πΎ )} π = πΈ {(ππ° Μ πΎ + ππππΎ − π°πΎ ) (ππ° Μ πΎ + ππππΎ − π°πΎ )} π = πΈ {(ππ° Μ πΎ − ππ°πΎ + ππ°πΎ + ππππΎ − π°πΎ ) (ππ° Μ πΎ − ππ°πΎ + ππ°πΎ + ππππΎ − π°πΎ )} π = πΈ {((ππ° Μ πΎ − ππ°πΎ ) + (ππ°πΎ − π°πΎ + ππππΎ )) ((ππ° Μ πΎ − ππ°πΎ ) + (ππ°πΎ − π°πΎ + ππππΎ ))} π = πΈ {(ππ° Μ πΎ − ππ°πΎ ) (ππ° Μ πΎ − ππ°πΎ )} + (ππ°πΎ − π°πΎ + ππππΎ )π» (ππ°πΎ − π°πΎ + ππππΎ ). (A-9) In the last equation in (A-9), the cross-product, 2(ππ°πΎ − π°πΎ + ππππΎ )π» π πΈ(π° Μ πΎ − π°πΎ ) , is omitted. This is because π° Μ πΎ , as an ordinary least squares estimator, is unbiased, and therefore πΈ(π° Μ πΎ − π°πΎ ) = 0. Continuing the derivation in (A-9), we can obtain: π πππΈ(π° Μ πΎ ) = πΈ {(π° Μ πΎ − π°πΎ ) ππ π(π° Μ πΎ − π°πΎ )} + π2 (ππΎ − π°πΎ )π π π π(ππΎ − π°πΎ ) = π 2 π‘π{(π ππΎ π πΎ )−1 ππ π} + π2 (ππΎ − π°πΎ )π π π π(ππΎ − π°πΎ ) = π 2 π‘π{π(π − ππ)} + π2 (ππΎ − π°πΎ )π π π π(ππΎ − π°πΎ ) 3 = π 2 π‘π(π) − π 2 ππ‘π(π 2 ) + π2 (ππΎ − π°πΎ )π π π π(ππΎ − π°πΎ ). (A-10) Perform an eigen-decomposition for π ππΎ π πΎ , i.e., π ππΎ π πΎ = π π π²π . π² is a diagonal matrix of eigenvalues πΎ1 , … , πΎπ . π π consists of corresponding eigenvectors. Then the π‘π(β) in (A-10) can be shown to be: 1 1 π‘π(π) = ∑ππ=1 πΎ +π and π‘π(π 2 ) = ∑ππ=1 (πΎ +π)2 . π (A-11) π Furthermore, let π β π(ππΎ − π°πΎ ) and denote the elements of π by πΌ1 , … , πΌπ . Then, the last term in (A-10) can be shown to be: (ππΎ − π°πΎ )π π π π(ππΎ − π°πΎ ) = ∑ππ=1 (πΎ πΌπ2 2 π +π) . (A-12) Inserting (A-12) and (A-11) into (A-10), π π 1 1 πΌπ2 2 2 πππΈ(π° ΜπΎ ) = π ∑ −π π∑ +π ∑ 2 2 π=1 πΎπ + π π=1 (πΎπ + π) π=1 (πΎπ + π) 2 = π2 ∑ = ∑ππ=1 π π π 1 1 πΌπ2 2 − π2π ∑ + π ∑ 2 2 π=1 πΎπ + π π=1 (πΎπ + π) π=1 (πΎπ + π) π π2 πΎπ +π2 πΌπ2 (πΎπ +π)2 . When π = 0, πππΈ(π° Μ πΎ ) = πππΈ(π° Μ πΎ ). To show that πππΈ(π° Μ πΎ ) < πππΈ(π° Μ πΎ ) at some π > 0, we only need to show that there exists a π∗ such that π πππΈ(π° ΜπΎ ) ππ = 2 ∑ππ=1 πΎπ (ππΌπ2 −π2 ) (πΎπ +π)3 π πππΈ(π° ΜπΎ ) ππ < 0 for 0 < π < π∗. To make < 0 , a sufficient condition is to make every term in the π2 π2 π π summation smaller than zero, i.e., π < πΌ2 , or equivalently, π < πππ₯ (πΌ2 ) . This proves the π2 existence of π∗ = πππ₯ (πΌ2 ) and thereby proves Theorem 1. π π IV: Proof of Theorem 3. 4 π According to (A-10), for a fixed π , πππΈ(π° Μ πΎ ) changes only with respect to (ππΎ − π°πΎ )π π π π(ππΎ − π°πΎ ). The smaller the (ππΎ − π°πΎ )π π π π(ππΎ − π°πΎ ), the smaller the πππΈ(π° Μ πΎ ). According to Definition 1, (ππΎ − π°πΎ )π π π π(ππΎ − π°πΎ ) is the transfer learning distance π(ππΎ ; π). Therefore, the smaller the transfer learning distance, the smaller the πππΈ(π° Μ πΎ ). This gives (1) (2) πππΈ(π° Μ πΎ ; π) ≤ πππΈ(π° Μ πΎ ; π). (1) (A-13) (2) (1) Let π(1)∗ = argminπ πππΈ(π° Μ πΎ ) and π(2)∗ = argminπ πππΈ(π° Μ πΎ ). Then, πππΈ(π° Μ πΎ ; π(1)∗ ) ≤ (1) (2) πππΈ(π° Μ πΎ ; π(2)∗ ) ≤ πππΈ(π° Μ πΎ ; π(2)∗ ). The second inequality follows from (A-13). This completes the proof for Theorem 3. V: Proof of Theorem 4 Lemma 1: The optimization in (17) is equivalent to: π° Μ πΎII = argmin π°πΎ 2 {βπ²πΎ − π πΎ π°πΎ β22 + π1 βπ°πΎ β1 + π2 ∑ππ ~ππ πππ ((π€ππΎ − πππΎ ) − (π€ππΎ − πππΎ )) } . (A-14) Proof: To prove Lemma 1 is to prove (π°πΎ − ππΎ )π π(π°πΎ − ππΎ ) = ∑ππ ~ππ πππ ((π€ππΎ − πππΎ ) − 2 (π€ππΎ − πππΎ )) . Start from the left-hand side. Write π = π − π, where π is a diagonal matrix of the nodes’ degrees, i.e., π = ππππ(π1 , … , ππ ). π is matrix of the edge weights, i.e., π = {πππ }. The diagonal elements of π are zero. Then, (π°πΎ − ππΎ )π π(π°πΎ − ππΎ ) = (π°πΎ − ππΎ )π π(π°πΎ − ππΎ ) − (π°πΎ − ππΎ )π π(π°πΎ − ππΎ ) = ∑ππ=1(π€ππΎ − πππΎ )2 ππ − ∑ππ ~ππ(π€ππΎ − πππΎ ) (π€ππΎ − πππΎ )πππ . Plugging in the definition that ππ = ∑ππ ~ππ πππ , (A-15) becomes (π°πΎ − ππΎ )π π(π°πΎ − ππΎ ) = ∑ππ=1(π€ππΎ − πππΎ )2 ∑ππ ~ππ πππ − ∑ππ ~ππ(π€ππΎ − πππΎ ) (π€ππΎ − πππΎ )πππ 5 (A-15) π = ∑π=1 ∑ππ ~ππ(π€ππΎ − πππΎ )2 πππ − ∑ππ ~ππ(π€ππΎ − πππΎ ) (π€ππΎ − πππΎ )πππ 2 1 = 2 (∑ππ ~ππ(π€ππΎ − πππΎ )2 πππ + ∑ππ ~ππ(π€ππΎ − πππΎ ) πππ ) − ∑ππ ~ππ(π€ππΎ − πππΎ ) (π€ππΎ − πππΎ )πππ . (A-16) Because the graph is unidirectional, πππ = πππ , (A-16) becomes (π°πΎ − ππΎ )π π(π°πΎ − ππΎ ) 2 1 = 2 (∑ππ ~ππ(π€ππΎ − πππΎ )2 πππ + ∑ππ ~ππ(π€ππΎ − πππΎ ) πππ ) − ∑ππ ~ππ(π€ππΎ − πππΎ ) (π€ππΎ − πππΎ )πππ 2 1 2 = (∑ππ ~ππ(π€ππΎ − πππΎ )2 πππ + ∑ππ ~ππ(π€ππΎ − πππΎ ) πππ − 2 ∑ππ ~ππ(π€ππΎ − πππΎ ) (π€ππΎ − πππΎ )πππ ) 2 1 = 2 (∑ππ ~ππ πππ ((π€ππΎ − πππΎ ) − (π€ππΎ − πππΎ )) ) . The 1⁄2 can be absorbed by π2 . Next, we prove Theorem 4. Denote the objective function in (A-14) by π(π°πΎ ), i.e., 2 π(π°πΎ ) = βπ²πΎ − π πΎ π°πΎ β22 + π1 βπ°πΎ β1 + π2 ∑ππ ~πβ ππβ ((π€ππΎ − πππΎ ) − (π€βπΎ − πβπΎ )) . πΌπΌ πΌπΌ Because π€ Μ ππ and π€ Μππ are solutions to the optimization problem in (A-14) and they are non-zero, they should satisfy: πβπ²πΎ −π πΎ π°πΎ β22 ππ€ππΎ | πβπ²πΎ −π πΎ π°πΎ β22 ππ€ππΎ II ΜπΎ π° | II π° ΜπΎ ππ(π°πΎ ) ππ€ππΎ | II ΜπΎ π° = 0 and ππ(π°πΎ ) ππ€ππΎ | II π° ΜπΎ = 0, i.e., πΌπΌ πΌπΌ πΌπΌ ) + 2π2 ∑ππ ~πβ ππβ ((π€ + π1 π ππ(π€ Μ ππ Μ ππ − πππΎ ) − (π€ Μ βπ − πβπΎ )) = 0, (A-17) πΌπΌ πΌπΌ πΌπΌ + π1 π ππ(π€ Μππ ) − 2π2 ∑ππ ~ππ πππ ((π€ Μ ππ − πππΎ ) − (π€ Μππ − πππΎ )) = 0. (A-18) Focusing on (A-17), the third term on the left-hand side can be written into: πΌπΌ πΌπΌ 2π2 ∑ππ ~πβ ππβ ((π€ Μ ππ − πππΎ ) − (π€ Μ βπ − πβπΎ )) πΌπΌ πΌπΌ πΌπΌ πΌπΌ = 2π2 πππ ((π€ Μ ππ − πππΎ ) − (π€ Μππ − πππΎ )) + 2π2 ∑ππ ~πβ ,β≠π ππβ ((π€ Μ ππ − πππΎ ) − (π€ Μ βπ − πβπΎ )) πΌπΌ πΌπΌ ≈ 2π2 πππ ((π€ Μ ππ − πππΎ ) − (π€ Μππ − πππΎ )). (A-19) 6 The last step follows from the given assumption that πππ β« ππβ . Similarly, the third term on the left-hand side of (A-18) can be written into πΌπΌ πΌπΌ πΌπΌ πΌπΌ 2π2 ∑ππ ~ππ πππ ((π€ Μ ππ − πππΎ ) − (π€ Μππ − πππΎ )) = 2π2 πππ ((π€ Μ ππ − πππΎ ) − (π€ Μππ − πππΎ )). (A-20) Considering (A-19) and (A-20) and taking the difference between (A-17) and (A-18), πΌπΌ πΌπΌ πΌπΌ πΌπΌ ) cancels with π1 π ππ(π€ π1 π ππ(π€ Μ ππ Μππ ) because it is known that π€ Μ ππ π€ Μππ > 0, and we get: πβπ²πΎ −π πΎ π°πΎ β22 ππ€ππΎ | II ΜπΎ π° − πβπ²πΎ −π πΎ π°πΎ β22 ππ€ππΎ | II π° ΜπΎ πΌπΌ πΌπΌ + 4π2 πππ ((π€ Μ ππ − πππΎ ) − (π€ Μππ − πππΎ )) = 0. (A-21) π πΌπΌ πΌπΌ −2(ππππΎ − πππΎ )(π²πΎ − π πΎ π° Μ πΎII ) + 4π2 πππ ((π€ Μ ππ − πππΎ ) − (π€ Μππ − πππΎ )) = 0. (A-22) Furthermore, we can get: πΌπΌ πΌπΌ |(π€ Μ ππ − πππΎ ) − (π€ Μππ − πππΎ )| ≤ βπππΎ −πππΎ β 2 II β ×βπ²πΎ −π πΎ π° ΜπΎ 2π2 2 1 πππ . (A-23) We would like to have an upper bound that does not include π° Μ πΎII . To achieve this, we adopt the following strategy: Because π° Μ πΎII is the optimal solution, π(π° Μ πΎII ) should be the smallest. Therefore, π(π° Μ πΎII ) ≤ π(0), i.e., 2 2 πΌπΌ πΌπΌ π(π° Μ πΎII ) = βπ²πΎ − π πΎ π° Μ πΎII β2 + π1 βπ° Μ πΎII β1 + π2 ∑ππ ~πβ ππβ ((π€ Μ ππ − πππΎ ) − (π€ Μ βπ − πβπΎ )) ≤ π(0) = βπ²πΎ β22 + π2 ∑ππ ~πβ ππβ (πππΎ − πβπΎ )2 . (A-24) Then, 2 2 βπ²πΎ − π πΎ π° Μ πΎII β2 ≤ βπ²πΎ β22 + π2 ∑ππ ~πβ ππβ (πππΎ − πβπΎ )2 ≈ βπ²πΎ β22 + 2π2 πππ (πππΎ − πππΎ ) , and 2 2 βπ²πΎ − π πΎ π° Μ πΎII β2 ≤ √βπ²πΎ β22 + 2π2 πππ (πππΎ − πππΎ ) . (A-25) Inserting (A-25) into (A-23), we get πΌπΌ πΌπΌ |(π€ Μ ππ − πππΎ ) − (π€ Μππ − πππΎ )| ≤ βπ±ππΎ −π±ππΎ β 2π2 2 × √ βπ²πΎ β22 7 2 πππ + 2π2 (πππΎ −πππΎ ) πππ 2 . VI: Obtaining (24) by the gradient method. Given π°πΎ , the optimization problem in (24) with respect to ππΎ and π‘πΎ is: min π(ππΎ , π‘πΎ ) = min ππΎ ,π‘πΎ ππΎ ,π‘πΎ Μ −1 π‘πΎ ) + {πππ(ππΎ − π‘ππΎ π 1 Μ −1 π‘πΎ ππΎ − π‘ππΎ π (π°πΎ − ππΎ )π π(π°πΎ − ππΎ )} Using the gradient method, set the partial derivatives of π(ππΎ , π‘πΎ ) to be zero: { π π(ππΎ , ππΎ )⁄πππΎ = 0 , π π(ππΎ , ππΎ )⁄πππΎ = 0 i.e., π π(ππΎ , ππΎ )⁄πππΎ = π Μ −1 ππΎ −π‘π πΎ π π‘πΎ Μ −1 π‘πΎ 2ππ π Μ −1 π‘ πΎ −π‘πΎ π πΎ ππ(ππΎ , ππΎ )⁄πππΎ = − π Μ −1 π‘πΎ (π°πΎ −π Μ −1 π‘πΎ )π π(π°πΎ −π Μ −1 π‘πΎ ) Μπ Μπ 2π Μ −1 (ππΎ −π‘π πΎ π π‘πΎ ) π − π − π Μ −1 Μ −1 (π°πΎ −π‘π πΎ π π‘πΎ ) π(π°πΎ −π‘πΎ π π‘πΎ ) Μ −1 (ππΎ −π‘π πΎ π π‘πΎ ) π = 0, (A-26) Μ −1 π Μ −1 π‘πΎ ) Μ π π(π°πΎ −π Μπ 2π + π −1 Μ ππΎ −π‘πΎ π π‘πΎ = 0. (A-27) From (A-26), we can get: Μ −1 π‘πΎ ) = (π°πΎ − π Μ −1 π‘πΎ )π π(π°πΎ − π Μ −1 π‘πΎ ). Μπ Μπ π(ππΎ − π‘ππΎ π (A-28) Inserting (A-28) into the third term of (A-27) and through some algebra, we can get: Μ −1 π Μ −1 π Μ −1 π‘πΎ = 0. Μ π ππ°πΎ − π Μ π ππ Μπ π (A-29) Μ . Using this in (A-29), Μ π ππ Μ = ππ According to (22), π Μ π ππ°πΎ ⁄π . π‘ ΜπΎ = π Furthermore, according to (A-28), 1 Μ −1 π‘πΎ )π π(π°πΎ − π Μ −1 π‘πΎ ) + π‘ππΎ π Μ −1 π‘πΎ Μπ Μπ ππΎ = π (π°πΎ − π 1 2 Μ −1 π‘πΎ + 1 π‘ππΎ π Μ −1 π Μ −1 π‘πΎ + π‘ππΎ π Μ −1 π‘πΎ Μπ Μ π ππ Μπ = π π°πΎ π ππ°πΎ − π π°πΎ π ππ π 1 2 Μ −1 π‘πΎ + 2π‘ππΎ π Μ −1 π‘πΎ . Μπ = π π°πΎ π ππ°πΎ − π π°πΎ π ππ 8 (A-30) 1 Using (A-30) in the second term, we can get πΜπΎ = π π°πΎ π ππ°πΎ . Finally, in order to prove that the π‘ Μ πΎ and πΜπΎ are optimal solutions for a minimization problem, π π 2 (ππΎ , ππΎ )⁄πππΎ2 |πΜπΎ,π‘ ΜπΎ > 0 we will need to show { 2 . “ β»” denotes a matrix being positive π π (ππΎ , ππΎ )⁄ππ2πΎ |πΜπΎ ,π‘ ΜπΎ β» 0 definite. It can be derived that: π π 2 (ππΎ , ππΎ )⁄πππΎ2 |πΜπΎ,π‘ ΜπΎ = π 2 Μ −1 (ππΎ −π‘π πΎ π π‘πΎ ) > 0. Furthermore, π π 2 (ππΎ , ππΎ )⁄ππ2πΎ |πΜπΎ,π‘ ΜπΎ = 2π 2 Μ −1 (ππΎ −π‘π πΎ π π‘πΎ ) Μ −1 π‘πΎ π‘ππΎ π Μ −1 + π π 2π π Μ −1 π‘ πΎ −π‘πΎ π πΎ Μ −1, π Μ −1 π‘πΎ π‘ππΎ π Μ −1 β» 0 and π Μ −1 β» 0. So π π 2 (ππΎ , ππΎ )⁄ππ2πΎ |πΜ ,π‘ where π β» 0. πΎ ΜπΎ 9