] add BenchmarkTools

using Distributed
using BenchmarkTools
using Printf
if procs() == workers()
    addprocs(4)
end
function answer_checker(answer,solution)
    if answer == solution
        "🥳 Well done! "
    else
        "It's not correct. Keep trying! 💪"
    end |> println
end
alg_0_comp_check(answer) = answer_checker(answer, "d")
alg_1_deps_check(answer) = answer_checker(answer,"b")
alg_1_comm_overhead_check(answer) = answer_checker(answer, "b")
alg_1_comp_check(answer) = answer_checker(answer, "b")
alg_2_complex_check(answer) = answer_checker(answer, "b")
alg_2_deps_check(answer) = answer_checker(answer,"d")
alg_3_deps_check(answer) = answer_checker(answer, "c")
alg_3_complex_check(answer) = answer_checker(answer, "b")
println("🥳 Well done! ")

@everywhere function matmul_seq!(C,A,B)
    m = size(C,1)
    n = size(C,2)
    l = size(A,2)
    @assert size(A,1) == m
    @assert size(B,2) == n
    @assert size(B,1) == l
    z = zero(eltype(C))
    for j in 1:n
        for i in 1:m
            Cij = z
            for k in 1:l
                @inbounds Cij += A[i,k]*B[k,j]
            end
            C[i,j] = Cij
        end
    end
    C
end

using Test
N = 10
A = rand(N,N)
B = rand(N,N)
C = similar(A)
matmul_seq!(C,A,B)
@test C ≈ A*B

using LinearAlgebra
N = 1000
A = rand(N,N)
B = rand(N,N)
C = rand(N,N)
@btime matmul_seq!(C,A,B)
@btime mul!(C,A,B);

for j in 1:N
    for i in 1:N
        Cij = z
        for k in 1:N
            @inbounds Cij += A[i,k]*B[k,j]
        end
        C[i,j] = Cij
    end
end

answer = "x" # replace x with a, b, c, or d 
alg_0_comp_check(answer)

for j in 1:n
    for i in 1:m
        Cij = z
        for k in 1:l
            @inbounds Cij +=  A[i,k]*B[k,j]
        end
        C[i,j] = Cij
    end
end

answer = "x" # replace x with a, b, c, or d 
alg_1_deps_check(answer)

function matmul_dist_1!(C, A, B)
    m = size(C,1)
    n = size(C,2)
    l = size(A,2)
    @assert size(A,1) == m
    @assert size(B,2) == n
    @assert size(B,1) == l
    z = zero(eltype(C))
    @assert nworkers() == m*n
    iw = 0    
    @sync for j in 1:n
        for i in 1:m
            Ai = A[i,:]
            Bj = B[:,j]
            iw += 1
            w = workers()[iw]
            ftr = @spawnat w begin
                Cij = z
                for k in 1:l
                    @inbounds Cij += Ai[k]*Bj[k]
                end
                Cij
            end
            @async C[i,j] = fetch(ftr)
        end
    end
    C
end

using Test
N = 2
A = rand(N,N)
B = rand(N,N)
C = similar(A)
matmul_dist_1!(C,A,B)
@test  C ≈ A*B

N = 2
A = rand(N,N)
B = rand(N,N)
C = similar(A)
T1 = @belapsed matmul_seq!(C,A,B)
C = similar(A)
TP = @belapsed matmul_dist_1!(C,A,B)
P = nworkers()
println("Speedup = ", T1/TP)
println("Optimal speedup = ", P)
println("Efficiency = ", 100*(T1/TP)/P, "%")

answer = "x" # replace x with a, b, c, or d 
alg_1_comm_overhead_check(answer)

answer = "x" # replace x with a, b, or c
alg_1_comp_check(answer)

answer = "x" # replace x with a, b, c, or d 
alg_2_deps_check(answer)

function matmul_dist_2!(C, A, B)
    m = size(C,1)
    n = size(C,2)
    l = size(A,2)
    @assert size(A,1) == m
    @assert size(B,2) == n
    @assert size(B,1) == l
    z = zero(eltype(C))
    @assert nworkers() == m
    iw = 0
    @sync for i in 1:m
        Ai = A[i,:]
        iw += 1
        w = workers()[iw]
        ftr = @spawnat w begin
            Ci = fill(z,n)
            for j in 1:n
                for k in 1:l
                    @inbounds Ci[j] += Ai[k]*B[k,j]
                end
            end
            Ci
        end
        @async C[i,:] = fetch(ftr)
    end
    C
    end

using Test
N = 4
A = rand(N,N)
B = rand(N,N)
C = similar(A)
@test matmul_dist_2!(C,A,B) ≈ A*B

N = 4
A = rand(N,N)
B = rand(N,N)
C = similar(A)
T1 = @belapsed matmul_seq!(C,A,B)
C = similar(A)
TP = @belapsed matmul_dist_2!(C,A,B)
P = nworkers()
println("Speedup = ", T1/TP)
println("Optimal speedup = ", P)
println("Efficiency = ", 100*(T1/TP)/P, "%")

answer = "x" # replace x with a, b, c, or d 
alg_2_complex_check(answer)

answer = "x" # replace x with a, b, c, or d 
alg_3_deps_check(answer)

answer = "x" # replace x with a, b, c, or d 
alg_3_complex_check(answer)

function matmul_dist_3!(C,A,B)
    m = size(C,1)
    n = size(C,2)
    l = size(A,2)
    @assert size(A,1) == m
    @assert size(B,2) == n
    @assert size(B,1) == l
    @assert mod(m,nworkers()) == 0
    # Implement here
end

using Test
P = nworkers()
load = 100
N = load*P
A = rand(N,N)
B = rand(N,N)
C = similar(A)
@test matmul_dist_3!(C,A,B) ≈ A*B

P = nworkers()
load = 50 # try with 50, 100, and 200
N = load*P
A = rand(N,N)
B = rand(N,N)
C = similar(A)
T1 = @belapsed matmul_seq!(C,A,B)
C = similar(A)
TP = @belapsed matmul_dist_3!(C,A,B)
println("Speedup = ", T1/TP)
println("Optimal speedup = ", P)
println("Efficiency = ", 100*(T1/TP)/P, "%")

Algorithm	Parallelism (#workers)	Communication per worker	Computation per worker	Ratio communication/ computation
1	N²	O(N)	O(N)	O(1)
2	N	O(N²)	O(N²)	O(1)
3	P	O(N²)	O(N³/P)	O(P/N)

Programming large-scale parallel systems¶

Matrix-matrix multiplication¶

Contents¶

Problem Statement¶

Goals¶

Assumptions¶

Steps¶

Serial implementation¶

Where can we exploit parallelism?¶

Parallel algorithms¶

Parallel algorithm 1¶

Data dependencies¶

Implementation¶

Performance¶

Experimental speedup¶

Communication overhead¶

Parallel algorithm 2¶

Data dependencies¶

Implementation¶

Experimental speedup¶

Complexity¶

Parallel algorithm 3¶

Data dependencies¶

Implementation¶

Communication overhead¶

Summary¶

Exercises¶

Exercise 1¶

License¶