architectural improvements to sfno (#18)

Major Cleanup of SFNO. Retiring non-linear architecture and fixing initialization. Adding scripts for training and validation.

architectural improvements to sfno (#18)
Major Cleanup of SFNO. Retiring non-linear architecture and fixing initialization. Adding scripts for training and validation.
4dadf551 · Boris Bonev · GitHub · 08108157 · 4dadf551 · 4dadf551
Unverified Commit 4dadf551 authored Nov 13, 2023 by Boris Bonev Committed by GitHub Nov 13, 2023
8 changed files
--- a/examples/train_sfno.py
+++ b/examples/train_sfno.py
@@ -46,13 +46,12 @@ import pandas as pd
 import matplotlib.pyplot as plt

 from torch_harmonics.examples.sfno import PdeDataset
-from torch_harmonics.examples.sfno import SphericalFourierNeuralOperatorNet as SFNO

 # wandb logging
 import wandb
 wandb.login()

-def l2loss_sphere(solver, prd, tar, relative=False, squared=False):
+def l2loss_sphere(solver, prd, tar, relative=False, squared=True):
    loss = solver.integrate_grid((prd - tar)**2, dimensionless=True).sum(dim=-1)
    if relative:
        loss = loss / solver.integrate_grid(tar**2, dimensionless=True).sum(dim=-1)
@@ -63,7 +62,7 @@ def l2loss_sphere(solver, prd, tar, relative=False, squared=False):

    return loss

-def spectral_l2loss_sphere(solver, prd, tar, relative=False, squared=False):
+def spectral_l2loss_sphere(solver, prd, tar, relative=False, squared=True):
    # compute coefficients
    coeffs = torch.view_as_real(solver.sht(prd - tar))
    coeffs = coeffs[..., 0]**2 + coeffs[..., 1]**2
@@ -83,7 +82,7 @@ def spectral_l2loss_sphere(solver, prd, tar, relative=False, squared=False):

    return loss

-def spectral_loss_sphere(solver, prd, tar, relative=False, squared=False):
+def spectral_loss_sphere(solver, prd, tar, relative=False, squared=True):
    # gradient weighting factors
    lmax = solver.sht.lmax
    ls = torch.arange(lmax).float()
@@ -110,7 +109,7 @@ def spectral_loss_sphere(solver, prd, tar, relative=False, squared=False):

    return loss

-def h1loss_sphere(solver, prd, tar, relative=False, squared=False):
+def h1loss_sphere(solver, prd, tar, relative=False, squared=True):
    # gradient weighting factors
    lmax = solver.sht.lmax
    ls = torch.arange(lmax).float()
@@ -139,7 +138,6 @@ def h1loss_sphere(solver, prd, tar, relative=False, squared=False):

    return loss

-
 def fluct_l2loss_sphere(solver, prd, tar, inp, relative=False, polar_opt=0):
    # compute the weighting factor first
    fluct = solver.integrate_grid((tar - inp)**2, dimensionless=True, polar_opt=polar_opt)
@@ -152,36 +150,107 @@ def fluct_l2loss_sphere(solver, prd, tar, inp, relative=False, polar_opt=0):
    loss = torch.mean(loss)
    return loss

+# rolls out the FNO and compares to the classical solver
+def autoregressive_inference(model,
+                             dataset,
+                             path_root,
+                             nsteps,
+                             autoreg_steps=10,
+                             nskip=1,
+                             plot_channel=0,
+                             nics=20):

-def main(train=True, load_checkpoint=False, enable_amp=False):
+    model.eval()

-    # set seed
-    torch.manual_seed(333)
-    torch.cuda.manual_seed(333)
+    losses = np.zeros(nics)
+    fno_times = np.zeros(nics)
+    nwp_times = np.zeros(nics)

-    # set device
-    device = torch.device('cuda:1' if torch.cuda.is_available() else 'cpu')
-    if torch.cuda.is_available():
-        torch.cuda.set_device(device.index)
+    for iic in range(nics):
+        ic = dataset.solver.random_initial_condition(mach=0.2)
+        inp_mean = dataset.inp_mean
+        inp_var = dataset.inp_var

-    # 1 hour prediction steps
-    dt = 1*3600
-    dt_solver = 150
-    nsteps = dt//dt_solver
-    dataset = PdeDataset(dt=dt, nsteps=nsteps, dims=(256, 512), device=device, normalize=True)
-    # There is still an issue with parallel dataloading. Do NOT use it at the moment     
-    # dataloader = DataLoader(dataset, batch_size=4, shuffle=True, num_workers=4, persistent_workers=True)
-    dataloader = DataLoader(dataset, batch_size=4, shuffle=True, num_workers=0, persistent_workers=False)
-    solver = dataset.solver.to(device)
+        prd = (dataset.solver.spec2grid(ic) - inp_mean) / torch.sqrt(inp_var)
+        prd = prd.unsqueeze(0)
+        uspec = ic.clone()

-    nlat = dataset.nlat
-    nlon = dataset.nlon
+        # ML model
+        start_time = time.time()
+        for i in range(1, autoreg_steps+1):
+            # evaluate the ML model
+            prd = model(prd)
+
+            if iic == nics-1 and nskip > 0 and i % nskip == 0:
+
+                # do plotting
+                fig = plt.figure(figsize=(7.5, 6))
+                dataset.solver.plot_griddata(prd[0, plot_channel], fig, vmax=4, vmin=-4)
+                plt.savefig(path_root+'_pred_'+str(i//nskip)+'.png')
+                plt.clf()

-    # training function
-    def train_model(model, dataloader, optimizer, gscaler, scheduler=None, nepochs=20, nfuture=0, num_examples=256, num_valid=8, loss_fn='l2'):
+        fno_times[iic] = time.time() - start_time
+
+        # classical model
+        start_time = time.time()
+        for i in range(1, autoreg_steps+1):
+            
+            # advance classical model
+            uspec = dataset.solver.timestep(uspec, nsteps)
+
+            if iic == nics-1 and i % nskip == 0 and nskip > 0:
+                ref = (dataset.solver.spec2grid(uspec) - inp_mean) / torch.sqrt(inp_var)
+
+                fig = plt.figure(figsize=(7.5, 6))
+                dataset.solver.plot_griddata(ref[plot_channel], fig, vmax=4, vmin=-4)
+                plt.savefig(path_root+'_truth_'+str(i//nskip)+'.png')
+                plt.clf()
+
+        nwp_times[iic] = time.time() - start_time
+
+        # ref = (dataset.solver.spec2grid(uspec) - inp_mean) / torch.sqrt(inp_var)
+        ref = dataset.solver.spec2grid(uspec)
+        prd = prd * torch.sqrt(inp_var) + inp_mean
+        losses[iic] = l2loss_sphere(dataset.solver, prd, ref, relative=True).item()
+        
+
+    return losses, fno_times, nwp_times
+
+# convenience function for logging weights and gradients
+def log_weights_and_grads(model, iters=1):
+    """
+    Helper routine intended for debugging purposes
+    """
+    root_path = os.path.join(os.path.dirname(__file__), "weights_and_grads")
+
+    weights_and_grads_fname = os.path.join(root_path, f"weights_and_grads_step{iters:03d}.tar")
+    print(weights_and_grads_fname)
+
+    weights_dict = {k:v for k,v in model.named_parameters()}
+    grad_dict = {k:v.grad for k,v in model.named_parameters()}
+
+    store_dict = {'iteration': iters, 'grads': grad_dict, 'weights': weights_dict}
+    torch.save(store_dict, weights_and_grads_fname)
+
+# training function
+def train_model(model,
+                dataloader,
+                optimizer,
+                gscaler,
+                scheduler=None,
+                nepochs=20,
+                nfuture=0,
+                num_examples=256,
+                num_valid=8,
+                loss_fn='l2',
+                enable_amp=False,
+                log_grads=0):

    train_start = time.time()

+    # count iterations
+    iters = 0
+
    for epoch in range(nepochs):

        # time each epoch
@@ -190,6 +259,9 @@ def main(train=True, load_checkpoint=False, enable_amp=False):
        dataloader.dataset.set_initial_condition('random')
        dataloader.dataset.set_num_examples(num_examples)

+        # get the solver for its convenience functions
+        solver = dataloader.dataset.solver
+
        # do the training
        acc_loss = 0
        model.train()
@@ -204,6 +276,8 @@ def main(train=True, load_checkpoint=False, enable_amp=False):

                if loss_fn == 'l2':
                    loss = l2loss_sphere(solver, prd, tar, relative=False)
+                elif loss_fn == 'spectral l2':
+                    loss = spectral_l2loss_sphere(solver, prd, tar, relative=False)
                elif loss_fn == 'h1':
                    loss = h1loss_sphere(solver, prd, tar, relative=False)
                elif loss_fn == 'spectral':
@@ -216,11 +290,16 @@ def main(train=True, load_checkpoint=False, enable_amp=False):
            acc_loss += loss.item() * inp.size(0)

            optimizer.zero_grad(set_to_none=True)
-                # gscaler.scale(loss).backward()
            gscaler.scale(loss).backward()
+
+            if log_grads and iters % log_grads == 0:
+                log_weights_and_grads(model, iters=iters)
+
            gscaler.step(optimizer)
            gscaler.update()

+            iters += 1
+
        acc_loss = acc_loss / len(dataloader.dataset)

        dataloader.dataset.set_initial_condition('random')
@@ -262,64 +341,28 @@ def main(train=True, load_checkpoint=False, enable_amp=False):
    print(f'done. Training took {train_time}.')
    return valid_loss

-    # rolls out the FNO and compares to the classical solver
-    def autoregressive_inference(model, dataset, path_root, nsteps, autoreg_steps=10, nskip=1, plot_channel=0, nics=20):
-
-        model.eval()
-
-        losses = np.zeros(nics)
-        fno_times = np.zeros(nics)
-        nwp_times = np.zeros(nics)
-
-        for iic in range(nics):
-            ic = dataset.solver.random_initial_condition(mach=0.2)
-            inp_mean = dataset.inp_mean
-            inp_var = dataset.inp_var
-
-            prd = (dataset.solver.spec2grid(ic) - inp_mean) / torch.sqrt(inp_var)
-            prd = prd.unsqueeze(0)
-            uspec = ic.clone()
-
-            # ML model
-            start_time = time.time()
-            for i in range(1, autoreg_steps+1):
-                # evaluate the ML model
-                prd = model(prd)
-
-                if iic == nics-1 and nskip > 0 and i % nskip == 0:
-
-                    # do plotting
-                    fig = plt.figure(figsize=(7.5, 6))
-                    dataset.solver.plot_griddata(prd[0, plot_channel], fig, vmax=4, vmin=-4)
-                    plt.savefig(path_root+'_pred_'+str(i//nskip)+'.png')
-                    plt.clf()
-
-            fno_times[iic] = time.time() - start_time
-
-            # classical model
-            start_time = time.time()
-            for i in range(1, autoreg_steps+1):
-                
-                # advance classical model
-                uspec = dataset.solver.timestep(uspec, nsteps)
+def main(train=True, load_checkpoint=False, enable_amp=False, log_grads=0):

-                if iic == nics-1 and i % nskip == 0 and nskip > 0:
-                    ref = (dataset.solver.spec2grid(uspec) - inp_mean) / torch.sqrt(inp_var)
-
-                    fig = plt.figure(figsize=(7.5, 6))
-                    dataset.solver.plot_griddata(ref[plot_channel], fig, vmax=4, vmin=-4)
-                    plt.savefig(path_root+'_truth_'+str(i//nskip)+'.png')
-                    plt.clf()
-
-            nwp_times[iic] = time.time() - start_time
+    # set seed
+    torch.manual_seed(333)
+    torch.cuda.manual_seed(333)

-            # ref = (dataset.solver.spec2grid(uspec) - inp_mean) / torch.sqrt(inp_var)
-            ref = dataset.solver.spec2grid(uspec)
-            prd = prd * torch.sqrt(inp_var) + inp_mean
-            losses[iic] = l2loss_sphere(solver, prd, ref, relative=True).item()
+    # set device
+    device = torch.device('cuda:1' if torch.cuda.is_available() else 'cpu')
+    if torch.cuda.is_available():
+        torch.cuda.set_device(device.index)

+    # 1 hour prediction steps
+    dt = 1*3600
+    dt_solver = 150
+    nsteps = dt//dt_solver
+    dataset = PdeDataset(dt=dt, nsteps=nsteps, dims=(256, 512), device=device, normalize=True)
+    # There is still an issue with parallel dataloading. Do NOT use it at the moment     
+    # dataloader = DataLoader(dataset, batch_size=4, shuffle=True, num_workers=4, persistent_workers=True)
+    dataloader = DataLoader(dataset, batch_size=4, shuffle=True, num_workers=0, persistent_workers=False)

-        return losses, fno_times, nwp_times
+    nlat = dataset.nlat
+    nlon = dataset.nlon

    def count_parameters(model):
        return sum(p.numel() for p in model.parameters() if p.requires_grad)
@@ -328,20 +371,28 @@ def main(train=True, load_checkpoint=False, enable_amp=False):
    models = {}
    metrics = {}

+    from torch_harmonics.examples.sfno import SphericalFourierNeuralOperatorNet as SFNO
+
+    models["sfno_sc3_layer4_e16_linskip_nomlp"] = partial(SFNO, spectral_transform='sht', img_size=(nlat, nlon),  grid="equiangular",
+                                                          num_layers=4, scale_factor=3, embed_dim=16, operator_type='driscoll-healy',
+                                                          big_skip=False, pos_embed=False, use_mlp=False, normalization_layer="none")
+    # models["sfno_sc3_layer4_e256_noskip_mlp"]   = partial(SFNO, spectral_transform='sht', img_size=(nlat, nlon),  grid="equiangular",
+    #                                                       num_layers=4, scale_factor=3, embed_dim=256, operator_type='driscoll-healy',
+    #                                                       big_skip=False, pos_embed=False, use_mlp=True, normalization_layer="none")
+    # from torch_harmonics.examples.sfno.models.unet import UNet
+    # models['unet_baseline'] = partial(UNet)
+
+
    # # U-Net if installed
    # from models.unet import UNet
    # models['unet_baseline'] = partial(UNet)

    # SFNO models
-    models['sfno_sc3_layer4_edim256_linear']    = partial(SFNO, spectral_transform='sht', filter_type='linear', img_size=(nlat, nlon),
-                                                     num_layers=4, scale_factor=3, embed_dim=256, operator_type='driscoll-healy')
-    models['sfno_sc3_layer4_edim256_real']      = partial(SFNO, spectral_transform='sht', filter_type='non-linear', img_size=(nlat, nlon),
-                                                     num_layers=4, scale_factor=3, embed_dim=256, complex_activation = 'real', operator_type='diagonal')
-    # FNO models
-    models['fno_sc3_layer4_edim256_linear']     = partial(SFNO, spectral_transform='fft', filter_type='linear', img_size=(nlat, nlon),
-                                                     num_layers=4, scale_factor=3, embed_dim=256, operator_type='diagonal')
-    models['fno_sc3_layer4_edim256_real']       = partial(SFNO, spectral_transform='fft', filter_type='non-linear', img_size=(nlat, nlon),
-                                                     num_layers=4, scale_factor=3, embed_dim=256, complex_activation='real')
+    # models['sfno_sc3_layer4_edim256_linear']    = partial(SFNO, spectral_transform='sht', img_size=(nlat, nlon), grid="equiangular",
+    #                                                  num_layers=4, scale_factor=3, embed_dim=256, operator_type='driscoll-healy')
+    # # FNO models
+    # models['fno_sc3_layer4_edim256_linear']     = partial(SFNO, spectral_transform='fft', img_size=(nlat, nlon), grid="equiangular",
+    #                                                  num_layers=4, scale_factor=3, embed_dim=256, operator_type='diagonal')

    # iterate over models and train each model
    root_path = os.path.dirname(__file__)
@@ -349,6 +400,8 @@ def main(train=True, load_checkpoint=False, enable_amp=False):

        model = model_handle().to(device)

+        print(model)
+
        metrics[model_name] = {}

        num_params = count_parameters(model)
@@ -360,26 +413,26 @@ def main(train=True, load_checkpoint=False, enable_amp=False):

        # run the training
        if train:
-            run = wandb.init(project="sfno spherical swe", group=model_name, name=model_name + '_' + str(time.time()), config=model_handle.keywords)
+            run = wandb.init(project="sfno ablations spherical swe", group=model_name, name=model_name + '_' + str(time.time()), config=model_handle.keywords)

            # optimizer:
-            optimizer = torch.optim.Adam(model.parameters(), lr=1E-3)
+            optimizer = torch.optim.Adam(model.parameters(), lr=3E-3)
            scheduler = torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, 'min')
            gscaler = amp.GradScaler(enabled=enable_amp)

            start_time = time.time()

            print(f'Training {model_name}, single step')
-            train_model(model, dataloader, optimizer, gscaler, scheduler, nepochs=200, loss_fn='l2')
+            train_model(model, dataloader, optimizer, gscaler, scheduler, nepochs=10, loss_fn='l2', enable_amp=enable_amp, log_grads=log_grads)

-            # multistep training
-            print(f'Training {model_name}, two step')
-            optimizer = torch.optim.Adam(model.parameters(), lr=5E-5)
-            scheduler = torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, 'min')
-            gscaler = amp.GradScaler(enabled=enable_amp)
-            dataloader.dataset.nsteps = 2 * dt//dt_solver
-            train_model(model, dataloader, optimizer, gscaler, scheduler, nepochs=20, nfuture=1)
-            dataloader.dataset.nsteps = 1 * dt//dt_solver
+            # # multistep training
+            # print(f'Training {model_name}, two step')
+            # optimizer = torch.optim.Adam(model.parameters(), lr=5E-5)
+            # scheduler = torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, 'min')
+            # gscaler = amp.GradScaler(enabled=enable_amp)
+            # dataloader.dataset.nsteps = 2 * dt//dt_solver
+            # train_model(model, dataloader, optimizer, gscaler, scheduler, nepochs=20, nfuture=1, enable_amp=enable_amp)
+            # dataloader.dataset.nsteps = 1 * dt//dt_solver

            training_time = time.time() - start_time

@@ -392,7 +445,7 @@ def main(train=True, load_checkpoint=False, enable_amp=False):
        torch.cuda.manual_seed(333)

        with torch.inference_mode():
-            losses, fno_times, nwp_times = autoregressive_inference(model, dataset, os.path.join(root_path,'paper_figures/'+model_name), nsteps=nsteps, autoreg_steps=10)
+            losses, fno_times, nwp_times = autoregressive_inference(model, dataset, os.path.join(root_path,'figures/'+model_name), nsteps=nsteps, autoreg_steps=10)
            metrics[model_name]['loss_mean'] = np.mean(losses)
            metrics[model_name]['loss_std'] = np.std(losses)
            metrics[model_name]['fno_time_mean'] = np.mean(fno_times)
@@ -409,4 +462,4 @@ if __name__ == "__main__":
    import torch.multiprocessing as mp
    mp.set_start_method('forkserver', force=True)

-    main(train=True, load_checkpoint=False, enable_amp=False)
+    main(train=True, load_checkpoint=False, enable_amp=False, log_grads=0)
--- a/notebooks/conditioning_sht.ipynb
+++ b/notebooks/conditioning_sht.ipynb
--- a/notebooks/gradient_analysis.ipynb
+++ b/notebooks/gradient_analysis.ipynb
@@ -108,16 +108,16 @@
     "output_type": "stream",
     "text": [
      "/home/bbonev/.zshenv:export:2: not valid in this context: :/usr/local/cuda-11.7/lib64\n",
-      "--2023-10-24 18:08:10--  https://astropedia.astrogeology.usgs.gov/download/Mars/GlobalSurveyor/MOLA/thumbs/Mars_MGS_MOLA_DEM_mosaic_global_1024.jpg\n",
+      "--2023-10-30 18:00:14--  https://astropedia.astrogeology.usgs.gov/download/Mars/GlobalSurveyor/MOLA/thumbs/Mars_MGS_MOLA_DEM_mosaic_global_1024.jpg\n",
      "Resolving astropedia.astrogeology.usgs.gov (astropedia.astrogeology.usgs.gov)... 137.227.239.81, 2001:49c8:c000:122d::81\n",
      "Connecting to astropedia.astrogeology.usgs.gov (astropedia.astrogeology.usgs.gov)|137.227.239.81|:443... connected.\n",
      "HTTP request sent, awaiting response... 200 \n",
      "Length: 55192 (54K) [image/jpeg]\n",
      "Saving to: ‘./data/mola_topo.jpg’\n",
      "\n",
-      "./data/mola_topo.jp 100%[===================>]  53.90K   161KB/s    in 0.3s    \n",
+      "./data/mola_topo.jp 100%[===================>]  53.90K   154KB/s    in 0.3s    \n",
      "\n",
-      "2023-10-24 18:08:12 (161 KB/s) - ‘./data/mola_topo.jpg’ saved [55192/55192]\n",
+      "2023-10-30 18:00:15 (154 KB/s) - ‘./data/mola_topo.jpg’ saved [55192/55192]\n",
      "\n"
     ]
    }
@@ -142,7 +142,7 @@
    {
     "data": {
      "text/plain": [
-       "<cartopy.mpl.geocollection.GeoQuadMesh at 0x7f991436a230>"
+       "<cartopy.mpl.geocollection.GeoQuadMesh at 0x7f49e4952380>"
      ]
     },
     "execution_count": 4,
@@ -178,46 +178,46 @@
     "name": "stdout",
     "output_type": "stream",
     "text": [
-      "iter: 0, loss: 504.56821962467404\n",
-      "iter: 1, loss: 0.00802396426749307\n",
-      "iter: 2, loss: 0.008023963812431065\n",
-      "iter: 3, loss: 0.008023963784318747\n",
-      "iter: 4, loss: 0.008023962882019332\n",
-      "iter: 5, loss: 0.008023963275982648\n",
-      "iter: 6, loss: 0.008023962667711045\n",
-      "iter: 7, loss: 0.008023963782547126\n",
-      "iter: 8, loss: 0.008023963340130377\n",
-      "iter: 9, loss: 0.008023963717686556\n",
-      "iter: 10, loss: 0.008023963189075497\n",
-      "iter: 11, loss: 0.008023963662749444\n",
-      "iter: 12, loss: 0.008023964217954163\n",
-      "iter: 13, loss: 0.008023963645109735\n",
-      "iter: 14, loss: 0.008023963884895183\n",
-      "iter: 15, loss: 0.008023963417559243\n",
-      "iter: 16, loss: 0.008023963709925376\n",
-      "iter: 17, loss: 0.008023963864442468\n",
-      "iter: 18, loss: 0.008023963186281617\n",
-      "iter: 19, loss: 0.008023962844331859\n",
-      "iter: 20, loss: 0.008023963578808139\n",
-      "iter: 21, loss: 0.00802396382884392\n",
-      "iter: 22, loss: 0.008023963250166802\n",
-      "iter: 23, loss: 0.008023963424637747\n",
-      "iter: 24, loss: 0.008023964456974\n",
-      "iter: 25, loss: 0.00802396354425496\n",
-      "iter: 26, loss: 0.008023964264189777\n",
-      "iter: 27, loss: 0.008023963659278077\n",
-      "iter: 28, loss: 0.008023963463597659\n",
-      "iter: 29, loss: 0.008023963289571119\n",
-      "iter: 30, loss: 0.008023964016864156\n",
-      "iter: 31, loss: 0.008023963531573766\n",
-      "iter: 32, loss: 0.008023963437000084\n",
-      "iter: 33, loss: 0.008023964116843215\n",
-      "iter: 34, loss: 0.008023962721410783\n",
-      "iter: 35, loss: 0.008023963977951472\n",
-      "iter: 36, loss: 0.008023963204566793\n",
-      "iter: 37, loss: 0.00802396369010344\n",
-      "iter: 38, loss: 0.008023963907011133\n",
-      "iter: 39, loss: 0.008023963523688133\n"
+      "iter: 0, loss: 453.0968931302793\n",
+      "iter: 1, loss: 0.008023964326606358\n",
+      "iter: 2, loss: 0.008023963388341868\n",
+      "iter: 3, loss: 0.008023963340660247\n",
+      "iter: 4, loss: 0.008023963596959654\n",
+      "iter: 5, loss: 0.008023963735337598\n",
+      "iter: 6, loss: 0.008023964260612844\n",
+      "iter: 7, loss: 0.008023964042363394\n",
+      "iter: 8, loss: 0.00802396368406042\n",
+      "iter: 9, loss: 0.008023962714947052\n",
+      "iter: 10, loss: 0.008023963489819921\n",
+      "iter: 11, loss: 0.008023963701078593\n",
+      "iter: 12, loss: 0.008023962923266034\n",
+      "iter: 13, loss: 0.008023964198518512\n",
+      "iter: 14, loss: 0.008023962813486126\n",
+      "iter: 15, loss: 0.008023964110803488\n",
+      "iter: 16, loss: 0.00802396403813473\n",
+      "iter: 17, loss: 0.008023963786036484\n",
+      "iter: 18, loss: 0.008023964195574898\n",
+      "iter: 19, loss: 0.008023963516124565\n",
+      "iter: 20, loss: 0.008023964508201684\n",
+      "iter: 21, loss: 0.008023963767474551\n",
+      "iter: 22, loss: 0.008023963648388185\n",
+      "iter: 23, loss: 0.008023963972575866\n",
+      "iter: 24, loss: 0.008023964038780116\n",
+      "iter: 25, loss: 0.008023963707541834\n",
+      "iter: 26, loss: 0.008023963269911932\n",
+      "iter: 27, loss: 0.008023963391352053\n",
+      "iter: 28, loss: 0.008023963414851426\n",
+      "iter: 29, loss: 0.008023964147064296\n",
+      "iter: 30, loss: 0.008023963760174639\n",
+      "iter: 31, loss: 0.008023963924162339\n",
+      "iter: 32, loss: 0.00802396360354566\n",
+      "iter: 33, loss: 0.00802396407422616\n",
+      "iter: 34, loss: 0.008023962918493041\n",
+      "iter: 35, loss: 0.008023963622013491\n",
+      "iter: 36, loss: 0.0080239635670241\n",
+      "iter: 37, loss: 0.008023963871070301\n",
+      "iter: 38, loss: 0.008023963587685968\n",
+      "iter: 39, loss: 0.008023963496770136\n"
     ]
    }
   ],
@@ -271,7 +271,7 @@
    {
     "data": {
      "text/plain": [
-       "<cartopy.mpl.geocollection.GeoQuadMesh at 0x7f99039db190>"
+       "<cartopy.mpl.geocollection.GeoQuadMesh at 0x7f49d214b9a0>"
      ]
     },
     "execution_count": 6,

--- a/notebooks/plotting.py
+++ b/notebooks/plotting.py
@@ -31,6 +31,7 @@

 import numpy as np
 import matplotlib.pyplot as plt
+import cartopy
 import cartopy.crs as ccrs

 def plot_sphere(data,
@@ -38,10 +39,12 @@ def plot_sphere(data,
                cmap="RdBu",
                title=None,
                colorbar=False,
+                coastlines=False,
                central_latitude=20,
                central_longitude=20,
                lon=None,
-                lat=None):
+                lat=None,
+                **kwargs):
    if fig == None:
        fig = plt.figure()

@@ -61,8 +64,9 @@ def plot_sphere(data,
    Lat = Lat*180/np.pi

    # contour data over the map.
-    im = ax.pcolormesh(Lon, Lat, data, cmap=cmap, transform=ccrs.PlateCarree(), antialiased=False)
-    # ax.add_feature(cartopy.feature.COASTLINE, edgecolor='white', facecolor='none', linewidth=1.5)
+    im = ax.pcolormesh(Lon, Lat, data, cmap=cmap, transform=ccrs.PlateCarree(), antialiased=False, **kwargs)
+    if coastlines:
+        ax.add_feature(cartopy.feature.COASTLINE, edgecolor='white', facecolor='none', linewidth=1.5)
    if colorbar:
        plt.colorbar(im)
    plt.title(title, y=1.05)
@@ -76,7 +80,8 @@ def plot_data(data,
              title=None,
              colorbar=False,
              lon=None,
-              lat=None):
+              lat=None,
+              **kwargs):
    if fig == None:
        fig = plt.figure()
    
@@ -90,7 +95,8 @@ def plot_data(data,

    fig = plt.figure(figsize=(10, 5))
    ax = fig.add_subplot(1, 1, 1, projection=projection)
-    im = ax.pcolormesh(Lon, Lat, data, cmap=cmap)
+    im = ax.pcolormesh(Lon, Lat, data, cmap=cmap, **kwargs)
+
    if colorbar:
        plt.colorbar(im)
    plt.title(title, y=1.05)

--- a/notebooks/train_sfno.ipynb
+++ b/notebooks/train_sfno.ipynb
--- a/torch_harmonics/examples/sfno/models/layers.py
+++ b/torch_harmonics/examples/sfno/models/layers.py
@@ -43,8 +43,8 @@ from .activations import *
 # # import FactorizedTensor from tensorly for tensorized operations
 # import tensorly as tl
 # from tensorly.plugins import use_opt_einsum
-# tl.set_backend('pytorch')
-# use_opt_einsum('optimal')
+# tl.set_backend("pytorch")
+# use_opt_einsum("optimal")
 from tltorch.factorized_tensors.core import FactorizedTensor

 def _no_grad_trunc_normal_(tensor, mean, std, a, b):
@@ -137,21 +137,37 @@ class MLP(nn.Module):
                 in_features,
                 hidden_features = None,
                 out_features = None,
-                 act_layer = nn.GELU,
-                 output_bias = True,
+                 act_layer = nn.ReLU,
+                 output_bias = False,
                 drop_rate = 0.,
-                 checkpointing = False):
+                 checkpointing = False,
+                 gain = 1.0):
        super(MLP, self).__init__()
        self.checkpointing = checkpointing
        out_features = out_features or in_features
        hidden_features = hidden_features or in_features

+        # Fist dense layer
        fc1 = nn.Conv2d(in_features, hidden_features, 1, bias=True)
-        # ln1 = norm_layer(num_features=hidden_features)
+        # initialize the weights correctly
+        scale = math.sqrt(2.0 / in_features)
+        nn.init.normal_(fc1.weight, mean=0., std=scale)
+        if fc1.bias is not None:
+            nn.init.constant_(fc1.bias, 0.0)
+
+        # activation
        act = act_layer()
-        fc2 = nn.Conv2d(hidden_features, out_features, 1, bias = output_bias)
+
+        # output layer
+        fc2 = nn.Conv2d(hidden_features, out_features, 1, bias=output_bias)
+        # gain factor for the output determines the scaling of the output init
+        scale = math.sqrt(gain / hidden_features)
+        nn.init.normal_(fc2.weight, mean=0., std=scale)
+        if fc2.bias is not None:
+            nn.init.constant_(fc2.bias, 0.0)
+
        if drop_rate > 0.:
-            drop = nn.Dropout(drop_rate)
+            drop = nn.Dropout2d(drop_rate)
            self.fwd = nn.Sequential(fc1, act, drop, fc2, drop)
        else:
            self.fwd = nn.Sequential(fc1, act, fc2)
@@ -218,15 +234,12 @@ class SpectralConvS2(nn.Module):
                 inverse_transform,
                 in_channels,
                 out_channels,
-                 scale = 'auto',
-                 operator_type = 'driscoll-healy',
+                 gain = 2.,
+                 operator_type = "driscoll-healy",
                 lr_scale_exponent = 0,
                 bias = False):
        super(SpectralConvS2, self).__init__()

-        if scale == 'auto':
-            scale = (2 / in_channels)**0.5
-
        self.forward_transform = forward_transform
        self.inverse_transform = inverse_transform

@@ -242,33 +255,31 @@ class SpectralConvS2(nn.Module):
        assert self.inverse_transform.lmax == self.modes_lat
        assert self.inverse_transform.mmax == self.modes_lon

-        weight_shape = [in_channels, out_channels]
+        weight_shape = [out_channels, in_channels]

-        if self.operator_type == 'diagonal':
+        if self.operator_type == "diagonal":
            weight_shape += [self.modes_lat, self.modes_lon]
            from .contractions import contract_diagonal as _contract
-        elif self.operator_type == 'block-diagonal':
+        elif self.operator_type == "block-diagonal":
            weight_shape += [self.modes_lat, self.modes_lon, self.modes_lon]
            from .contractions import contract_blockdiag as _contract
-        elif self.operator_type == 'driscoll-healy':
+        elif self.operator_type == "driscoll-healy":
            weight_shape += [self.modes_lat]
            from .contractions import contract_dhconv as _contract
        else:
            raise NotImplementedError(f"Unkonw operator type f{self.operator_type}")

        # form weight tensors
-        self.weight = nn.Parameter(scale * torch.randn(*weight_shape, 2))
-
-        # rescale the learning rate for better training of spectral parameters
-        lr_scale = (torch.arange(self.modes_lat)+1).reshape(-1, 1)**(lr_scale_exponent)
-        self.register_buffer("lr_scale", lr_scale)
-        # self.weight.register_hook(lambda grad: self.lr_scale*grad)
+        scale = math.sqrt(gain / in_channels) * torch.ones(self.modes_lat, 2)
+        scale[0] *=  math.sqrt(2)
+        self.weight = nn.Parameter(scale * torch.view_as_real(torch.randn(*weight_shape, dtype=torch.complex64)))
+        # self.weight = nn.Parameter(scale * torch.randn(*weight_shape, 2))

        # get the right contraction function
        self._contract = _contract
   
        if bias:
-            self.bias = nn.Parameter(scale * torch.randn(1, out_channels, 1, 1))
+            self.bias = nn.Parameter(torch.zeros(1, out_channels, 1, 1))

        
    def forward(self, x):
@@ -290,7 +301,7 @@ class SpectralConvS2(nn.Module):
        with amp.autocast(enabled=False):
            x = self.inverse_transform(x)
            
-        if hasattr(self, 'bias'):
+        if hasattr(self, "bias"):
            x = x + self.bias
        x = x.type(dtype)
    
@@ -306,19 +317,16 @@ class FactorizedSpectralConvS2(nn.Module):
                 inverse_transform,
                 in_channels,
                 out_channels,
-                 scale = 'auto',
-                 operator_type = 'driscoll-healy',
+                 gain = 2.,
+                 operator_type = "driscoll-healy",
                 rank = 0.2,
                 factorization = None,
                 separable = False,
-                 implementation = 'factorized',
+                 implementation = "factorized",
                 decomposition_kwargs=dict(),
                 bias = False):
        super(SpectralConvS2, self).__init__()

-        if scale == 'auto':
-            scale = (2 / in_channels)**0.5
-
        self.forward_transform = forward_transform
        self.inverse_transform = inverse_transform

@@ -330,9 +338,9 @@ class FactorizedSpectralConvS2(nn.Module):

        # Make sure we are using a Complex Factorized Tensor
        if factorization is None:
-            factorization = 'Dense' # No factorization
-        if not factorization.lower().startswith('complex'):
-            factorization = f'Complex{factorization}'
+            factorization = "Dense" # No factorization
+        if not factorization.lower().startswith("complex"):
+            factorization = f"Complex{factorization}"

        # remember factorization details
        self.operator_type = operator_type
@@ -343,16 +351,16 @@ class FactorizedSpectralConvS2(nn.Module):
        assert self.inverse_transform.lmax == self.modes_lat
        assert self.inverse_transform.mmax == self.modes_lon

-        weight_shape = [in_channels]
+        weight_shape = [out_channels]

        if not self.separable:
-            weight_shape += [out_channels]
+            weight_shape += [in_channels]

-        if self.operator_type == 'diagonal':
+        if self.operator_type == "diagonal":
            weight_shape += [self.modes_lat, self.modes_lon]
-        elif self.operator_type == 'block-diagonal':
+        elif self.operator_type == "block-diagonal":
            weight_shape += [self.modes_lat, self.modes_lon, self.modes_lon]
-        elif self.operator_type == 'driscoll-healy':
+        elif self.operator_type == "driscoll-healy":
            weight_shape += [self.modes_lat]
        else:
            raise NotImplementedError(f"Unkonw operator type f{self.operator_type}")
@@ -362,6 +370,7 @@ class FactorizedSpectralConvS2(nn.Module):
                                           fixed_rank_modes=False, **decomposition_kwargs)
        
        # initialization of weights
+        scale = math.sqrt(gain / in_channels)
        self.weight.normal_(0, scale)

        # get the right contraction function
@@ -369,7 +378,7 @@ class FactorizedSpectralConvS2(nn.Module):
        self._contract = get_contract_fun(self.weight, implementation=implementation, separable=separable)
   
        if bias:
-            self.bias = nn.Parameter(scale * torch.randn(1, out_channels, 1, 1))
+            self.bias = nn.Parameter(torch.zeros(1, out_channels, 1, 1))

        
    def forward(self, x):
@@ -388,242 +397,8 @@ class FactorizedSpectralConvS2(nn.Module):
        with amp.autocast(enabled=False):
            x = self.inverse_transform(x)
            
-        if hasattr(self, 'bias'):
+        if hasattr(self, "bias"):
            x = x + self.bias
        x = x.type(dtype)
    
        return x, residual
-
-class SpectralAttention2d(nn.Module):
-    """
-    geometrical Spectral Attention layer
-    """
-    
-    def __init__(self,
-                 forward_transform,
-                 inverse_transform,
-                 embed_dim,
-                 sparsity_threshold = 0.0,
-                 hidden_size_factor = 2,
-                 use_complex_kernels = False,
-                 complex_activation = 'real',
-                 bias = False,
-                 spectral_layers = 1,
-                 drop_rate = 0.):
-        super(SpectralAttention2d, self).__init__()
-        
-        self.embed_dim = embed_dim
-        self.sparsity_threshold = sparsity_threshold
-        self.hidden_size = int(hidden_size_factor * self.embed_dim)
-        self.scale = 1 / embed_dim**2
-        self.mul_add_handle = compl_muladd2d_fwd_c if use_complex_kernels else compl_muladd2d_fwd
-        self.mul_handle = compl_mul2d_fwd_c if use_complex_kernels else compl_mul2d_fwd
-        self.spectral_layers = spectral_layers
-
-        self.modes_lat = forward_transform.lmax
-        self.modes_lon = forward_transform.mmax
-
-        # only storing the forward handle to be able to call it
-        self.forward_transform = forward_transform
-        self.inverse_transform = inverse_transform
-
-        self.scale_residual = (self.forward_transform.nlat != self.inverse_transform.nlat) \
-                or (self.forward_transform.nlon != self.inverse_transform.nlon)
-
-        assert inverse_transform.lmax == self.modes_lat
-        assert inverse_transform.mmax == self.modes_lon
-
-        # weights
-        w = [self.scale * torch.randn(self.embed_dim, self.hidden_size, 2)]
-        for l in range(1, self.spectral_layers):
-            w.append(self.scale * torch.randn(self.hidden_size, self.hidden_size, 2))
-        self.w = nn.ParameterList(w)
-
-        if bias:
-            self.b = nn.ParameterList([self.scale * torch.randn(self.hidden_size, 1, 2) for _ in range(self.spectral_layers)])
-        
-        self.wout = nn.Parameter(self.scale * torch.randn(self.hidden_size, self.embed_dim, 2))
-
-        self.drop = nn.Dropout(drop_rate) if drop_rate > 0. else nn.Identity()
-
-        self.activations = nn.ModuleList([])
-        for l in range(0, self.spectral_layers):
-            self.activations.append(ComplexReLU(mode=complex_activation, bias_shape=(self.hidden_size, 1, 1), scale=self.scale))
-
-    def forward_mlp(self, x):
-
-        x = torch.view_as_real(x)
-
-        xr = x
-
-        for l in range(self.spectral_layers):
-            if hasattr(self, 'b'):
-                xr = self.mul_add_handle(xr, self.w[l], self.b[l])
-            else:
-                xr = self.mul_handle(xr, self.w[l])
-            xr = torch.view_as_complex(xr)
-            xr = self.activations[l](xr)
-            xr = self.drop(xr)
-            xr = torch.view_as_real(xr)
-    
-        x = self.mul_handle(xr, self.wout)
-
-        x = torch.view_as_complex(x)
-
-        return x
-
-    def forward(self, x):
-
-        dtype = x.dtype
-        x = x.float()
-        residual = x
-
-        with amp.autocast(enabled=False):
-            x = self.forward_transform(x)
-            if self.scale_residual:
-                residual = self.inverse_transform(x)
-
-        x = self.forward_mlp(x)
-
-        with amp.autocast(enabled=False):
-            x = self.inverse_transform(x)
-        
-        x = x.type(dtype)
-
-        return x, residual
-
-
-class SpectralAttentionS2(nn.Module):
-    """
-    Spherical non-linear FNO layer
-    """
-    
-    def __init__(self,
-                 forward_transform,
-                 inverse_transform,
-                 embed_dim,
-                 operator_type = 'diagonal',
-                 sparsity_threshold = 0.0,
-                 hidden_size_factor = 2,
-                 complex_activation = 'real',
-                 scale = 'auto',
-                 bias = False,
-                 spectral_layers = 1,
-                 drop_rate = 0.):
-        super(SpectralAttentionS2, self).__init__()
-        
-        self.embed_dim = embed_dim
-        self.sparsity_threshold = sparsity_threshold
-        self.operator_type = operator_type
-        self.spectral_layers = spectral_layers
-
-        if scale == 'auto':
-            self.scale = (1 / (embed_dim * embed_dim))
-
-        self.modes_lat = forward_transform.lmax
-        self.modes_lon = forward_transform.mmax
-
-        # only storing the forward handle to be able to call it
-        self.forward_transform = forward_transform
-        self.inverse_transform = inverse_transform
-
-        self.scale_residual = (self.forward_transform.nlat != self.inverse_transform.nlat) \
-                or (self.forward_transform.nlon != self.inverse_transform.nlon)
-
-        assert inverse_transform.lmax == self.modes_lat
-        assert inverse_transform.mmax == self.modes_lon
-
-        hidden_size = int(hidden_size_factor * self.embed_dim)
-
-        if operator_type == 'diagonal':
-            self.mul_add_handle = compl_muladd2d_fwd
-            self.mul_handle = compl_mul2d_fwd
-
-            # weights
-            w = [self.scale * torch.randn(self.embed_dim, hidden_size, 2)]
-            for l in range(1, self.spectral_layers):
-                w.append(self.scale * torch.randn(hidden_size, hidden_size, 2))
-            self.w = nn.ParameterList(w)
-
-            self.wout = nn.Parameter(self.scale * torch.randn(hidden_size, self.embed_dim, 2))
-
-            if bias:
-                self.b = nn.ParameterList([self.scale * torch.randn(hidden_size, 1, 1, 2) for _ in range(self.spectral_layers)])
-
-            self.activations = nn.ModuleList([])
-            for l in range(0, self.spectral_layers):
-                self.activations.append(ComplexReLU(mode=complex_activation, bias_shape=(hidden_size, 1, 1), scale=self.scale))
-        
-        elif operator_type == 'driscoll-healy':
-
-            self.mul_add_handle = compl_exp_muladd2d_fwd
-            self.mul_handle = compl_exp_mul2d_fwd
-
-            # weights
-            w = [self.scale * torch.randn(self.modes_lat, self.embed_dim, hidden_size, 2)]
-            for l in range(1, self.spectral_layers):
-                w.append(self.scale * torch.randn(self.modes_lat, hidden_size, hidden_size, 2))
-            self.w = nn.ParameterList(w)
-
-            if bias:
-                self.b = nn.ParameterList([self.scale * torch.randn(hidden_size, 1, 1, 2) for _ in range(self.spectral_layers)])
-            
-            self.wout = nn.Parameter(self.scale * torch.randn(self.modes_lat, hidden_size, self.embed_dim, 2))
-
-            self.activations = nn.ModuleList([])
-            for l in range(0, self.spectral_layers):
-                self.activations.append(ComplexReLU(mode=complex_activation, bias_shape=(hidden_size, 1, 1), scale=self.scale))
-
-        else:
-            raise ValueError('Unknown operator type')
-
-
-        self.drop = nn.Dropout(drop_rate) if drop_rate > 0. else nn.Identity()
-
-
-    def forward_mlp(self, x):
-
-        B, C, H, W = x.shape
-
-        xr = torch.view_as_real(x)
-
-        for l in range(self.spectral_layers):
-            if hasattr(self, 'b'):
-                xr = self.mul_add_handle(xr, self.w[l], self.b[l])
-            else:
-                xr = self.mul_handle(xr, self.w[l])
-            xr = torch.view_as_complex(xr)
-            xr = self.activations[l](xr)
-            xr = self.drop(xr)
-            xr = torch.view_as_real(xr)
-
-        # final MLP
-        x = self.mul_handle(xr, self.wout)
-
-        x = torch.view_as_complex(x)
-
-        return x
-
-    def forward(self, x):
-
-        dtype = x.dtype
-        x = x.to(torch.float32)
-        residual = x
-
-        # FWD transform
-        with amp.autocast(enabled=False):
-            x = self.forward_transform(x)
-            if self.scale_residual:
-                residual = self.inverse_transform(x)
-
-        # MLP
-        x = self.forward_mlp(x)
-
-        # BWD transform
-        with amp.autocast(enabled=False):
-            x = self.inverse_transform(x)
-
-        # cast back to initial precision
-        x = x.to(dtype)
-
-        return x, residual
\ No newline at end of file
--- a/torch_harmonics/examples/sfno/models/sfno.py
+++ b/torch_harmonics/examples/sfno/models/sfno.py
--- a/torch_harmonics/examples/shallow_water_equations.py
+++ b/torch_harmonics/examples/shallow_water_equations.py
@@ -239,7 +239,7 @@ class ShallowWaterSolver(nn.Module):
        ctype = torch.complex128 if self.lap.dtype == torch.float64 else torch.complex64

        # mach number relative to wave speed
-        llimit = mlimit = 20
+        llimit = mlimit = 80

        # hgrid = self.havg + hamp * torch.randn(self.nlat, self.nlon, device=device, dtype=dtype)
        # ugrid = uamp * torch.randn(self.nlat, self.nlon, device=device, dtype=dtype)