from __future__ import annotations

import math
from dataclasses import dataclass
from copy import deepcopy

import numpy as np
import torch
import torch.nn as nn
import matplotlib.pyplot as plt
from tqdm import tqdm
from IPython.display import Markdown, display

torch.manual_seed(0)
np.random.seed(0)
DEVICE = torch.device("cpu")
torch.set_default_dtype(torch.float32)
SHOW_PROGRESS = False


def display_markdown_table(headers, rows):
    lines = [
        "| " + " | ".join(headers) + " |",
        "| " + " | ".join(["---"] * len(headers)) + " |",
    ]
    lines.extend("| " + " | ".join(str(x) for x in row) + " |" for row in rows)
    display(Markdown("\n".join(lines)))

print("torch:", torch.__version__)

torch: 2.11.0

def plot_samples(
    samples,
    ax=None,
    *,
    title=None,
    color="C0",
    s=6,
    alpha=0.4,
    xlim=(-5, 5),
    ylim=(-5, 5),
    c=None,
    cmap=None,
    label=None,
):
    if ax is None:
        _, ax = plt.subplots(figsize=(4, 4))
    pts = samples.detach().cpu().numpy()
    if c is None:
        ax.scatter(pts[:, 0], pts[:, 1], s=s, alpha=alpha, color=color, label=label)
    else:
        ax.scatter(pts[:, 0], pts[:, 1], s=s, alpha=alpha, c=c, cmap=cmap, label=label)
    ax.set_xlim(xlim)
    ax.set_ylim(ylim)
    ax.set_aspect("equal")
    if title:
        ax.set_title(title)
    return ax


def make_grid(n_grid=75, xlim=(-5, 5), ylim=(-5, 5)):
    gx = torch.linspace(xlim[0], xlim[1], n_grid)
    gy = torch.linspace(ylim[0], ylim[1], n_grid)
    X, Y = torch.meshgrid(gx, gy, indexing="ij")
    pts = torch.stack([X.flatten(), Y.flatten()], dim=-1)
    return pts, X, Y


def kde_density(grid_pts, samples, h=0.16, chunk=2048):
    vals = []
    for part in grid_pts.split(chunk):
        d2 = ((part[:, None, :] - samples[None, :, :]) ** 2).sum(-1)
        vals.append(torch.exp(-0.5 * d2 / h**2).mean(-1))
    return torch.cat(vals, dim=0)


def normalize_density(z):
    return z / (z.sum() + 1e-12)


def plot_density(density_fn, ax=None, *, title=None, n_grid=75, cmap="viridis"):
    if ax is None:
        _, ax = plt.subplots(figsize=(4, 4))
    grid, X, Y = make_grid(n_grid=n_grid)
    Z = density_fn(grid).detach().cpu().reshape(n_grid, n_grid).numpy()
    ax.imshow(Z.T, origin="lower", extent=(-5, 5, -5, 5), cmap=cmap)
    ax.set_xlim(-5, 5)
    ax.set_ylim(-5, 5)
    ax.set_aspect("equal")
    if title:
        ax.set_title(title)
    return ax


def sample_source(n: int) -> torch.Tensor:
    return torch.randn(n, 2)


def ring_centers(modes: int = 8, radius: float = 4.0):
    angles = torch.arange(modes) * (2 * math.pi / modes)
    return torch.stack([radius * torch.cos(angles), radius * torch.sin(angles)], dim=-1)


def sample_ring(
    n: int,
    modes: int = 8,
    radius: float = 4.0,
    sigma: float = 0.15,
    return_labels: bool = False,
):
    labels = torch.randint(0, modes, (n,))
    centers = ring_centers(modes, radius)[labels]
    samples = centers + sigma * torch.randn(n, 2)
    if return_labels:
        return samples, labels
    return samples


def assign_ring_modes(x: torch.Tensor):
    centers = ring_centers().to(x)
    d2 = ((x[:, None, :] - centers[None, :, :]) ** 2).sum(-1)
    return d2.argmin(-1)

def reward(x: torch.Tensor, center=(4.0, 0.0), scale: float = 2.5) -> torch.Tensor:
    c = torch.as_tensor(center, dtype=x.dtype, device=x.device)
    return torch.exp(-0.5 * ((x - c) ** 2).sum(-1) / scale**2)


BETA = 5.0


def tilted_reward(x: torch.Tensor) -> torch.Tensor:
    return BETA * reward(x)


ring_samples, ring_labels = sample_ring(3000, return_labels=True)
src_samples = sample_source(3000)

fig, axes = plt.subplots(1, 3, figsize=(13.5, 4.2))
plot_samples(src_samples, axes[0], title="source: Gaussian", color="0.25")
plot_samples(ring_samples, axes[1], title="data: 8-mode ring", c=ring_labels.numpy(), cmap="tab10")
plot_density(reward, axes[2], title="reward r(x): prefers right side")
plt.tight_layout()
plt.show()

class VelocityNet(nn.Module):
    def __init__(self, hidden: int = 128, n_freqs: int = 8):
        super().__init__()
        self.register_buffer("freqs", 2 ** torch.arange(n_freqs).float() * math.pi)
        in_dim = 2 + 2 * n_freqs
        self.net = nn.Sequential(
            nn.Linear(in_dim, hidden),
            nn.SiLU(),
            nn.Linear(hidden, hidden),
            nn.SiLU(),
            nn.Linear(hidden, hidden),
            nn.SiLU(),
            nn.Linear(hidden, 2),
        )

    def time_emb(self, t: torch.Tensor) -> torch.Tensor:
        angles = t[:, None] * self.freqs[None, :]
        return torch.cat([torch.sin(angles), torch.cos(angles)], dim=-1)

    def forward(self, x: torch.Tensor, t: torch.Tensor) -> torch.Tensor:
        return self.net(torch.cat([x, self.time_emb(t)], dim=-1))


def num_params(model: nn.Module) -> int:
    return sum(p.numel() for p in model.parameters())


@torch.no_grad()
def sample_flow(model: VelocityNet, n: int, n_steps: int = 50) -> torch.Tensor:
    model.eval()
    x = sample_source(n)
    dt = 1.0 / n_steps
    for k in range(n_steps):
        t = torch.full((n,), 1.0 - k * dt)
        x = x - model(x, t) * dt
    return x


def pretrain_flow_matching(
    model: VelocityNet,
    *,
    steps: int = 5000,
    batch_size: int = 256,
    lr: float = 1e-3,
) -> list[float]:
    opt = torch.optim.Adam(model.parameters(), lr=lr)
    losses = []
    pbar = tqdm(range(steps), desc="pretrain", mininterval=2.0, disable=not SHOW_PROGRESS, leave=False)
    for step in pbar:
        x0 = sample_ring(batch_size)
        eps = sample_source(batch_size)
        t = torch.rand(batch_size)
        xt = (1 - t[:, None]) * x0 + t[:, None] * eps
        target = eps - x0
        pred = model(xt, t)
        loss = ((pred - target) ** 2).mean()
        opt.zero_grad()
        loss.backward()
        opt.step()
        losses.append(loss.item())
        if step % 500 == 0:
            pbar.set_postfix(loss=f"{loss.item():.3f}")
    return losses


v_ref = VelocityNet()
print(f"VelocityNet parameters: {num_params(v_ref):,}")
pretrain_losses = pretrain_flow_matching(v_ref)
v_ref.eval()
for p in v_ref.parameters():
    p.requires_grad_(False)

VelocityNet parameters: 35,714

ref_samples = sample_flow(v_ref, 3000)
ref_reward = reward(ref_samples).mean().item()
print(f"mean reward of pretrained samples: {ref_reward:.3f}")

fig, axes = plt.subplots(1, 3, figsize=(13.5, 4.2))
axes[0].plot(pretrain_losses)
axes[0].set_title("flow-matching loss")
axes[0].set_xlabel("step")
axes[0].set_ylabel("MSE")
axes[0].set_yscale("log")
plot_samples(sample_ring(3000), axes[1], title="ground-truth ring", color="C0")
plot_samples(ref_samples, axes[2], title="pretrained flow samples", color="teal")
plt.tight_layout()
plt.show()

mean reward of pretrained samples: 0.271

ref_big = sample_flow(v_ref, 4000)


def p_ref_density(grid_pts):
    return normalize_density(kde_density(grid_pts, ref_big, h=0.16))


def p_target_density(grid_pts):
    p = kde_density(grid_pts, ref_big, h=0.16) * torch.exp(tilted_reward(grid_pts))
    return normalize_density(p)


fig, axes = plt.subplots(1, 3, figsize=(13.5, 4.2))
plot_density(p_ref_density, axes[0], title="p_ref: pretrained flow")
plot_density(reward, axes[1], title=f"reward r(x), beta={BETA}")
plot_density(p_target_density, axes[2], title="target: p_ref * exp(beta r)")
plt.tight_layout()
plt.show()

def fresh_copy(model: VelocityNet) -> VelocityNet:
    m = VelocityNet()
    m.load_state_dict(deepcopy(model.state_dict()))
    return m


def freeze(model: nn.Module) -> nn.Module:
    model.eval()
    for p in model.parameters():
        p.requires_grad_(False)
    return model


@dataclass
class RAMConfig:
    outer_steps: int = 600
    group_size: int = 32
    k_targets: int = 4
    sample_steps: int = 25
    lr: float = 1e-4
    beta: float = BETA
    use_advantage: bool = False
    scale_advantage: bool = False
    log_every: int = 50


TMConfig = RAMConfig


def reward_signal(raw_reward: torch.Tensor, cfg: RAMConfig) -> torch.Tensor:
    if cfg.use_advantage:
        advantage = raw_reward - raw_reward.mean()
        if cfg.scale_advantage:
            advantage = advantage / (raw_reward.std(correction=0) + 1e-4)
        return cfg.beta * advantage
    return cfg.beta * raw_reward


def train_tilt_matching(
    start_model: VelocityNet,
    ref_model: VelocityNet,
    *,
    method: str,
    cfg: TMConfig,
) -> tuple[VelocityNet, dict]:
    assert method in {"itm", "wfm"}
    model = fresh_copy(start_model)
    ref = freeze(fresh_copy(ref_model))
    opt = torch.optim.Adam(model.parameters(), lr=cfg.lr)
    history = {"mean_reward": [], "loss": []}

    pbar = tqdm(range(cfg.outer_steps), desc=method.upper(), mininterval=2.0, disable=not SHOW_PROGRESS, leave=False)
    for step in pbar:
        with torch.no_grad():
            x0 = sample_flow(model, cfg.group_size, n_steps=cfg.sample_steps)

        raw_reward = reward(x0)
        signal = reward_signal(raw_reward, cfg)
        history["mean_reward"].append(raw_reward.mean().item())

        x0_rep = x0.repeat_interleave(cfg.k_targets, dim=0)
        signal_rep = signal.repeat_interleave(cfg.k_targets, dim=0)
        batch = x0_rep.shape[0]
        eps = sample_source(batch)
        t = torch.rand(batch)
        xt = (1 - t[:, None]) * x0_rep + t[:, None] * eps
        pretrain_target = eps - x0_rep

        pred = model(xt, t)
        if method == "itm":
            with torch.no_grad():
                v_ref_xt = ref(xt, t)
                v_theta_sg = model(xt, t)
                coeff = torch.expm1(signal_rep)
                target = v_ref_xt + coeff[:, None] * (pretrain_target - v_theta_sg)
            loss = ((pred - target) ** 2).mean()
        else:
            weights = torch.exp(signal_rep)
            loss = (weights[:, None] * (pred - pretrain_target) ** 2).mean()

        opt.zero_grad()
        loss.backward()
        opt.step()
        history["loss"].append(loss.item())

        if step % cfg.log_every == 0:
            pbar.set_postfix(mean_r=f"{history['mean_reward'][-1]:.3f}", loss=f"{loss.item():.3f}")

    model.eval()
    return model, history

def train_ram(
    start_model: VelocityNet,
    ref_model: VelocityNet,
    *,
    cfg: RAMConfig,
) -> tuple[VelocityNet, dict]:
    model = fresh_copy(start_model)
    ref = freeze(fresh_copy(ref_model))
    opt = torch.optim.Adam(model.parameters(), lr=cfg.lr)
    history = {"mean_reward": [], "loss": []}

    pbar = tqdm(range(cfg.outer_steps), desc="RAM", mininterval=2.0, disable=not SHOW_PROGRESS, leave=False)
    for step in pbar:
        with torch.no_grad():
            x0 = sample_flow(model, cfg.group_size, n_steps=cfg.sample_steps)

        raw_reward = reward(x0)
        signal = reward_signal(raw_reward, cfg)
        history["mean_reward"].append(raw_reward.mean().item())

        x0_rep = x0.repeat_interleave(cfg.k_targets, dim=0)
        signal_rep = signal.repeat_interleave(cfg.k_targets, dim=0)
        batch = x0_rep.shape[0]
        eps = sample_source(batch)
        t = torch.rand(batch)
        xt = (1 - t[:, None]) * x0_rep + t[:, None] * eps
        xdot = eps - x0_rep

        with torch.no_grad():
            v_ref_batch = ref(xt, t)
            v_sg = model(xt, t)
            target = v_ref_batch + signal_rep[:, None] * (xdot - v_sg)

        pred = model(xt, t)
        loss = ((pred - target) ** 2).mean()
        opt.zero_grad()
        loss.backward()
        opt.step()
        history["loss"].append(loss.item())

        if step % cfg.log_every == 0:
            pbar.set_postfix(mean_r=f"{history['mean_reward'][-1]:.3f}", loss=f"{loss.item():.3f}")

    model.eval()
    return model, history

torch.manual_seed(123)
cfg = RAMConfig()
ram_model, ram_hist = train_ram(v_ref, v_ref, cfg=cfg)

torch.manual_seed(123)
itm_model, itm_hist = train_tilt_matching(v_ref, v_ref, method="itm", cfg=cfg)

torch.manual_seed(123)
wfm_model, wfm_hist = train_tilt_matching(v_ref, v_ref, method="wfm", cfg=cfg)

fig, axes = plt.subplots(1, 3, figsize=(13, 3.8))
for ax, hist, title in zip(
    axes,
    [ram_hist, itm_hist, wfm_hist],
    ["RAM", "ITM", "WFM"],
):
    ax.plot(hist["mean_reward"])
    ax.set_title(f"{title}: reward during training")
    ax.set_xlabel("outer step")
    ax.set_ylim(0, 1)
axes[0].set_ylabel("group mean r")
plt.tight_layout()
plt.show()

def model_density_from_samples(samples):
    def density(grid_pts):
        return normalize_density(kde_density(grid_pts, samples, h=0.16))
    return density


grid_pts, _, _ = make_grid(n_grid=75)


def mode_probs_from_labels(labels: torch.Tensor, weights: torch.Tensor | None = None, n_modes: int = 8):
    if weights is None:
        counts = torch.bincount(labels, minlength=n_modes).float()
    else:
        counts = torch.zeros(n_modes, dtype=weights.dtype, device=weights.device)
        counts.scatter_add_(0, labels, weights)
    probs = counts / (counts.sum() + 1e-12)
    return probs


def sample_target_from_ref_pool(n: int, *, beta: float = BETA, seed: int | None = None) -> torch.Tensor:
    weights = torch.exp(beta * reward(ref_big))
    probs = weights / weights.sum()
    gen = None if seed is None else torch.Generator(device=probs.device).manual_seed(seed)
    idx = torch.multinomial(probs, n, replacement=True, generator=gen)
    return ref_big[idx]


def sliced_wasserstein_distance(
    samples_a: torch.Tensor,
    samples_b: torch.Tensor,
    *,
    n_projections: int = 128,
    seed: int = 0,
) -> float:
    n = min(len(samples_a), len(samples_b))
    samples_a = samples_a[:n]
    samples_b = samples_b[:n]

    gen = torch.Generator(device=samples_a.device).manual_seed(seed)
    directions = torch.randn(n_projections, samples_a.shape[1], generator=gen, device=samples_a.device)
    directions = directions / directions.norm(dim=1, keepdim=True).clamp_min(1e-12)

    proj_a = samples_a @ directions.T
    proj_b = samples_b @ directions.T
    proj_a = torch.sort(proj_a, dim=0).values
    proj_b = torch.sort(proj_b, dim=0).values
    return torch.sqrt(((proj_a - proj_b) ** 2).mean()).item()


target_mode_labels = assign_ring_modes(ref_big)
target_mode_weights = torch.exp(tilted_reward(ref_big))
target_mode_probs = mode_probs_from_labels(target_mode_labels, target_mode_weights)
target_eval_samples = sample_target_from_ref_pool(3000, beta=BETA, seed=2026)


@torch.no_grad()
def evaluate_sampler(name: str, model: VelocityNet, n: int = 3000):
    samples = sample_flow(model, n)
    density_grid = model_density_from_samples(samples)(grid_pts)
    labels = assign_ring_modes(samples)
    mode_probs = mode_probs_from_labels(labels)
    mean_r = reward(samples).mean().item()
    sliced_w = sliced_wasserstein_distance(samples, target_eval_samples)
    return {
        "name": name,
        "samples": samples,
        "density": density_grid,
        "mode_probs": mode_probs,
        "mean_reward": mean_r,
        "sliced_w": sliced_w,
    }


evals = [
    evaluate_sampler("pretrained", v_ref),
    evaluate_sampler("RAM", ram_model),
    evaluate_sampler("ITM", itm_model),
    evaluate_sampler("WFM", wfm_model),
]

display_markdown_table(
    ["Method", "Mean reward ↑", "Sliced W ↓"],
    [
        [e["name"], f"{e['mean_reward']:.3f}", f"{e['sliced_w']:.4f}"]
        for e in evals
    ],
)

def density_from_grid_values(vals):
    def f(grid):
        # This closure assumes the same grid is used by plot_density.
        if len(grid) == len(vals):
            return vals
        return model_density_from_samples(torch.empty(0, 2))(grid)
    return f


fig, axes = plt.subplots(1, 5, figsize=(18, 3.8))
plot_density(
    p_ref_density,
    axes[0],
    title=f"pretrained\nr={evals[0]['mean_reward']:.2f}, W={evals[0]['sliced_w']:.2f}",
)
plot_density(p_target_density, axes[1], title="analytic target")
for ax, e in zip(axes[2:], evals[1:]):
    plot_density(
        model_density_from_samples(e["samples"]),
        ax,
        title=f"{e['name']}\nr={e['mean_reward']:.2f}, W={e['sliced_w']:.2f}",
    )
plt.tight_layout()
plt.show()

mode_names = [str(i) for i in range(8)]
fig, ax = plt.subplots(figsize=(9, 4))
x = np.arange(8)
mode_entries = [("target", target_mode_probs)] + [(e["name"], e["mode_probs"]) for e in evals]
width = 0.13
for offset, (name, probs) in zip(np.linspace(-2, 2, len(mode_entries)) * width, mode_entries):
    ax.bar(x + offset, probs.cpu().numpy(), width=width, label=name)
ax.set_xticks(x)
ax.set_xticklabels(mode_names)
ax.set_xlabel("nearest ring mode (mode 0 is the rewarded right-most mode)")
ax.set_ylabel("sample fraction")
ax.set_title("Mode-level distribution: target vs learned samplers")
ax.legend(ncol=3)
plt.tight_layout()
plt.show()

def evaluate_sampler_for_beta(
    name: str,
    model: VelocityNet,
    *,
    beta: float,
    n: int = 1500,
    seed: int = 0,
):
    torch.manual_seed(seed)
    samples = sample_flow(model, n)
    target_samples = sample_target_from_ref_pool(n, beta=beta, seed=seed + 123)
    return {
        "beta": beta,
        "method": name,
        "mean_reward": reward(samples).mean().item(),
        "sliced_w": sliced_wasserstein_distance(
            samples,
            target_samples,
            n_projections=64,
            seed=seed + 456,
        ),
    }


beta_values = [0.5, 1.0, 2.0, 3.0, 4.0, 5.0, 6.0]
methods = ["RAM", "ITM", "WFM"]
ablation_rows = []

for beta in beta_values:
    cfg_beta = RAMConfig(beta=beta)
    for method_id, method in enumerate(methods):
        torch.manual_seed(2000 + int(beta * 100) + method_id)
        if method == "RAM":
            model_beta, _ = train_ram(v_ref, v_ref, cfg=cfg_beta)
        else:
            model_beta, _ = train_tilt_matching(v_ref, v_ref, method=method.lower(), cfg=cfg_beta)
        row = evaluate_sampler_for_beta(
            method,
            model_beta,
            beta=beta,
            seed=3000 + int(beta * 100) + method_id,
        )
        ablation_rows.append(row)


def bold_if_winner(value: float, winner: float, *, digits: int):
    text = f"{value:.{digits}f}"
    return f"**{text}**" if abs(value - winner) < 1e-8 else text


reward_table_rows = []
w_table_rows = []
for beta in beta_values:
    rows = [row for row in ablation_rows if row["beta"] == beta]
    by_method = {row["method"]: row for row in rows}
    best_reward = max(row["mean_reward"] for row in rows)
    best_w = min(row["sliced_w"] for row in rows)
    reward_table_rows.append(
        [f"{beta:.1f}"]
        + [
            bold_if_winner(by_method[method]["mean_reward"], best_reward, digits=3)
            for method in methods
        ]
    )
    w_table_rows.append(
        [f"{beta:.1f}"]
        + [
            bold_if_winner(by_method[method]["sliced_w"], best_w, digits=4)
            for method in methods
        ]
    )

display(Markdown("**Mean reward ↑** (higher is better; winner in bold)"))
display_markdown_table(["β"] + methods, reward_table_rows)

display(Markdown("**Sliced Wasserstein ↓** (lower is better; winner in bold)"))
display_markdown_table(["β"] + methods, w_table_rows)

fig, axes = plt.subplots(1, 2, figsize=(11, 4))

for method in methods:
    rows = [r for r in ablation_rows if r["method"] == method]
    xs = [r["beta"] for r in rows]
    axes[0].plot(xs, [r["mean_reward"] for r in rows], marker="o", label=method)
    axes[1].plot(xs, [r["sliced_w"] for r in rows], marker="o", label=method)

axes[0].set_title("Reward increases with stronger tilt")
axes[0].set_xlabel(r"$\beta$")
axes[0].set_ylabel("mean reward")
axes[0].set_ylim(0, 1)

axes[1].set_title("Distribution match to each beta target")
axes[1].set_xlabel(r"$\beta$")
axes[1].set_ylabel("sliced Wasserstein")

for ax in axes:
    ax.legend()
    ax.grid(alpha=0.25)

plt.tight_layout()
plt.show()

Method	Mean reward ↑	Sliced W ↓
pretrained	0.262	3.4719
RAM	0.656	1.6998
ITM	0.862	0.7685
WFM	0.846	0.8054

β	RAM	ITM	WFM
0.5	0.322	0.337	0.492
1.0	0.394	0.482	0.661
2.0	0.497	0.750	0.753
3.0	0.579	0.842	0.818
4.0	0.604	0.853	0.840
5.0	0.670	0.859	0.888
6.0	0.694	0.893	0.856

β	RAM	ITM	WFM
0.5	0.3086	0.3306	1.3158
1.0	0.4162	0.7825	1.5711
2.0	0.4819	1.2453	2.2109
3.0	1.0586	0.9788	1.3154
4.0	1.3838	0.7651	0.8713
5.0	1.5516	0.8027	0.7511
6.0	1.8128	0.9320	1.1350

Implicit Tilt Matching Explained (with connections to RAM)¶

0. Setup¶

1. The target: tilt a sampler toward reward¶

2. Stage 1: train a reference flow¶

3. Implicit Tilt Matching (ITM)¶

The reweighting formula¶

Deriving the ITM target¶

4. Connection to RAM¶

RAM is the first-order Taylor approximation of ITM¶

5. Implementation: reuse RAM tricks for ITM¶

6. Experiments: ITM, RAM, and WFM¶

Did the models match the analytic tilted target?¶

7. Ablation: reward scale $\beta$¶

8. Recap¶