janosh
diff --git a/‎data/mp/build_phase_diagram.py
+1-1 b/‎data/mp/build_phase_diagram.py
+1-1
diff --git a/‎data/mp/get_mp_energies.py
+1-1 b/‎data/mp/get_mp_energies.py
+1-1
diff --git a/‎data/wbm/analysis.py
+1-1 b/‎data/wbm/analysis.py
+1-1
diff --git a/‎data/wbm/fetch_process_wbm_dataset.py
+1-2 b/‎data/wbm/fetch_process_wbm_dataset.py
+1-2
diff --git a/‎matbench_discovery/slurm.py
+1-1 b/‎matbench_discovery/slurm.py
+1-1
diff --git a/‎models/bowsr/test_bowsr.py
+1-1 b/‎models/bowsr/test_bowsr.py
+1-1
diff --git a/‎models/m3gnet/test_m3gnet.py
+1-1 b/‎models/m3gnet/test_m3gnet.py
+1-1
diff --git a/‎models/voronoi/train_test_voronoi_rf.py
+1-1 b/‎models/voronoi/train_test_voronoi_rf.py
+1-1
diff --git a/‎scripts/compute_projections.py
+94 b/‎scripts/compute_projections.py
+94
diff --git a/‎scripts/compute_struct_fingerprints.py
+1-3 b/‎scripts/compute_struct_fingerprints.py
+1-3
@@ -102,7 +102,7 @@
     json.dump(elemental_ref_entries, file, default=lambda x: x.as_dict())
 
 
-df_mp = pd.read_csv(DATA_FILES.mp_energies).set_index("material_id")
+df_mp = pd.read_csv(DATA_FILES.mp_energies, na_filter=False).set_index("material_id")
 
 
 # %%
 
@@ -57,7 +57,7 @@
 df["wyckoff_spglib"] = [get_aflow_label_from_spglib(x) for x in tqdm(df.structure)]
 
 df.to_csv(DATA_FILES.mp_energies)
-# df = pd.read_csv(DATA_FILES.mp_energies)
+# df = pd.read_csv(DATA_FILES.mp_energies, na_filter=False)
 
 
 # %% reproduce fig. 1b from https://arxiv.org/abs/2001.10591 (as data consistency check)
 
@@ -69,7 +69,7 @@
 
 
 # %% load MP training set
-df = pd.read_csv(DATA_FILES.mp_energies)
+df = pd.read_csv(DATA_FILES.mp_energies, na_filter=False)
 mp_elem_counts = count_elements(df.formula_pretty).astype(int)
 
 # mp_elem_counts.to_json(f"{about_data_page}/mp-element-counts.json")
 
@@ -445,8 +445,7 @@ def fix_bad_struct_index_mismatch(material_id: str) -> str:
 )
 x_axis_title = "WBM uncorrected formation energy (eV/atom)"
 fig.update_layout(xaxis_title=x_axis_title, margin=dict(l=10, r=10, t=40, b=10))
-# disabling zooming y-axis
-fig.update_yaxes(fixedrange=True)
+fig.update_yaxes(fixedrange=True)  # disable zooming y-axis
 fig.show(
     config=dict(
         modeBarButtonsToRemove=["lasso2d", "select2d", "autoScale2d", "toImage"],
 
@@ -51,7 +51,7 @@ def slurm_submit(
         partition (str, optional): Slurm partition.
         account (str, optional): Account to charge for this job.
         slurm_flags (str | list[str], optional): Extra slurm CLI flags. Defaults to ().
-            Examples: ('--nodes 1', '--gpus-per-node 1') or ('--mem', '16000').
+            Examples: ('--nodes 1', '--gpus-per-node 1') or ('--mem', '16G').
         array (str, optional): Slurm array specifier. Defaults to None. Example:
             '9' (for SLURM_ARRAY_TASK_ID from 0-9 inclusive), '1-10' or '1-10%2', etc.
         pre_cmd (str, optional): Things like `module load` commands and environment
 
@@ -54,7 +54,7 @@
     array=f"1-{slurm_array_task_count}%{slurm_max_parallel}",
     # --mem 12000 avoids slurmstepd: error: Detected 1 oom-kill event(s)
     # Some of your processes may have been killed by the cgroup out-of-memory handler.
-    slurm_flags=("--mem", str(12_000)),
+    slurm_flags=("--mem", "12G"),
     # TF_CPP_MIN_LOG_LEVEL=2 means INFO and WARNING logs are not printed
     # https://stackoverflow.com/a/40982782
     pre_cmd="TF_CPP_MIN_LOG_LEVEL=2",
 
@@ -41,7 +41,7 @@
     account="LEE-SL3-CPU",
     time="3:0:0",
     array=f"1-{slurm_array_task_count}",
-    slurm_flags=("--mem", str(12_000)),
+    slurm_flags=("--mem", "12G"),
     # TF_CPP_MIN_LOG_LEVEL=2 means INFO and WARNING logs are not printed
     # https://stackoverflow.com/a/40982782
     pre_cmd="TF_CPP_MIN_LOG_LEVEL=2",
 
@@ -48,7 +48,7 @@
 df_train = glob_to_df(train_path).set_index("material_id")
 print(f"{df_train.shape=}")
 
-df_mp = pd.read_csv(DATA_FILES.mp_energies).set_index("material_id")
+df_mp = pd.read_csv(DATA_FILES.mp_energies, na_filter=False).set_index("material_id")
 train_e_form_col = "formation_energy_per_atom"
 
 test_path = f"{module_dir}/2022-11-18-features-wbm-{task_type}.csv.bz2"
 
@@ -0,0 +1,94 @@
+"""Compute t-SNE and UMAP projections of the WBM and MP datasets."""
+
+
+# %%
+import os
+from typing import Any, Literal
+
+import numpy as np
+import pandas as pd
+from pymatgen.core import Composition
+from tqdm import tqdm
+
+from matbench_discovery import ROOT
+from matbench_discovery.data import DATA_FILES
+from matbench_discovery.slurm import slurm_submit
+
+__author__ = "Janosh Riebesell"
+__date__ = "2023-03-28"
+
+
+data_name = "mp"  # which data to project
+projection_type: Literal["tsne", "umap"] = "tsne"  # which projection method to use
+out_dim = 2  # number of dimensions to project to
+one_hot_dim = 112  # number of elements to use for one-hot encoding
+
+out_dir = f"{ROOT}/data/{data_name}/{projection_type}"
+os.makedirs(out_dir, exist_ok=True)
+
+slurm_vars = slurm_submit(
+    job_name=f"{data_name}-{projection_type}-{out_dim}d",
+    out_dir=out_dir,
+    partition="icelake-himem",
+    account="LEE-SL3-CPU",
+    time="6:0:0",
+)
+
+data_path = {"wbm": DATA_FILES.wbm_summary, "mp": DATA_FILES.mp_energies}[data_name]
+print(f"{data_path=}")
+print(f"{out_dim=}")
+print(f"{projection_type=}")
+df_in = pd.read_csv(data_path, na_filter=False).set_index("material_id")
+
+
+def metric(
+    x: np.ndarray,
+    y: np.ndarray,
+    err_weight: float = 3,
+    split_dim: int = one_hot_dim,
+) -> float:
+    """Custom metric for t-SNE/UMAP that weights the error dimension higher by a factor
+    of err_weight than the composition dimensions.
+    """
+    x_comp, x_err = np.split(x, [split_dim])
+    y_comp, y_err = np.split(y, [split_dim])
+    return np.linalg.norm(x_comp - y_comp) + err_weight * np.linalg.norm(x_err - y_err)
+
+
+if projection_type == "tsne":
+    from sklearn.manifold import TSNE
+
+    projector = TSNE(
+        n_components=out_dim, random_state=0, n_iter=250, n_iter_without_progress=50
+    )
+    out_cols = [f"t-SNE {idx}" for idx in range(out_dim)]
+elif projection_type == "umap":
+    from umap import UMAP
+
+    # TODO this execution path is untested (was never run yet)
+    projector = UMAP(n_components=out_dim, random_state=0, metric=metric)
+    out_cols = [f"t-SNE {idx+1}" for idx in range(out_dim)]
+
+identity = np.eye(one_hot_dim)
+
+
+def sum_one_hot_elem(formula: str) -> np.ndarray[Any, np.int64]:
+    """Return sum of one-hot encoded elements in weighted by amount in composition."""
+    return sum(identity[el.Z - 1] * amt for el, amt in Composition(formula).items())
+
+
+in_col = {"wbm": "formula", "mp": "formula_pretty"}[data_name]
+df_in[f"one_hot_{one_hot_dim}"] = [
+    sum_one_hot_elem(formula) for formula in tqdm(df_in[in_col])
+]
+
+
+one_hot_encoding = np.array(df_in[f"one_hot_{one_hot_dim}"].to_list())
+projections = projector.fit_transform(one_hot_encoding)
+
+df_in[out_cols] = projections
+
+out_path = f"{out_dir}/one-hot-{one_hot_dim}-composition-{out_dim}d.csv"
+df_in[out_cols].to_csv(out_path)
+
+print(f"Wrote projections to {out_path!r}")
@@ -36,12 +36,11 @@
 slurm_array_task_id = int(os.getenv("SLURM_ARRAY_TASK_ID", 0))
 slurm_array_task_count = 100
 
-job_name = f"make-{data_name}-struct-fingerprints"
 out_dir = f"{ROOT}/data/{data_name}/structure-fingerprints"
 os.makedirs(out_dir, exist_ok=True)
 
 slurm_vars = slurm_submit(
-    job_name=job_name,
+    job_name=f"{data_name}-struct-fingerprints",
     out_dir=out_dir,
     partition="icelake-himem",
     account="LEE-SL3-CPU",
@@ -118,7 +117,6 @@
 
 df_out = pd.concat(pd.read_json(out_file) for out_file in tqdm(out_files))
 
-
 df_out.index.name = "material_id"
 
 df_out.reset_index().to_json(f"{out_dir}/site-stats.json.gz")