janosh
diff --git a/‎.pre-commit-config.yaml
+1-1 b/‎.pre-commit-config.yaml
+1-1
diff --git a/‎data/mp/get_mp_traj.py
+102 b/‎data/mp/get_mp_traj.py
+102
diff --git a/‎matbench_discovery/plots.py
+1-1 b/‎matbench_discovery/plots.py
+1-1
diff --git a/‎matbench_discovery/preds.py
+1 b/‎matbench_discovery/preds.py
+1
diff --git a/‎matbench_discovery/slurm.py
+1-1 b/‎matbench_discovery/slurm.py
+1-1
diff --git a/‎models/bowsr/test_bowsr.py
+2-2 b/‎models/bowsr/test_bowsr.py
+2-2
diff --git a/‎models/cgcnn/test_cgcnn.py
+2-2 b/‎models/cgcnn/test_cgcnn.py
+2-2
diff --git a/‎models/cgcnn/train_cgcnn.py
+2-2 b/‎models/cgcnn/train_cgcnn.py
+2-2
diff --git a/‎models/chgnet/analyze_chgnet.py
+69 b/‎models/chgnet/analyze_chgnet.py
+69
diff --git a/‎models/chgnet/test_chgnet.py
+2-2 b/‎models/chgnet/test_chgnet.py
+2-2
diff --git a/‎models/m3gnet/test_m3gnet.py
+2-2 b/‎models/m3gnet/test_m3gnet.py
+2-2
diff --git a/‎models/megnet/test_megnet.py
+2-2 b/‎models/megnet/test_megnet.py
+2-2
diff --git a/‎models/voronoi/voronoi_featurize_dataset.py
+2-2 b/‎models/voronoi/voronoi_featurize_dataset.py
+2-2
diff --git a/‎models/wrenformer/test_wrenformer.py
+2-2 b/‎models/wrenformer/test_wrenformer.py
+2-2
diff --git a/‎models/wrenformer/train_wrenformer.py
+2-2 b/‎models/wrenformer/train_wrenformer.py
+2-2
diff --git a/‎pyproject.toml
+1 b/‎pyproject.toml
+1
diff --git a/‎scripts/compile_metrics.py
+4-4 b/‎scripts/compile_metrics.py
+4-4
@@ -7,7 +7,7 @@ default_install_hook_types: [pre-commit, commit-msg]
 
 repos:
   - repo: https://github.com/charliermarsh/ruff-pre-commit
-    rev: v0.0.255
+    rev: v0.0.257
     hooks:
       - id: ruff
         args: [--fix]
 
@@ -0,0 +1,102 @@
+"""Download all MP ionic steps on 2023-03-15."""
+
+
+# %%
+import os
+
+import pandas as pd
+from emmet.core.tasks import TaskDoc
+from pymongo import MongoClient
+from pymongo.database import Database
+from tqdm import trange
+
+from matbench_discovery import ROOT, today
+
+__author__ = "Janosh Riebesell"
+__date__ = "2023-03-15"
+
+module_dir = os.path.dirname(__file__)
+
+
+# %% access mp_core database directly through pymongo instead of API for speed
+host = "knowhere.lbl.gov"
+db_name = "mp_core"
+
+with open(f"{ROOT}/site/.env") as file:
+    text = file.read()
+    user = text.split("user=")[1].split("\n")[0]
+    password = text.split("password=")[1].split("\n")[0]
+
+uri = f"mongodb://{user}:{password}@{host}/?authSource={db_name}"
+db: Database[TaskDoc] = MongoClient(uri)[db_name]
+
+
+# %%
+ids_path = f"{module_dir}/2023-03-15-mp-task-ids.csv.bz2"
+fields = "task_id formula_pretty run_type nsites task_type tags completed_at".split()
+
+if os.path.isfile(ids_path):
+    print(f"Found existing list of task IDs to query at {ids_path=}")
+    df_tasks = pd.read_csv(ids_path).set_index("task_id")
+else:
+    print(f"Querying all task docs from {db_name}\n{fields=}.\nThis takes a while...")
+    task_docs = sorted(
+        db["tasks"].find({}, fields), key=lambda doc: int(doc["task_id"].split("-")[1])
+    )
+
+    print(f"{today}: {len(task_docs) = :,}")
+
+    df_tasks = pd.DataFrame(task_docs).drop(columns=["_id"]).set_index("task_id")
+    df_tasks.task_type.value_counts(dropna=False).plot.pie()
+
+    df_tasks.to_csv(f"{module_dir}/{today}-mp-task-ids.csv.bz2")
+
+
+# %% inspect schema of a single task doc
+doc = db.tasks.find_one({"task_id": "mp-288"})
+# the most relevant task data is found in the 1st calc's ionic steps which are
+# the relaxation trajectory frames with the highest rate of change
+# docs[0]["calcs_reversed"][-1]["output"]["ionic_steps"]
+
+
+# %%
+batch_size = 10_000
+task_ids = df_tasks.index.tolist()
+
+os.makedirs(f"{module_dir}/mp-tasks", exist_ok=True)
+# Iterate over task_ids in batches
+desc = "Loading MP task docs"
+pbar = trange(0, len(task_ids), batch_size, desc=desc, unit_scale=batch_size)
+for start_idx in pbar:
+    # Define start and end indices for batch
+    end_idx = min(start_idx + batch_size, len(task_ids))
+    start_id = task_ids[start_idx]
+    end_id = task_ids[end_idx - 1]
+    batch_ids = task_ids[start_idx:end_idx]
+    pbar.set_postfix_str(f"{start_id} to {end_id}")
+
+    out_path = f"{module_dir}/mp-tasks/{start_id}__{end_id}.json.gz"
+
+    # Check if output file for batch already exists
+    if os.path.isfile(out_path):
+        continue
+
+    # query batch of task docs
+    batch_docs = list(
+        db["tasks"].find(
+            {"task_id": {"$in": batch_ids}},
+            [*fields, "calcs_reversed.output.ionic_steps"],
+        )
+    )
+
+    # Convert documents to DataFrame and save to file
+    df_batch = pd.DataFrame(batch_docs).set_index("task_id").drop(columns=["_id"])
+    # handler=str needed since MongoDB ObjectId is not JSON serializable
+    df_batch.reset_index().to_json(out_path, default_handler=str)
+    # don't store df_batch to save memory
+
+
+# %% inspect saved task docs for expected data
+df_10k = pd.read_json(
+    f"{module_dir}/mp-tasks/mp-1708653__mp-1735769.json.gz"
+).set_index("task_id")
@@ -51,7 +51,7 @@
 model_labels = dict(
     bowsr_megnet="BOWSR + MEGNet",
     chgnet="CHGNet",
-    chgnet_megnet="CHGNet + MEGNet",
+    # chgnet_megnet="CHGNet + MEGNet",
     cgcnn_p="CGCNN+P",
     cgcnn="CGCNN",
     m3gnet_megnet="M3GNet + MEGNet",
 
@@ -111,6 +111,7 @@ def load_df_wbm_with_preds(
     return df_out
 
 
+# load WBM summary dataframe with all models' formation energy predictions (eV/atom)
 df_preds = load_df_wbm_with_preds().round(3)
 for combo in [["CHGNet", "M3GNet"]]:
     df_preds[" + ".join(combo)] = df_preds[combo].mean(axis=1)
 
@@ -93,7 +93,7 @@ def slurm_submit(
     slurm_vars = {
         f"slurm_{key}": val
         for key in SLURM_KEYS
-        if (val := os.environ.get(f"SLURM_{key}".upper()))
+        if (val := os.getenv(f"SLURM_{key}".upper()))
     }
     slurm_vars["slurm_timelimit"] = time
     if slurm_flags:
 
@@ -36,7 +36,7 @@
 slurm_max_parallel = 100
 energy_model = "megnet"
 job_name = f"bowsr-{energy_model}-wbm-{task_type}{'-debug' if DEBUG else ''}"
-out_dir = os.environ.get("SBATCH_OUTPUT", f"{module_dir}/{today}-{job_name}")
+out_dir = os.getenv("SBATCH_OUTPUT", f"{module_dir}/{today}-{job_name}")
 
 data_path = {
     "IS2RE": DATA_FILES.wbm_initial_structures,
@@ -62,7 +62,7 @@
 
 
 # %%
-slurm_array_task_id = int(os.environ.get("SLURM_ARRAY_TASK_ID", 0))
+slurm_array_task_id = int(os.getenv("SLURM_ARRAY_TASK_ID", 0))
 out_path = f"{out_dir}/bowsr-preds-{slurm_array_task_id}.json.gz"
 
 if os.path.isfile(out_path):
 
@@ -32,7 +32,7 @@
 debug = "slurm-submit" in sys.argv
 job_name = f"test-cgcnn-wbm-{task_type}{'-debug' if DEBUG else ''}"
 module_dir = os.path.dirname(__file__)
-out_dir = os.environ.get("SBATCH_OUTPUT", f"{module_dir}/{today}-{job_name}")
+out_dir = os.getenv("SBATCH_OUTPUT", f"{module_dir}/{today}-{job_name}")
 
 slurm_vars = slurm_submit(
     job_name=job_name,
@@ -116,7 +116,7 @@
     data_loader=data_loader,
 )
 
-slurm_job_id = os.environ.get("SLURM_JOB_ID", "debug")
+slurm_job_id = os.getenv("SLURM_JOB_ID", "debug")
 df.round(4).to_csv(f"{out_dir}/{job_name}-preds-{slurm_job_id}.csv")
 pred_col = f"{e_form_col}_pred_ens"
 assert pred_col in df, f"{pred_col=} not in {list(df)}"
 
@@ -36,7 +36,7 @@
 robust = "robust" in job_name.lower()
 ensemble_size = 10
 module_dir = os.path.dirname(__file__)
-out_dir = os.environ.get("SBATCH_OUTPUT", f"{module_dir}/{today}-{job_name}")
+out_dir = os.getenv("SBATCH_OUTPUT", f"{module_dir}/{today}-{job_name}")
 
 slurm_vars = slurm_submit(
     job_name=job_name,
@@ -54,7 +54,7 @@
 learning_rate = 3e-4
 batch_size = 128
 swa_start = None
-slurm_array_task_id = int(os.environ.get("SLURM_ARRAY_TASK_ID", 0))
+slurm_array_task_id = int(os.getenv("SLURM_ARRAY_TASK_ID", 0))
 task_type: TaskType = "regression"
 
 
 
@@ -0,0 +1,69 @@
+"""Compare CHGNet long vs short relaxations."""
+
+
+# %%
+import os
+
+import matplotlib.pyplot as plt
+import pandas as pd
+from pymatgen.core import Structure
+from pymatviz import density_scatter, plot_structure_2d, ptable_heatmap_plotly
+
+from matbench_discovery import plots
+from matbench_discovery.data import DATA_FILES, df_wbm
+from matbench_discovery.preds import PRED_FILES
+
+__author__ = "Janosh Riebesell"
+__date__ = "2023-03-06"
+
+module_dir = os.path.dirname(__file__)
+del plots  # https://github.com/PyCQA/pyflakes/issues/366
+
+
+# %%
+df_chgnet = pd.read_csv(PRED_FILES.__dict__["CHGNet"])
+df_chgnet = df_chgnet.set_index("material_id").add_suffix("_2000")
+df_chgnet_500 = pd.read_csv(PRED_FILES.__dict__["CHGNet"].replace("-06", "-04"))
+df_chgnet_500 = df_chgnet_500.set_index("material_id").add_suffix("_500")
+df_chgnet[list(df_chgnet_500)] = df_chgnet_500
+df_chgnet["formula"] = df_wbm.formula
+
+e_form_2000 = "e_form_per_atom_chgnet_2000"
+e_form_500 = "e_form_per_atom_chgnet_500"
+
+min_e_diff = 0.35
+df_bad = df_chgnet.query(f"{e_form_2000} - {e_form_500} > {min_e_diff}")
+
+
+# %%
+density_scatter(df=df_chgnet, x=e_form_2000, y=e_form_500)
+
+
+# %%
+fig = ptable_heatmap_plotly(df_bad.formula)
+title = "structures with larger error after longer relaxation"
+fig.layout.title.update(text=f"{len(df_bad)} {title}")
+
+
+# %%
+df_cse = pd.read_json(DATA_FILES.wbm_initial_structures).set_index("material_id")
+
+
+# %%
+n_rows, n_cols = 3, 4
+fig, axs = plt.subplots(n_rows, n_cols, figsize=(3 * n_cols, 4 * n_rows))
+n_struct = min(n_rows * n_cols, len(df_bad))
+struct_col = "initial_structure"
+
+fig.suptitle(f"{n_struct} {struct_col} {title}", fontsize=16, fontweight="bold", y=1.05)
+for idx, (ax, row) in enumerate(
+    zip(axs.flat, df_cse.loc[df_bad.index].itertuples()), 1
+):
+    struct = Structure.from_dict(getattr(row, struct_col))
+    plot_structure_2d(struct, ax=ax)
+    _, spg_num = struct.get_space_group_info()
+    formula = struct.composition.reduced_formula
+    id = row.Index
+    ax.set_title(f"{idx}. {formula} (spg={spg_num})\n{id}", fontweight="bold")
+
+# fig.savefig(f"{ROOT}/tmp/figures/chgnet-bad-relax-structures.webp", dpi=300)
@@ -33,7 +33,7 @@
 # set large job array size for smaller data splits and faster testing/debugging
 slurm_array_task_count = 100
 job_name = f"chgnet-wbm-{task_type}{'-debug' if DEBUG else ''}"
-out_dir = os.environ.get("SBATCH_OUTPUT", f"{module_dir}/{today}-{job_name}")
+out_dir = os.getenv("SBATCH_OUTPUT", f"{module_dir}/{today}-{job_name}")
 
 slurm_vars = slurm_submit(
     job_name=job_name,
@@ -47,7 +47,7 @@
 
 
 # %%
-slurm_array_task_id = int(os.environ.get("SLURM_ARRAY_TASK_ID", 0))
+slurm_array_task_id = int(os.getenv("SLURM_ARRAY_TASK_ID", 0))
 out_path = f"{out_dir}/chgnet-preds-{slurm_array_task_id}.json.gz"
 
 if os.path.isfile(out_path):
 
@@ -32,7 +32,7 @@
 # set large job array size for smaller data splits and faster testing/debugging
 slurm_array_task_count = 100
 job_name = f"m3gnet-wbm-{task_type}{'-debug' if DEBUG else ''}"
-out_dir = os.environ.get("SBATCH_OUTPUT", f"{module_dir}/{today}-{job_name}")
+out_dir = os.getenv("SBATCH_OUTPUT", f"{module_dir}/{today}-{job_name}")
 
 slurm_vars = slurm_submit(
     job_name=job_name,
@@ -49,7 +49,7 @@
 
 
 # %%
-slurm_array_task_id = int(os.environ.get("SLURM_ARRAY_TASK_ID", 3))
+slurm_array_task_id = int(os.getenv("SLURM_ARRAY_TASK_ID", 3))
 out_path = f"{out_dir}/m3gnet-preds-{slurm_array_task_id}.json.gz"
 
 if os.path.isfile(out_path):
 
@@ -31,7 +31,7 @@
 task_type = "chgnet_structure"
 module_dir = os.path.dirname(__file__)
 job_name = f"megnet-wbm-{task_type}{'-debug' if DEBUG else ''}"
-out_dir = os.environ.get("SBATCH_OUTPUT", f"{module_dir}/{today}-{job_name}")
+out_dir = os.getenv("SBATCH_OUTPUT", f"{module_dir}/{today}-{job_name}")
 slurm_array_task_count = 20
 
 slurm_vars = slurm_submit(
@@ -49,7 +49,7 @@
 
 
 # %%
-slurm_array_task_id = int(os.environ.get("SLURM_ARRAY_TASK_ID", 0))
+slurm_array_task_id = int(os.getenv("SLURM_ARRAY_TASK_ID", 0))
 out_path = f"{out_dir}/megnet-e-form-preds.csv"
 if os.path.isfile(out_path):
     raise SystemExit(f"{out_path = } already exists, exciting early")
 
@@ -35,7 +35,7 @@
 debug = "slurm-submit" in sys.argv
 job_name = f"voronoi-features-{data_name}{'-debug' if DEBUG else ''}"
 module_dir = os.path.dirname(__file__)
-out_dir = os.environ.get("SBATCH_OUTPUT", f"{module_dir}/{today}-{job_name}")
+out_dir = os.getenv("SBATCH_OUTPUT", f"{module_dir}/{today}-{job_name}")
 slurm_array_task_count = 50
 
 
@@ -51,7 +51,7 @@
 
 
 # %%
-slurm_array_task_id = int(os.environ.get("SLURM_ARRAY_TASK_ID", 0))
+slurm_array_task_id = int(os.getenv("SLURM_ARRAY_TASK_ID", 0))
 run_name = f"{job_name}-{slurm_array_task_id}"
 out_path = f"{out_dir}/{run_name}.csv.bz2"
 
 
@@ -31,7 +31,7 @@
 debug = "slurm-submit" in sys.argv
 job_name = f"test-wrenformer-wbm-{task_type}{'-debug' if DEBUG else ''}"
 module_dir = os.path.dirname(__file__)
-out_dir = os.environ.get("SBATCH_OUTPUT", f"{module_dir}/{today}-{job_name}")
+out_dir = os.getenv("SBATCH_OUTPUT", f"{module_dir}/{today}-{job_name}")
 
 slurm_vars = slurm_submit(
     job_name=job_name,
@@ -103,7 +103,7 @@
 )
 df = df.round(4)
 
-slurm_job_id = os.environ.get("SLURM_JOB_ID", "debug")
+slurm_job_id = os.getenv("SLURM_JOB_ID", "debug")
 df.to_csv(f"{out_dir}/{job_name}-preds-{slurm_job_id}.csv")
 
 
 
@@ -27,7 +27,7 @@
 ensemble_size = 10
 dataset = "mp"
 module_dir = os.path.dirname(__file__)
-out_dir = os.environ.get("SBATCH_OUTPUT", f"{module_dir}/{today}-{job_name}")
+out_dir = os.getenv("SBATCH_OUTPUT", f"{module_dir}/{today}-{job_name}")
 
 
 slurm_vars = slurm_submit(
@@ -44,7 +44,7 @@
 # %%
 learning_rate = 3e-4
 batch_size = 128
-slurm_array_task_id = int(os.environ.get("SLURM_ARRAY_TASK_ID", 0))
+slurm_array_task_id = int(os.getenv("SLURM_ARRAY_TASK_ID", 0))
 input_col = "wyckoff_spglib"
 
 print(f"\nJob started running {timestamp}")
 
@@ -86,6 +86,7 @@ ignore = [
   "D100",    # Missing docstring in public module
   "D205",    # 1 blank line required between summary line and description
   "E731",    # Do not assign a lambda expression, use a def
+  "PLW1508", # Invalid type for environment variable default
   "PLW2901", # Outer for loop variable overwritten by inner assignment target
 ]
 pydocstyle.convention = "google"
 
@@ -92,10 +92,10 @@
             "Slurm Jobs": n_runs,
         }
 
-test_stats["M3GNet + MEGNet"] = test_stats["M3GNet"].copy()
-test_stats["M3GNet + MEGNet"][time_col] = (
-    test_stats["MEGNet"][time_col] + test_stats["M3GNet"][time_col]
-)
+# test_stats["M3GNet + MEGNet"] = test_stats["M3GNet"].copy()
+# test_stats["M3GNet + MEGNet"][time_col] = (
+#     test_stats["MEGNet"][time_col] + test_stats["M3GNet"][time_col]
+# )
 test_stats["CGCNN+P"] = {}
Original file line number	Diff line number	Diff line change
`@@ -93,7 +93,7 @@ def slurm_submit(`
`93`	`93`	`slurm_vars = {`
`94`	`94`	`f"slurm_{key}": val`
`95`	`95`	`for key in SLURM_KEYS`
`96`		`- if (val := os.environ.get(f"SLURM_{key}".upper()))`
	`96`	`+ if (val := os.getenv(f"SLURM_{key}".upper()))`
`97`	`97`	`}`
`98`	`98`	`slurm_vars["slurm_timelimit"] = time`
`99`	`99`	`if slurm_flags:`
Original file line number	Diff line number	Diff line change
`@@ -86,6 +86,7 @@ ignore = [`
`86`	`86`	`"D100", # Missing docstring in public module`
`87`	`87`	`"D205", # 1 blank line required between summary line and description`
`88`	`88`	`"E731", # Do not assign a lambda expression, use a def`
	`89`	`+ "PLW1508", # Invalid type for environment variable default`
`89`	`90`	`"PLW2901", # Outer for loop variable overwritten by inner assignment target`
`90`	`91`	`]`
`91`	`92`	`pydocstyle.convention = "google"`