Speed up `Vasprun` parsing some more #4360

kavanase · 2025-04-15T16:40:35Z

Me again.
From further profiling and playing around, I found I could speed up _parse_vasp_array (one of the main bottlenecks when using parse_dos = True (default), parse_eigen = True (default) and/or parse_projected_eigen = True (False by default)), using numpy's parse from string function.
e.g. parsing a SOC defect supercell vasprun via doped with these updates (with parse_projected_eigen=True to get eigenvalues/magnetisation) decreases parsing time from ~8.5s to ~4.8s.

All changes here should be covered by tests already in the codebase.

shyuep · 2025-04-15T16:51:24Z

Thanks. but I don't think we need to use string concat? I believe np.loadtxt would be able to handle the text without concat.

shyuep · 2025-04-15T16:52:09Z

Example:

In [1]: import numpy as np

In [3]: np.loadtxt(["1 2", "3 4"])
Out[3]:
array([[1., 2.],
       [3., 4.]])

shyuep · 2025-04-15T16:53:07Z

Even better, no reshaping needed.

kavanase · 2025-04-15T17:04:12Z

Ah yes! Good points. Done ⬆️

…nput shape

… to Vasprun parsing (materialsproject/pymatgen#4359 & materialsproject/pymatgen#4360)

kavanase added 2 commits April 15, 2025 12:36

Make _vasprun_float faster for overflow cases

d324236

Make _parse_vasp_array significantly faster (>2x) using numpy

155f44c

kavanase requested review from shyuep and mkhorton as code owners April 15, 2025 16:40

Simplify _parse_vasp_array

cef2813

shyuep and others added 2 commits April 15, 2025 11:16

Merge branch 'master' into vasprun_parsing_speedup

cc526c6

Ensure same output 2D format from _parse_vasp_array regardless of i…

ae89bb7

…nput shape

shyuep merged commit e714e2b into materialsproject:master Apr 15, 2025
43 checks passed

kavanase mentioned this pull request Apr 17, 2025

Ensure actual_kpoints_weights is list[float] and add test #4363

Merged

kavanase added a commit to SMTG-Bham/doped that referenced this pull request Apr 18, 2025

Update multiprocessing kick-in point to match recent SK speed updates…

bb80211

… to Vasprun parsing (materialsproject/pymatgen#4359 & materialsproject/pymatgen#4360)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Speed up `Vasprun` parsing some more #4360

Speed up `Vasprun` parsing some more #4360

kavanase commented Apr 15, 2025

shyuep commented Apr 15, 2025

shyuep commented Apr 15, 2025

shyuep commented Apr 15, 2025

kavanase commented Apr 15, 2025

Speed up Vasprun parsing some more #4360

Speed up Vasprun parsing some more #4360

Conversation

kavanase commented Apr 15, 2025

shyuep commented Apr 15, 2025

shyuep commented Apr 15, 2025

shyuep commented Apr 15, 2025

kavanase commented Apr 15, 2025

Speed up `Vasprun` parsing some more #4360

Speed up `Vasprun` parsing some more #4360