[`backend`] Add ONNX & OpenVINO support for Cross Encoder (reranker) models #3319

tomaarsen · 2025-04-11T07:54:27Z

Hello!

Pull Request overview

Add ONNX & OpenVINO support for Cross Encoder (reranker) models
Add CrossEncoder support to the model optimization functions to optimize or quantize models with ONNX or OpenVINO.
Add documentation for speeding up inference for Cross Encoder models
Update the Sentence Transformer docs for speeding up inference to fix the mermaid graph

Details

The usage is rather elementary:

from sentence_transformers import CrossEncoder

model = CrossEncoder("cross-encoder/ms-marco-MiniLM-L6-v2", backend="onnx")

# Verify that everything works as expected
query = "Which planet is known as the Red Planet?"
passages = [
    "Venus is often called Earth's twin because of its similar size and proximity.",
    "Mars, known for its reddish appearance, is often referred to as the Red Planet.",
    "Jupiter, the largest planet in our solar system, has a prominent red spot.",
    "Saturn, famous for its rings, is sometimes mistaken for the Red Planet."
]

scores = model.predict([(query, passage) for passage in passages])
print(scores)

This will 1) check if there's an ONNX model already in the model repository/path, and 2) if not, export one.
If you're exporting one, it's recommended to save that model (model.save_pretrained()) to prevent having to re-export it every time.

Tom Aarsen

tomaarsen · 2025-04-11T12:40:21Z

Many of the original cross-encoder models have had ONNX (normal, optimized, quantized) and OpenVINO (normal, static quantized) variants uploaded: https://huggingface.co/cross-encoder/ms-marco-MiniLM-L6-v2/tree/main/onnx

Tom Aarsen

Copilot

Copilot reviewed 5 out of 8 changed files in this pull request and generated 1 comment.

Files not reviewed (3)

docs/cross_encoder/usage/usage.rst: Language not supported
docs/sentence_transformer/usage/efficiency.rst: Language not supported
docs/sentence_transformer/usage/usage.rst: Language not supported

Comments suppressed due to low confidence (1)

sentence_transformers/cross_encoder/CrossEncoder.py:445

The parameter 'is_local' is annotated as a string but represents a boolean flag. Update its type annotation to 'bool' for clarity and consistency.

def _backend_warn_to_save(self, model_name_or_path: str, is_local: str, backend_name: str) -> None:

sentence_transformers/cross_encoder/CrossEncoder.py

tomaarsen added 2 commits April 11, 2025 09:49

Add ONNX & OpenVINO support for Cross Encoder (reranker) models

accfa8c

Remove accidental leftover breakpoint

cc1cbe9

tomaarsen mentioned this pull request Apr 12, 2025

Feature Request: Support for ONNX backend for CrossEncoders. #3039

Closed

tomaarsen linked an issue Apr 14, 2025 that may be closed by this pull request

Feature Request: Support for ONNX backend for CrossEncoders. #3039

Closed

tomaarsen requested a review from Copilot April 14, 2025 14:36

Copilot AI reviewed Apr 14, 2025

View reviewed changes

sentence_transformers/cross_encoder/CrossEncoder.py Show resolved Hide resolved

tomaarsen added 3 commits April 15, 2025 14:15

Improve typing for tokenizer

95c5a79

Improve docs for save_pretrained

2027bc9

Apply minor improvements/fixes to efficiency docs

556b8d3

tomaarsen merged commit f604c67 into UKPLab:master Apr 15, 2025
1 of 9 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[`backend`] Add ONNX & OpenVINO support for Cross Encoder (reranker) models #3319

[`backend`] Add ONNX & OpenVINO support for Cross Encoder (reranker) models #3319

tomaarsen commented Apr 11, 2025

tomaarsen commented Apr 11, 2025

Copilot AI left a comment

[backend] Add ONNX & OpenVINO support for Cross Encoder (reranker) models #3319

[backend] Add ONNX & OpenVINO support for Cross Encoder (reranker) models #3319

Conversation

tomaarsen commented Apr 11, 2025

Pull Request overview

Details

tomaarsen commented Apr 11, 2025

Copilot AI left a comment

Choose a reason for hiding this comment

[`backend`] Add ONNX & OpenVINO support for Cross Encoder (reranker) models #3319

[`backend`] Add ONNX & OpenVINO support for Cross Encoder (reranker) models #3319