trustyai-explainability
diff --git a/‎Dockerfile.lmes-job
Lines changed: 1 addition & 1 deletion b/‎Dockerfile.lmes-job
Lines changed: 1 addition & 1 deletion
diff --git a/‎api/lmes/v1alpha1/lmevaljob_types.go
Lines changed: 5 additions & 0 deletions b/‎api/lmes/v1alpha1/lmevaljob_types.go
Lines changed: 5 additions & 0 deletions
diff --git a/‎cmd/main.go
Lines changed: 1 addition & 1 deletion b/‎cmd/main.go
Lines changed: 1 addition & 1 deletion
diff --git a/‎controllers/job_mgr/README.md
Lines changed: 219 additions & 48 deletions b/‎controllers/job_mgr/README.md
Lines changed: 219 additions & 48 deletions
diff --git a/‎controllers/job_mgr/constants.go
Lines changed: 16 additions & 0 deletions b/‎controllers/job_mgr/constants.go
Lines changed: 16 additions & 0 deletions
@@ -23,5 +23,5 @@ ENV PYTHONPATH=/opt/app-root/src/.local/lib/python3.11/site-packages:/opt/app-ro
 ENV HF_HOME=/opt/app-root/src/hf_home
 ENV UNITXT_ARTIFACTORIES=/opt/app-root/src/my_catalogs
 
-USER 1001030000:0
+USER 65532:65532
 CMD ["/opt/app-root/bin/python"]
@@ -315,6 +315,11 @@ type LMEvalJob struct {
 	Status LMEvalJobStatus `json:"status,omitempty"`
 }
 
+// generate pod name for the job
+func (j *LMEvalJob) GetPodName() string {
+	return j.Name
+}
+
 // +kubebuilder:object:root=true
 
 // LMEvalJobList contains a list of LMEvalJob
 
@@ -72,7 +72,7 @@ func main() {
 	var probeAddr string
 	var configMap string
 	var enabledServices controllers.EnabledServices
-	flag.StringVar(&metricsAddr, "metrics-bind-address", ":9443", "The address and port the metric endpoint binds to.")
+	flag.StringVar(&metricsAddr, "metrics-bind-address", ":8080", "The address and port the metric endpoint binds to.")
 	flag.StringVar(&probeAddr, "health-probe-bind-address", ":8081", "The address the probe endpoint binds to.")
 	flag.BoolVar(&enableLeaderElection, "leader-elect", false,
 		"Enable leader election for controller manager. "+
 
@@ -1,5 +1,5 @@
 ## Instructions to test the controller on Kind locally
-
+When Job Manager is an enabled service LMevalJob requires `kueue.x-k8s.io/queue-name` label. 
 1. Setup Kind
 
     Create a kind cluster with 3 nodes
@@ -105,28 +105,26 @@
     apiVersion: v1
     kind: ConfigMap
     metadata:
-    name: trustyai-service-operator-config
-    labels:
+      name: trustyai-service-operator-config
+      labels:
         app.kubernetes.io/part-of: trustyai
-    annotations:
+      annotations:
         internal.config.kubernetes.io/generatorBehavior: unspecified
         internal.config.kubernetes.io/prefixes: trustyai-service-operator-
         internal.config.kubernetes.io/previousKinds: ConfigMap,ConfigMap
         internal.config.kubernetes.io/previousNames: config,trustyai-service-operator-config
         internal.config.kubernetes.io/previousNamespaces: default,default
     data:
-        kServeServerless: disabled
-        lmes-default-batch-size: "8"
-        lmes-driver-image: quay.io/yhwang/ta-lmes-driver:latest
-        lmes-grpc-port: "8082"
-        lmes-grpc-service: lmes-grpc
-        lmes-image-pull-policy: Always
-        lmes-max-batch-size: "24"
-        lmes-pod-checking-interval: 10s
-        lmes-pod-image: quay.io/tedchang/ta-lmes-job:latest
-        oauthProxyImage: quay.io/openshift/origin-oauth-proxy:4.14.0
-        trustyaiOperatorImage: quay.io/tedchang/trustyai-service-operator:latest
-        trustyaiServiceImage: quay.io/trustyai/trustyai-service:latest
+      kServeServerless: disabled
+      lmes-default-batch-size: "8"
+      lmes-driver-image: quay.io/yhwang/ta-lmes-driver:latest
+      lmes-image-pull-policy: Always
+      lmes-max-batch-size: "24"
+      lmes-pod-checking-interval: 10s
+      lmes-pod-image: quay.io/tedchang/ta-lmes-job:latest
+      oauthProxyImage: quay.io/openshift/origin-oauth-proxy:4.14.0
+      trustyaiOperatorImage: quay.io/tedchang/trustyai-service-operator:latest
+      trustyaiServiceImage: quay.io/trustyai/trustyai-service:latest
     EOF
     ```
     Start the controller locally:
@@ -138,67 +136,71 @@
     INFO    Starting workers        {"controller": "lmevaljob", "controllerGroup": "trustyai.opendatahub.io", "controllerKind": "LMEvalJob", "worker count": 1}
     INFO    Starting workers        {"controller": "LMEvalJobWorkload", "controllerGroup": "trustyai.opendatahub.io", "controllerKind": "LMEvalJob", "worker count": 1}
     ```
-1. Create 5 jobs. 
+1. Quota and Node Affinity example. We will create 5 jobs.
     
-    Jobs labeled with `user-queue` will be run on `kueue-worker` node. Job labeled with `user-queue-2` will be run on `kueue-worker2` node.
+    Jobs labeled with `user-queue` will be run on `kueue-worker` node.
+    Job labeled with `user-queue-2` will be run on `kueue-worker2` node.
+    Job will be Suspended if there is not enough quota. 
     
     Run 3 times.
     ```bash
-    cat <<EOF | kubectl apply -f -
+    cat <<EOF | kubectl create -f -
+    apiVersion: trustyai.opendatahub.io/v1alpha1
     kind: LMEvalJob
     metadata:
-    labels:
+      labels:
         app.kubernetes.io/name: fms-lm-eval-service
         app.kubernetes.io/managed-by: kustomize
         kueue.x-k8s.io/queue-name: user-queue
-    generateName: evaljob-sample-
-    namespace: default
+      generateName: evaljob-sample-
+      namespace: default
     spec:
-    pod:
+      pod:
         container:
-        resources:
+          resources:
             requests:
-            cpu: 2
-    suspend: true
-    model: hf
-    modelArgs:
-    - name: pretrained
+              cpu: 2
+      suspend: true
+      model: hf
+      modelArgs:
+      - name: pretrained
         value: EleutherAI/pythia-70m
-    taskList:
+      taskList:
         taskNames:
         - unfair_tos
-    logSamples: true
-    limit: "5"
+      logSamples: true
+      limit: "5"
     EOF
     ```
 
     Run 2 times.
     ```bash
-    cat <<EOF | kubectl apply -f -
+    cat <<EOF | kubectl create -f -
+    apiVersion: trustyai.opendatahub.io/v1alpha1
     kind: LMEvalJob
     metadata:
-    labels:
+      labels:
         app.kubernetes.io/name: fms-lm-eval-service
         app.kubernetes.io/managed-by: kustomize
         kueue.x-k8s.io/queue-name: user-queue-2
-    generateName: evaljob-sample-
-    namespace: default
+      generateName: evaljob-sample-
+      namespace: default
     spec:
-    pod:
+      pod:
         container:
-        resources:
+          resources:
             requests:
-            cpu: 2
-    suspend: true
-    model: hf
-    modelArgs:
-    - name: pretrained
+              cpu: 2
+      suspend: true
+      model: hf
+      modelArgs:
+      - name: pretrained
         value: EleutherAI/pythia-70m
-    taskList:
+      taskList:
         taskNames:
         - unfair_tos
-    logSamples: true
-    limit: "5"
+      logSamples: true
+      limit: "5"
     EOF
     ```
 
@@ -216,7 +218,7 @@
     lmevaljob.trustyai.opendatahub.io/evaljob-sample-d2jtx   Running  
     lmevaljob.trustyai.opendatahub.io/evaljob-sample-dpr2q   Running
     
-    # Each lmevaljob is represented by a Kueue Workerload resource. A Workload is only ADMITTED when there is enough quota in a Queue. In our example, user-queue has 4 cpu quota. We created 3 jobs each requests 2 cpu; therefore only 2 jobs can be admitted to user-queue.
+    # Each lmevaljob is represented by a Kueue Workload resource. A Workload is only ADMITTED when there is enough quota in a Queue. In our example, user-queue has 4 cpu quota. We created 3 jobs each requests 2 cpu; therefore only 2 jobs can be admitted to user-queue.
 
     NAME                                                           QUEUE          RESERVED IN       ADMITTED   FINISHED   AGE
     workload.kueue.x-k8s.io/lmevaljob-evaljob-sample-2zwb4-74b05   user-queue                                             71s
@@ -232,4 +234,173 @@
     pod/evaljob-sample-6gh6f   1/1     Running   0          82s   10.244.1.26   kueue-worker    <none>           <none>
     pod/evaljob-sample-d2jtx   1/1     Running   0          13s   10.244.2.38   kueue-worker2   <none>           <none>
     pod/evaljob-sample-dpr2q   1/1     Running   0          16s   10.244.2.37   kueue-worker2   <none>           <none>
-    ```
+    ```
+
+1. Preemption example:
+    
+    Clean up jobs
+    ```
+    kubectl delete lmevaljob $(kubectl get lmevaljob|grep evaljob-sample-|cut -d" " -f1)
+    ```
+
+    Create a new ClusterQueue, LocalQueue, and 2 WorkloadPriorityClass(low and high).
+ 
+    ```bash
+    cat <<EOF | kubectl apply -f -
+    apiVersion: kueue.x-k8s.io/v1beta1
+    kind: ClusterQueue
+    metadata:
+      name: "cluster-queue-3"
+    spec:
+      namespaceSelector: {} # match all.
+      resourceGroups:
+      - coveredResources: ["cpu", "memory"]
+        flavors:
+        - name: "default-flavor"
+          resources:
+          - name: "cpu"
+            nominalQuota: 4
+          - name: "memory"
+            nominalQuota: 88Gi
+        - name: "default-flavor-2"
+          resources:
+          - name: "cpu"
+            nominalQuota: 4
+          - name: "memory"
+            nominalQuota: 88Gi
+      preemption:
+        withinClusterQueue: LowerPriority
+    ---
+    apiVersion: kueue.x-k8s.io/v1beta1
+    kind: LocalQueue
+    metadata:
+      namespace: "default"
+      name: "user-queue-3"
+    spec:
+      clusterQueue: "cluster-queue-3"
+    ---
+    apiVersion: kueue.x-k8s.io/v1beta1
+    kind: WorkloadPriorityClass
+    metadata:
+      name: low-priority
+    value: 10
+    description: "10 is lower priority"
+    ---
+    apiVersion: kueue.x-k8s.io/v1beta1
+    kind: WorkloadPriorityClass
+    metadata:
+      name: high-priority
+    value: 10000
+    description: "10000 is higher priority"
+    EOF
+    ```
+
+    Create 4 low priory jobs.
+    Run 4 times.
+    ```bash
+    cat << EOF| kubectl create -f -
+    apiVersion: trustyai.opendatahub.io/v1alpha1
+    kind: LMEvalJob
+    metadata:
+      labels:
+        app.kubernetes.io/name: fms-lm-eval-service
+        app.kubernetes.io/managed-by: kustomize
+        kueue.x-k8s.io/queue-name: user-queue-3
+        kueue.x-k8s.io/priority-class: low-priority
+      generateName: evaljob-sample-
+      namespace: default
+    spec:
+      pod:
+        container:
+          resources:
+            requests:
+              cpu: 2
+      suspend: true
+      model: hf
+      modelArgs:
+      - name: pretrained
+        value: EleutherAI/pythia-70m
+      taskList:
+        taskNames:
+        - unfair_tos
+      logSamples: true
+      limit: "5"
+    EOF
+    ```
+
+    Verify they are in running state:
+    ```
+    NAME                                                     STATE
+    lmevaljob.trustyai.opendatahub.io/evaljob-sample-8cr8k   Running
+    lmevaljob.trustyai.opendatahub.io/evaljob-sample-n5s9d   Running
+    lmevaljob.trustyai.opendatahub.io/evaljob-sample-wnm2q   Running
+    lmevaljob.trustyai.opendatahub.io/evaljob-sample-xck8c   Running
+
+    NAME                                                           QUEUE          RESERVED IN       ADMITTED   FINISHED   AGE
+    workload.kueue.x-k8s.io/lmevaljob-evaljob-sample-8cr8k-34feb   user-queue-3   cluster-queue-3   True                  22s
+    workload.kueue.x-k8s.io/lmevaljob-evaljob-sample-n5s9d-1daba   user-queue-3   cluster-queue-3   True                  20s
+    workload.kueue.x-k8s.io/lmevaljob-evaljob-sample-wnm2q-52093   user-queue-3   cluster-queue-3   True                  21s
+    workload.kueue.x-k8s.io/lmevaljob-evaljob-sample-xck8c-44e13   user-queue-3   cluster-queue-3   True                  23s
+
+    NAME                       READY   STATUS    RESTARTS   AGE   IP            NODE            NOMINATED NODE   READINESS GATES
+    pod/evaljob-sample-8cr8k   1/1     Running   0          22s   10.244.1.17   kueue-worker    <none>           <none>
+    pod/evaljob-sample-n5s9d   1/1     Running   0          20s   10.244.2.11   kueue-worker2   <none>           <none>
+    pod/evaljob-sample-wnm2q   1/1     Running   0          21s   10.244.2.10   kueue-worker2   <none>           <none>
+    pod/evaljob-sample-xck8c   1/1     Running   0          23s   10.244.1.16   kueue-worker    <none>           <none>
+    ```
+
+
+    Create 1 high priority job
+    ```bash
+    cat << EOF| kubectl create -f -
+    apiVersion: trustyai.opendatahub.io/v1alpha1
+    kind: LMEvalJob
+    metadata:
+      labels:
+        app.kubernetes.io/name: fms-lm-eval-service
+        app.kubernetes.io/managed-by: kustomize
+        kueue.x-k8s.io/queue-name: user-queue-3
+        kueue.x-k8s.io/priority-class: high-priority
+      generateName: evaljob-sample-
+      namespace: default
+    spec:
+      pod:
+        container:
+          resources:
+            requests:
+              cpu: 2
+      suspend: true
+      model: hf
+      modelArgs:
+      - name: pretrained
+        value: EleutherAI/pythia-70m
+      taskList:
+        taskNames:
+        - unfair_tos
+      logSamples: true
+      limit: "5"
+    EOF
+    ```
+
+    Job labeled with low-priority will be preempted/evicted(Suspended) by the new job labeled with high-priority because nominal cpu quota has reached.
+    ```
+    NAME                                                     STATE
+    lmevaljob.trustyai.opendatahub.io/evaljob-sample-8cr8k   Suspended
+    lmevaljob.trustyai.opendatahub.io/evaljob-sample-mqj8j   Running
+    lmevaljob.trustyai.opendatahub.io/evaljob-sample-n5s9d   Running
+    lmevaljob.trustyai.opendatahub.io/evaljob-sample-wnm2q   Running
+    lmevaljob.trustyai.opendatahub.io/evaljob-sample-xck8c   Running
+
+    NAME                                                           QUEUE          RESERVED IN       ADMITTED   FINISHED   AGE
+    workload.kueue.x-k8s.io/lmevaljob-evaljob-sample-8cr8k-34feb   user-queue-3                     False                 78s
+    workload.kueue.x-k8s.io/lmevaljob-evaljob-sample-mqj8j-fdceb   user-queue-3   cluster-queue-3   True                  16s
+    workload.kueue.x-k8s.io/lmevaljob-evaljob-sample-n5s9d-1daba   user-queue-3   cluster-queue-3   True                  76s
+    workload.kueue.x-k8s.io/lmevaljob-evaljob-sample-wnm2q-52093   user-queue-3   cluster-queue-3   True                  77s
+    workload.kueue.x-k8s.io/lmevaljob-evaljob-sample-xck8c-44e13   user-queue-3   cluster-queue-3   True                  79s
+
+    NAME                       READY   STATUS    RESTARTS   AGE   IP            NODE            NOMINATED NODE   READINESS GATES
+    pod/evaljob-sample-mqj8j   1/1     Running   0          15s   10.244.1.18   kueue-worker    <none>           <none>
+    pod/evaljob-sample-n5s9d   1/1     Running   0          76s   10.244.2.11   kueue-worker2   <none>           <none>
+    pod/evaljob-sample-wnm2q   1/1     Running   0          77s   10.244.2.10   kueue-worker2   <none>           <none>
+    pod/evaljob-sample-xck8c   1/1     Running   0          79s   10.244.1.16   kueue-worker    <none>           <none>
+    ```
@@ -1,3 +1,19 @@
+/*
+Copyright 2024 IBM Corporation.
+
+Licensed under the Apache License, Version 2.0 (the "License");
+you may not use this file except in compliance with the License.
+You may obtain a copy of the License at
+
+    http://www.apache.org/licenses/LICENSE-2.0
+
+Unless required by applicable law or agreed to in writing, software
+distributed under the License is distributed on an "AS IS" BASIS,
+WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+See the License for the specific language governing permissions and
+limitations under the License.
+*/
+
 package job_mgr
 
 const (