huggingface
diff --git a/‎.github/workflows/autodocs.yaml
Lines changed: 1 addition & 1 deletion b/‎.github/workflows/autodocs.yaml
Lines changed: 1 addition & 1 deletion
diff --git a/‎Cargo.lock
Lines changed: 8 additions & 8 deletions b/‎Cargo.lock
Lines changed: 8 additions & 8 deletions
diff --git a/‎Cargo.toml
Lines changed: 1 addition & 1 deletion b/‎Cargo.toml
Lines changed: 1 addition & 1 deletion
diff --git a/‎README.md
Lines changed: 3 additions & 3 deletions b/‎README.md
Lines changed: 3 additions & 3 deletions
diff --git a/‎backends/gaudi/examples/docker_commands/docker_commands.md
Lines changed: 5 additions & 5 deletions b/‎backends/gaudi/examples/docker_commands/docker_commands.md
Lines changed: 5 additions & 5 deletions
diff --git a/‎backends/neuron/tests/server/test_prefill.py
Lines changed: 1 addition & 0 deletions b/‎backends/neuron/tests/server/test_prefill.py
Lines changed: 1 addition & 0 deletions
diff --git a/‎docs/openapi.json
Lines changed: 41 additions & 21 deletions b/‎docs/openapi.json
Lines changed: 41 additions & 21 deletions
@@ -41,5 +41,5 @@ jobs:
 
     - name: Check that documentation is up-to-date
       run: |
-        npm install -g @redocly/cli
+        npm install -g @redocly/cli@1.34.2
         python update_doc.py --check
@@ -21,7 +21,7 @@ default-members = [
 resolver = "2"
 
 [workspace.package]
-version = "3.3.4-dev0"
+version = "3.3.5-dev0"
 edition = "2021"
 authors = ["Olivier Dehaene"]
 homepage = "https://github.com/huggingface/text-generation-inference"
 
@@ -84,7 +84,7 @@ model=HuggingFaceH4/zephyr-7b-beta
 volume=$PWD/data
 
 docker run --gpus all --shm-size 1g -p 8080:80 -v $volume:/data \
-    ghcr.io/huggingface/text-generation-inference:3.3.4 --model-id $model
+    ghcr.io/huggingface/text-generation-inference:3.3.5 --model-id $model
 ```
 
 And then you can make requests like
@@ -121,7 +121,7 @@ curl localhost:8080/v1/chat/completions \
 
 **Note:** To use NVIDIA GPUs, you need to install the [NVIDIA Container Toolkit](https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/install-guide.html). We also recommend using NVIDIA drivers with CUDA version 12.2 or higher. For running the Docker container on a machine with no GPUs or CUDA support, it is enough to remove the `--gpus all` flag and add `--disable-custom-kernels`, please note CPU is not the intended platform for this project, so performance might be subpar.
 
-**Note:** TGI supports AMD Instinct MI210 and MI250 GPUs. Details can be found in the [Supported Hardware documentation](https://huggingface.co/docs/text-generation-inference/installation_amd#using-tgi-with-amd-gpus). To use AMD GPUs, please use `docker run --device /dev/kfd --device /dev/dri --shm-size 1g -p 8080:80 -v $volume:/data ghcr.io/huggingface/text-generation-inference:3.3.4-rocm --model-id $model` instead of the command above.
+**Note:** TGI supports AMD Instinct MI210 and MI250 GPUs. Details can be found in the [Supported Hardware documentation](https://huggingface.co/docs/text-generation-inference/installation_amd#using-tgi-with-amd-gpus). To use AMD GPUs, please use `docker run --device /dev/kfd --device /dev/dri --shm-size 1g -p 8080:80 -v $volume:/data ghcr.io/huggingface/text-generation-inference:3.3.5-rocm --model-id $model` instead of the command above.
 
 To see all options to serve your models (in the [code](https://github.com/huggingface/text-generation-inference/blob/main/launcher/src/main.rs) or in the cli):
 ```
@@ -152,7 +152,7 @@ volume=$PWD/data # share a volume with the Docker container to avoid downloading
 token=<your cli READ token>
 
 docker run --gpus all --shm-size 1g -e HF_TOKEN=$token -p 8080:80 -v $volume:/data \
-    ghcr.io/huggingface/text-generation-inference:3.3.4 --model-id $model
+    ghcr.io/huggingface/text-generation-inference:3.3.5 --model-id $model
 ```
 
 ### A note on Shared Memory (shm)
 
@@ -19,7 +19,7 @@ docker run -p 8080:80 \
    --ipc=host \
    -v $volume:/data \
    -e HF_TOKEN=$hf_token \
-   ghcr.io/huggingface/text-generation-inference:3.3.4-gaudi \
+   ghcr.io/huggingface/text-generation-inference:3.3.5-gaudi \
    --model-id $model \
    --max-input-tokens 1024 --max-total-tokens 2048 \
    --max-batch-prefill-tokens 2048 --max-batch-size 32 \
@@ -39,7 +39,7 @@ docker run -p 8080:80 \
    --ipc=host \
    -v $volume:/data \
    -e HF_TOKEN=$hf_token \
-   ghcr.io/huggingface/text-generation-inference:3.3.4-gaudi \
+   ghcr.io/huggingface/text-generation-inference:3.3.5-gaudi \
    --model-id $model \
    --sharded true --num-shard 8 \
    --max-input-tokens 1024 --max-total-tokens 2048 \
@@ -58,7 +58,7 @@ docker run -p 8080:80 \
    --cap-add=sys_nice \
    --ipc=host \
    -v $volume:/data \
-   ghcr.io/huggingface/text-generation-inference:3.3.4-gaudi \
+   ghcr.io/huggingface/text-generation-inference:3.3.5-gaudi \
    --model-id $model \
    --max-input-tokens 4096 --max-batch-prefill-tokens 16384 \
    --max-total-tokens 8192 --max-batch-size 4
@@ -81,7 +81,7 @@ docker run -p 8080:80 \
    --ipc=host \
    -v $volume:/data \
    -e HF_TOKEN=$hf_token \
-   ghcr.io/huggingface/text-generation-inference:3.3.4-gaudi \
+   ghcr.io/huggingface/text-generation-inference:3.3.5-gaudi \
    --model-id $model \
    --kv-cache-dtype fp8_e4m3fn \
    --max-input-tokens 1024 --max-total-tokens 2048 \
@@ -102,7 +102,7 @@ docker run -p 8080:80 \
    --ipc=host \
    -v $volume:/data \
    -e HF_TOKEN=$hf_token \
-   ghcr.io/huggingface/text-generation-inference:3.3.4-gaudi \
+   ghcr.io/huggingface/text-generation-inference:3.3.5-gaudi \
    --model-id $model \
    --kv-cache-dtype fp8_e4m3fn \
    --sharded true --num-shard 8 \
 
@@ -56,6 +56,7 @@ def _test_prefill(config_name, generator, batch_size, do_sample):
             assert tokens.ids[0] == expectations[0]
             assert tokens.texts[0] == expectations[1]
 
+
 def test_prefill_truncate(neuron_model_config):
     config_name = neuron_model_config["name"]
     neuron_model_path = neuron_model_config["neuron_model_path"]
 
@@ -10,7 +10,7 @@
       "name": "Apache 2.0",
       "url": "https://www.apache.org/licenses/LICENSE-2.0"
     },
-    "version": "3.3.4-dev0"
+    "version": "3.3.5-dev0"
   },
   "paths": {
     "/": {
@@ -57,7 +57,8 @@
                   "$ref": "#/components/schemas/ErrorResponse"
                 },
                 "example": {
-                  "error": "Input validation error"
+                  "error": "Input validation error",
+                  "error_type": "validation"
                 }
               }
             }
@@ -70,7 +71,8 @@
                   "$ref": "#/components/schemas/ErrorResponse"
                 },
                 "example": {
-                  "error": "Request failed during generation"
+                  "error": "Request failed during generation",
+                  "error_type": "generation"
                 }
               }
             }
@@ -83,7 +85,8 @@
                   "$ref": "#/components/schemas/ErrorResponse"
                 },
                 "example": {
-                  "error": "Model is overloaded"
+                  "error": "Model is overloaded",
+                  "error_type": "overloaded"
                 }
               }
             }
@@ -96,7 +99,8 @@
                   "$ref": "#/components/schemas/ErrorResponse"
                 },
                 "example": {
-                  "error": "Incomplete generation"
+                  "error": "Incomplete generation",
+                  "error_type": "incomplete_generation"
                 }
               }
             }
@@ -181,7 +185,8 @@
                   "$ref": "#/components/schemas/ErrorResponse"
                 },
                 "example": {
-                  "error": "Input validation error"
+                  "error": "Input validation error",
+                  "error_type": "validation"
                 }
               }
             }
@@ -194,7 +199,8 @@
                   "$ref": "#/components/schemas/ErrorResponse"
                 },
                 "example": {
-                  "error": "Request failed during generation"
+                  "error": "Request failed during generation",
+                  "error_type": "generation"
                 }
               }
             }
@@ -207,7 +213,8 @@
                   "$ref": "#/components/schemas/ErrorResponse"
                 },
                 "example": {
-                  "error": "Model is overloaded"
+                  "error": "Model is overloaded",
+                  "error_type": "overloaded"
                 }
               }
             }
@@ -220,7 +227,8 @@
                   "$ref": "#/components/schemas/ErrorResponse"
                 },
                 "example": {
-                  "error": "Incomplete generation"
+                  "error": "Incomplete generation",
+                  "error_type": "incomplete_generation"
                 }
               }
             }
@@ -264,7 +272,8 @@
                   "$ref": "#/components/schemas/ErrorResponse"
                 },
                 "example": {
-                  "error": "Input validation error"
+                  "error": "Input validation error",
+                  "error_type": "validation"
                 }
               }
             }
@@ -277,7 +286,8 @@
                   "$ref": "#/components/schemas/ErrorResponse"
                 },
                 "example": {
-                  "error": "Request failed during generation"
+                  "error": "Request failed during generation",
+                  "error_type": "generation"
                 }
               }
             }
@@ -290,7 +300,8 @@
                   "$ref": "#/components/schemas/ErrorResponse"
                 },
                 "example": {
-                  "error": "Model is overloaded"
+                  "error": "Model is overloaded",
+                  "error_type": "overloaded"
                 }
               }
             }
@@ -303,7 +314,8 @@
                   "$ref": "#/components/schemas/ErrorResponse"
                 },
                 "example": {
-                  "error": "Incomplete generation"
+                  "error": "Incomplete generation",
+                  "error_type": "incomplete_generation"
                 }
               }
             }
@@ -558,7 +570,8 @@
                   "$ref": "#/components/schemas/ErrorResponse"
                 },
                 "example": {
-                  "error": "Input validation error"
+                  "error": "Input validation error",
+                  "error_type": "validation"
                 }
               }
             }
@@ -571,7 +584,8 @@
                   "$ref": "#/components/schemas/ErrorResponse"
                 },
                 "example": {
-                  "error": "Request failed during generation"
+                  "error": "Request failed during generation",
+                  "error_type": "generation"
                 }
               }
             }
@@ -584,7 +598,8 @@
                   "$ref": "#/components/schemas/ErrorResponse"
                 },
                 "example": {
-                  "error": "Model is overloaded"
+                  "error": "Model is overloaded",
+                  "error_type": "overloaded"
                 }
               }
             }
@@ -597,7 +612,8 @@
                   "$ref": "#/components/schemas/ErrorResponse"
                 },
                 "example": {
-                  "error": "Incomplete generation"
+                  "error": "Incomplete generation",
+                  "error_type": "incomplete_generation"
                 }
               }
             }
@@ -646,7 +662,8 @@
                   "$ref": "#/components/schemas/ErrorResponse"
                 },
                 "example": {
-                  "error": "Input validation error"
+                  "error": "Input validation error",
+                  "error_type": "validation"
                 }
               }
             }
@@ -659,7 +676,8 @@
                   "$ref": "#/components/schemas/ErrorResponse"
                 },
                 "example": {
-                  "error": "Request failed during generation"
+                  "error": "Request failed during generation",
+                  "error_type": "generation"
                 }
               }
             }
@@ -672,7 +690,8 @@
                   "$ref": "#/components/schemas/ErrorResponse"
                 },
                 "example": {
-                  "error": "Model is overloaded"
+                  "error": "Model is overloaded",
+                  "error_type": "overloaded"
                 }
               }
             }
@@ -685,7 +704,8 @@
                   "$ref": "#/components/schemas/ErrorResponse"
                 },
                 "example": {
-                  "error": "Incomplete generation"
+                  "error": "Incomplete generation",
+                  "error_type": "incomplete_generation"
                 }
               }
             }
Original file line number	Diff line number	Diff line change
`@@ -10,7 +10,7 @@`
`10`	`10`	`"name": "Apache 2.0",`
`11`	`11`	`"url": "https://www.apache.org/licenses/LICENSE-2.0"`
`12`	`12`	`},`
`13`		`- "version": "3.3.4-dev0"`
	`13`	`+ "version": "3.3.5-dev0"`
`14`	`14`	`},`
`15`	`15`	`"paths": {`
`16`	`16`	`"/": {`
`@@ -57,7 +57,8 @@`
`57`	`57`	`"$ref": "#/components/schemas/ErrorResponse"`
`58`	`58`	`},`
`59`	`59`	`"example": {`
`60`		`- "error": "Input validation error"`
	`60`	`+ "error": "Input validation error",`
	`61`	`+ "error_type": "validation"`
`61`	`62`	`}`
`62`	`63`	`}`
`63`	`64`	`}`
`@@ -70,7 +71,8 @@`
`70`	`71`	`"$ref": "#/components/schemas/ErrorResponse"`
`71`	`72`	`},`
`72`	`73`	`"example": {`
`73`		`- "error": "Request failed during generation"`
	`74`	`+ "error": "Request failed during generation",`
	`75`	`+ "error_type": "generation"`
`74`	`76`	`}`
`75`	`77`	`}`
`76`	`78`	`}`
`@@ -83,7 +85,8 @@`
`83`	`85`	`"$ref": "#/components/schemas/ErrorResponse"`
`84`	`86`	`},`
`85`	`87`	`"example": {`
`86`		`- "error": "Model is overloaded"`
	`88`	`+ "error": "Model is overloaded",`
	`89`	`+ "error_type": "overloaded"`
`87`	`90`	`}`
`88`	`91`	`}`
`89`	`92`	`}`
`@@ -96,7 +99,8 @@`
`96`	`99`	`"$ref": "#/components/schemas/ErrorResponse"`
`97`	`100`	`},`
`98`	`101`	`"example": {`
`99`		`- "error": "Incomplete generation"`
	`102`	`+ "error": "Incomplete generation",`
	`103`	`+ "error_type": "incomplete_generation"`
`100`	`104`	`}`
`101`	`105`	`}`
`102`	`106`	`}`
`@@ -181,7 +185,8 @@`
`181`	`185`	`"$ref": "#/components/schemas/ErrorResponse"`
`182`	`186`	`},`
`183`	`187`	`"example": {`
`184`		`- "error": "Input validation error"`
	`188`	`+ "error": "Input validation error",`
	`189`	`+ "error_type": "validation"`
`185`	`190`	`}`
`186`	`191`	`}`
`187`	`192`	`}`
`@@ -194,7 +199,8 @@`
`194`	`199`	`"$ref": "#/components/schemas/ErrorResponse"`
`195`	`200`	`},`
`196`	`201`	`"example": {`
`197`		`- "error": "Request failed during generation"`
	`202`	`+ "error": "Request failed during generation",`
	`203`	`+ "error_type": "generation"`
`198`	`204`	`}`
`199`	`205`	`}`
`200`	`206`	`}`
`@@ -207,7 +213,8 @@`
`207`	`213`	`"$ref": "#/components/schemas/ErrorResponse"`
`208`	`214`	`},`
`209`	`215`	`"example": {`
`210`		`- "error": "Model is overloaded"`
	`216`	`+ "error": "Model is overloaded",`
	`217`	`+ "error_type": "overloaded"`
`211`	`218`	`}`
`212`	`219`	`}`
`213`	`220`	`}`
`@@ -220,7 +227,8 @@`
`220`	`227`	`"$ref": "#/components/schemas/ErrorResponse"`
`221`	`228`	`},`
`222`	`229`	`"example": {`
`223`		`- "error": "Incomplete generation"`
	`230`	`+ "error": "Incomplete generation",`
	`231`	`+ "error_type": "incomplete_generation"`
`224`	`232`	`}`
`225`	`233`	`}`
`226`	`234`	`}`
`@@ -264,7 +272,8 @@`
`264`	`272`	`"$ref": "#/components/schemas/ErrorResponse"`
`265`	`273`	`},`
`266`	`274`	`"example": {`
`267`		`- "error": "Input validation error"`
	`275`	`+ "error": "Input validation error",`
	`276`	`+ "error_type": "validation"`
`268`	`277`	`}`
`269`	`278`	`}`
`270`	`279`	`}`
`@@ -277,7 +286,8 @@`
`277`	`286`	`"$ref": "#/components/schemas/ErrorResponse"`
`278`	`287`	`},`
`279`	`288`	`"example": {`
`280`		`- "error": "Request failed during generation"`
	`289`	`+ "error": "Request failed during generation",`
	`290`	`+ "error_type": "generation"`
`281`	`291`	`}`
`282`	`292`	`}`
`283`	`293`	`}`
`@@ -290,7 +300,8 @@`
`290`	`300`	`"$ref": "#/components/schemas/ErrorResponse"`
`291`	`301`	`},`
`292`	`302`	`"example": {`
`293`		`- "error": "Model is overloaded"`
	`303`	`+ "error": "Model is overloaded",`
	`304`	`+ "error_type": "overloaded"`
`294`	`305`	`}`
`295`	`306`	`}`
`296`	`307`	`}`
`@@ -303,7 +314,8 @@`
`303`	`314`	`"$ref": "#/components/schemas/ErrorResponse"`
`304`	`315`	`},`
`305`	`316`	`"example": {`
`306`		`- "error": "Incomplete generation"`
	`317`	`+ "error": "Incomplete generation",`
	`318`	`+ "error_type": "incomplete_generation"`
`307`	`319`	`}`
`308`	`320`	`}`
`309`	`321`	`}`
`@@ -558,7 +570,8 @@`
`558`	`570`	`"$ref": "#/components/schemas/ErrorResponse"`
`559`	`571`	`},`
`560`	`572`	`"example": {`
`561`		`- "error": "Input validation error"`
	`573`	`+ "error": "Input validation error",`
	`574`	`+ "error_type": "validation"`
`562`	`575`	`}`
`563`	`576`	`}`
`564`	`577`	`}`
`@@ -571,7 +584,8 @@`
`571`	`584`	`"$ref": "#/components/schemas/ErrorResponse"`
`572`	`585`	`},`
`573`	`586`	`"example": {`
`574`		`- "error": "Request failed during generation"`
	`587`	`+ "error": "Request failed during generation",`
	`588`	`+ "error_type": "generation"`
`575`	`589`	`}`
`576`	`590`	`}`
`577`	`591`	`}`
`@@ -584,7 +598,8 @@`
`584`	`598`	`"$ref": "#/components/schemas/ErrorResponse"`
`585`	`599`	`},`
`586`	`600`	`"example": {`
`587`		`- "error": "Model is overloaded"`
	`601`	`+ "error": "Model is overloaded",`
	`602`	`+ "error_type": "overloaded"`
`588`	`603`	`}`
`589`	`604`	`}`
`590`	`605`	`}`
`@@ -597,7 +612,8 @@`
`597`	`612`	`"$ref": "#/components/schemas/ErrorResponse"`
`598`	`613`	`},`
`599`	`614`	`"example": {`
`600`		`- "error": "Incomplete generation"`
	`615`	`+ "error": "Incomplete generation",`
	`616`	`+ "error_type": "incomplete_generation"`
`601`	`617`	`}`
`602`	`618`	`}`
`603`	`619`	`}`
`@@ -646,7 +662,8 @@`
`646`	`662`	`"$ref": "#/components/schemas/ErrorResponse"`
`647`	`663`	`},`
`648`	`664`	`"example": {`
`649`		`- "error": "Input validation error"`
	`665`	`+ "error": "Input validation error",`
	`666`	`+ "error_type": "validation"`
`650`	`667`	`}`
`651`	`668`	`}`
`652`	`669`	`}`
`@@ -659,7 +676,8 @@`
`659`	`676`	`"$ref": "#/components/schemas/ErrorResponse"`
`660`	`677`	`},`
`661`	`678`	`"example": {`
`662`		`- "error": "Request failed during generation"`
	`679`	`+ "error": "Request failed during generation",`
	`680`	`+ "error_type": "generation"`
`663`	`681`	`}`
`664`	`682`	`}`
`665`	`683`	`}`
`@@ -672,7 +690,8 @@`
`672`	`690`	`"$ref": "#/components/schemas/ErrorResponse"`
`673`	`691`	`},`
`674`	`692`	`"example": {`
`675`		`- "error": "Model is overloaded"`
	`693`	`+ "error": "Model is overloaded",`
	`694`	`+ "error_type": "overloaded"`
`676`	`695`	`}`
`677`	`696`	`}`
`678`	`697`	`}`
`@@ -685,7 +704,8 @@`
`685`	`704`	`"$ref": "#/components/schemas/ErrorResponse"`
`686`	`705`	`},`
`687`	`706`	`"example": {`
`688`		`- "error": "Incomplete generation"`
	`707`	`+ "error": "Incomplete generation",`
	`708`	`+ "error_type": "incomplete_generation"`
`689`	`709`	`}`
`690`	`710`	`}`
`691`	`711`	`}`