AutoTokenizer ignores tokenizer.json from the repository

### System Info

- `transformers` version: 5.3.0
- Python version: 3.10.12
- Huggingface_hub version: 1.5.0

### Who can help?

@ArthurZucker and @itazap

### Information

- [ ] The official example scripts
- [x] My own modified scripts

### Tasks

- [ ] An officially supported task in the `examples` folder (such as GLUE/SQuAD, ...)
- [ ] My own task or dataset (give details below)

### Reproduction

`AutoTokenizer` doesn't load tokenizer based on `tokenizer.json` from the repository. Saving this tokenizer produces different `tokenizer.json` file.

```python
from transformers import AutoTokenizer

hf_tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/deepseek-coder-6.7b-instruct")
hf_tokenizer.save_pretrained("hf_deepseek_tokenizer/")
```
[tokenizer_original.json](https://huggingface.co/deepseek-ai/deepseek-coder-6.7b-instruct/raw/main/tokenizer.json)
[tokenizer_saved.json](https://github.com/user-attachments/files/25766810/tokenizer_saved.json)

Original normalizer/pre-tokenizer:
```json
  "normalizer": {
    "type": "Sequence",
    "normalizers": []
  },
  "pre_tokenizer": {
    "type": "Sequence",
    "pretokenizers": [
      {
        "type": "Split",
        "pattern": {
          "Regex": "[\r\n]"
        },
        "behavior": "Isolated",
        "invert": false
      },
      {
        "type": "Split",
        "pattern": {
          "Regex": "\\s?\\p{L}+"
        },
        "behavior": "Isolated",
        "invert": false
      },
      {
        "type": "Split",
        "pattern": {
          "Regex": "\\s?\\p{P}+"
        },
        "behavior": "Isolated",
        "invert": false
      },
      {
        "type": "Split",
        "pattern": {
          "Regex": "[一-龥ࠀ-一가-퟿]+"
        },
        "behavior": "Isolated",
        "invert": false
      },
      {
        "type": "Digits",
        "individual_digits": true
      },
      {
        "type": "ByteLevel",
        "add_prefix_space": false,
        "trim_offsets": true,
        "use_regex": false
      }
    ]
  }
```
Saved normalizer/pre-tokenizer:
```json
  "normalizer": null,
  "pre_tokenizer": {
    "type": "Metaspace",
    "replacement": "▁",
    "prepend_scheme": "always",
    "split": false
  },
```

### Expected behavior

Original `tokenizer.json` should be used to instantiate the tokenizer.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

AutoTokenizer ignores tokenizer.json from the repository #44462

System Info

Who can help?

Information

Tasks

Reproduction

Expected behavior

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

AutoTokenizer ignores tokenizer.json from the repository #44462

Description

System Info

Who can help?

Information

Tasks

Reproduction

Expected behavior

Metadata

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

Issue actions