Memory leak for large strings

This snippet will cause memory usage to rise indefinitely:

```python
from transformers import AutoTokenizer
import gc

tokenizer = AutoTokenizer.from_pretrained("TinyLlama/TinyLlama-1.1B-Chat-v1.0", use_fast=True)
refresh_every = 100000

for i in range(100000):
  s = f'{i} {i} ' * 10000
  tokenizer.encode(s)
  gc.collect()
  if i % 100 == 0:
    print(i)
  if i % refresh_every == 0:
    tokenizer = AutoTokenizer.from_pretrained("TinyLlama/TinyLlama-1.1B-Chat-v1.0", use_fast=True)
```

If you set `refresh_every` to 100000 (like it is in the snippet), the memory usage will keep on rising. [This colab notebook](https://colab.research.google.com/drive/1YDuPXviLqmwFAaROiVMCLIwPGjLTkQ_Y#scrollTo=3eIklMiRFq6J) crashes after about 15 minutes of executing.

If you set `refresh_every` to 100, the memory consumption will be stable.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Memory leak for large strings #1539

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Memory leak for large strings #1539

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions