Link to this sectionExportation TensorRT pour les modèles YOLO26#

Le déploiement de modèles de computer vision dans des environnements haute performance peut nécessiter un format qui maximise la vitesse et l'efficacité. C'est particulièrement vrai lorsque tu déploies ton modèle sur des GPU NVIDIA.

En utilisant le format d'exportation TensorRT, tu peux optimiser tes modèles Ultralytics YOLO26 pour une inférence rapide et efficace sur le matériel NVIDIA. Ce guide te fournira des étapes simples à suivre pour le processus de conversion et t'aidera à tirer le meilleur parti de la technologie avancée de NVIDIA dans tes projets de deep learning.

Link to this sectionTensorRT#

NVIDIA TensorRT optimization workflow

TensorRT, développé par NVIDIA, est un kit de développement logiciel (SDK) avancé conçu pour l'inférence de deep learning à haute vitesse. Il est particulièrement adapté aux applications en temps réel comme la object detection.

Ce toolkit optimise les modèles de deep learning pour les GPU NVIDIA, ce qui permet des opérations plus rapides et plus efficaces. Les modèles TensorRT subissent une optimisation TensorRT, qui inclut des techniques telles que la fusion de couches, la calibration de précision (INT8 et FP16), la gestion dynamique de la mémoire des tenseurs et l'auto-ajustement des noyaux. Convertir des modèles de deep learning au format TensorRT permet aux développeurs de réaliser pleinement le potentiel des GPU NVIDIA.

TensorRT est connu pour sa compatibilité avec divers formats de modèles, notamment TensorFlow, PyTorch et ONNX, offrant aux développeurs une solution flexible pour intégrer et optimiser des modèles issus de différents frameworks. Cette polyvalence permet un model deployment efficace à travers divers environnements matériels et logiciels.

Link to this sectionCaractéristiques principales des modèles TensorRT#

Les modèles TensorRT offrent une gamme de fonctionnalités clés qui contribuent à leur efficacité et à leur performance dans l'inférence de deep learning à haute vitesse :

Calibration de précision : TensorRT prend en charge la calibration de précision, permettant aux modèles d'être ajustés selon des exigences de précision spécifiques. Cela inclut la prise en charge de formats de précision réduite tels que INT8 et FP16, qui peuvent augmenter davantage la vitesse d'inférence tout en maintenant des niveaux de précision acceptables.
Fusion de couches : Le processus d'optimisation TensorRT inclut la fusion de couches, où plusieurs couches d'un neural network sont combinées en une seule opération. Cela réduit la surcharge computationnelle et améliore la vitesse d'inférence en minimisant l'accès à la mémoire et les calculs.

TensorRT neural network layer fusion optimization

Gestion dynamique de la mémoire des tenseurs : TensorRT gère efficacement l'utilisation de la mémoire des tenseurs pendant l'inférence, réduisant la surcharge mémoire et optimisant l'allocation mémoire. Il en résulte une utilisation plus efficace de la mémoire GPU.
Auto-ajustement des noyaux (Automatic Kernel Tuning) : TensorRT applique un auto-ajustement des noyaux pour sélectionner le noyau GPU le plus optimisé pour chaque couche du modèle. Cette approche adaptative garantit que le modèle tire pleinement parti de la puissance de calcul du GPU.

Link to this sectionOptions de déploiement dans TensorRT#

Avant de regarder le code pour exporter des modèles YOLO26 au format TensorRT, comprenons où les modèles TensorRT sont habituellement utilisés.

TensorRT propose plusieurs options de déploiement, et chaque option équilibre différemment la facilité d'intégration, l'optimisation des performances et la flexibilité :

Déploiement avec TensorFlow : Cette méthode intègre TensorRT dans TensorFlow, permettant aux modèles optimisés de s'exécuter dans un environnement TensorFlow familier. C'est utile pour les modèles avec un mélange de couches prises en charge et non prises en charge, car TF-TRT peut les gérer efficacement.

NVIDIA TensorRT optimization workflow

API d'exécution autonome TensorRT (Standalone Runtime API) : Offre un contrôle granulaire, idéal pour les applications où la performance est critique. C'est plus complexe mais permet une implémentation personnalisée des opérateurs non pris en charge.
NVIDIA Triton Inference Server : Une option qui prend en charge les modèles de divers frameworks. Particulièrement adapté à l'inférence cloud ou edge, il fournit des fonctionnalités telles que l'exécution concurrente de modèles et l'analyse de modèles.

Link to this sectionExporter des modèles YOLO26 vers TensorRT#

Tu peux améliorer l'efficacité de l'exécution et optimiser les performances en convertissant les modèles YOLO26 au format TensorRT.

Link to this sectionInstallation#

Pour installer le package requis, exécute :

Installation

# Install the required package for YOLO26
pip install ultralytics

Pour des instructions détaillées et les meilleures pratiques liées au processus d'installation, consulte notre guide d'installation YOLO26. Lors de l'installation des packages requis pour YOLO26, si tu rencontres des difficultés, consulte notre guide des problèmes courants pour des solutions et astuces.

Link to this sectionUtilisation#

Avant de plonger dans les instructions d'utilisation, assure-toi de jeter un œil à la gamme de modèles YOLO26 proposés par Ultralytics. Cela t'aidera à choisir le modèle le plus approprié pour les exigences de ton projet.

Le format TensorRT prend en charge les modes Export, Predict et Validate. L'inférence et la validation nécessitent un GPU NVIDIA. Exporte ton modèle, puis charge le modèle exporté pour exécuter l'inférence ou valider sa précision.

Exporter (Export)

from ultralytics import YOLO

# Load a YOLO26 model
model = YOLO("yolo26n.pt")

# Export the model to TensorRT format
model.export(format="engine")  # creates 'yolo26n.engine'

Prédire (Predict)

from ultralytics import YOLO

# Load the exported TensorRT model
model = YOLO("yolo26n.engine")

# Run inference
results = model("https://ultralytics.com/images/bus.jpg")

Valider

from ultralytics import YOLO

# Load the exported TensorRT model
model = YOLO("yolo26n.engine")

# Validate accuracy on the COCO8 dataset
metrics = model.val(data="coco8.yaml")

Link to this sectionArguments d'exportation#

Argument	Type	Défaut	Description
`format`	`str`	`'engine'`	Format cible pour le modèle exporté, définissant la compatibilité avec divers environnements de déploiement.
`imgsz`	`int` ou `tuple`	`640`	Taille d'image souhaitée pour l'entrée du modèle. Peut être un entier pour des images carrées ou un tuple `(height, width)` pour des dimensions spécifiques.
`half`	`bool`	`False`	Active la quantification FP16 (demi-précision), réduisant la taille du modèle et accélérant potentiellement l'inférence sur le matériel pris en charge.
`int8`	`bool`	`False`	Active la quantification INT8, compressant davantage le modèle et accélérant l'inférence avec une perte de précision minimale, principalement pour les appareils en périphérie.
`dynamic`	`bool`	`False`	Autorise des tailles d'entrée dynamiques, améliorant la flexibilité dans la gestion de dimensions d'image variables.
`simplify`	`bool`	`True`	Simplifie le graphe du modèle avec `onnxslim`, améliorant potentiellement les performances et la compatibilité.
`workspace`	`float` ou `None`	`None`	Définit la taille maximale de l'espace de travail en GiB pour les optimisations TensorRT, équilibrant l'utilisation de la mémoire et les performances ; utilise `None` pour une auto-allocation par TensorRT jusqu'au maximum de l'appareil.
`nms`	`bool`	`False`	Ajoute le NMS (Non-Maximum Suppression), essentiel pour un post-traitement de détection précis et efficace.
`batch`	`int`	`1`	Spécifie la taille de l'inférence par lot du modèle exporté ou le nombre maximal d'images que le modèle exporté traitera simultanément en mode `predict`.
`data`	`str`	`'coco8.yaml'`	Chemin vers le fichier de configuration du dataset (par défaut : `coco8.yaml`), essentiel pour la quantification.
`fraction`	`float`	`1.0`	Spécifie la fraction du jeu de données à utiliser pour le calibrage de la quantification INT8. Permet le calibrage sur un sous-ensemble du jeu de données complet, utile pour des expériences ou lorsque les ressources sont limitées. S'il n'est pas spécifié avec INT8 activé, le jeu de données complet sera utilisé.
`device`	`str`	`None`	Spécifie l'appareil pour l'exportation : GPU (`device=0`), DLA pour NVIDIA Jetson (`device=dla:0` ou `device=dla:1`).

Astuce

Assure-toi d'utiliser un GPU avec prise en charge de CUDA lors de l'exportation vers TensorRT.

TensorRT 11.0 et DLA

TensorRT 11.0 ne prend pas en charge DLA ; utilise TensorRT 10.x pour device=dla:0 ou device=dla:1, ou exporte un moteur GPU TensorRT 11.0.

Pour plus de détails sur le processus d'exportation, visite la page de documentation Ultralytics sur l'exportation.

Link to this sectionExporter TensorRT avec quantification INT8#

L'exportation des modèles Ultralytics YOLO utilisant TensorRT avec une precision INT8 exécute une quantification post-entraînement (PTQ). TensorRT utilise la calibration pour le PTQ, qui mesure la distribution des activations au sein de chaque tenseur d'activation lorsque le modèle YOLO traite l'inférence sur des données d'entrée représentatives, puis utilise cette distribution pour estimer les valeurs d'échelle pour chaque tenseur. Chaque tenseur d'activation candidat à la quantification a une échelle associée qui est déduite par un processus de calibration.

Quantification TensorRT 11

TensorRT 11 a supprimé la quantification implicite et l'interface IInt8Calibrator. Sur TensorRT 11 et versions ultérieures, Ultralytics effectue la quantification INT8 avec la quantification explicite NVIDIA ModelOpt, qui insère des nœuds Q/DQ dans le graphe ONNX avant de construire un moteur fortement typé, et le FP16 est appliqué avec la conversion en précision mixte ModelOpt AutoCast. Les arguments int8=True, half=True et data fonctionnent de la même manière ; ModelOpt est installé automatiquement lors de la première utilisation. Sur TensorRT 7-10, le calibrateur hérité décrit ci-dessous est utilisé à la place.

Lors du traitement de réseaux quantifiés implicitement, TensorRT utilise l'INT8 de manière opportuniste pour optimiser le temps d'exécution des couches. Si une couche s'exécute plus rapidement en INT8 et possède des échelles de quantification assignées sur ses entrées et sorties de données, alors un noyau avec une précision INT8 est assigné à cette couche ; sinon, TensorRT sélectionne une précision FP32 ou FP16 pour le noyau en fonction de ce qui résulte en un temps d'exécution plus rapide pour cette couche.

Astuce

Il est critique de s'assurer que le même appareil qui utilisera les poids du modèle TensorRT pour le déploiement est utilisé pour l'exportation avec une précision INT8, car les résultats de calibration peuvent varier d'un appareil à l'autre.

Link to this sectionConfigurer l'exportation INT8#

Les arguments fournis lors de l'utilisation de export pour un modèle Ultralytics YOLO influenceront grandement les performances du modèle exporté. Ils devront également être sélectionnés en fonction des ressources disponibles sur l'appareil, bien que les arguments par défaut devraient fonctionner pour la plupart des GPU discrets NVIDIA Ampere (ou plus récents). L'algorithme de calibration utilisé est "MINMAX_CALIBRATION" pour les exportations GPU, tandis que les exportations DLA sur NVIDIA Jetson utilisent "ENTROPY_CALIBRATION_2". Tu peux lire plus de détails sur les options disponibles dans le Guide du développeur TensorRT. Les tests d'Ultralytics ont montré que "MINMAX_CALIBRATION" est le meilleur choix pour les exportations GPU, et l'algorithme est sélectionné automatiquement en fonction de l'appareil d'exportation.

workspace : Contrôle la taille (en GiB) de l'allocation mémoire de l'appareil lors de la conversion des poids du modèle.
- Ajuste la valeur workspace en fonction de tes besoins de calibration et de la disponibilité des ressources. Bien qu'un workspace plus grand puisse augmenter le temps de calibration, il permet à TensorRT d'explorer une gamme plus large de tactiques d'optimisation, améliorant potentiellement les performances et l'accuracy du modèle. À l'inverse, un workspace plus petit peut réduire le temps de calibration mais peut limiter les stratégies d'optimisation, affectant la qualité du modèle quantifié.
- La valeur par défaut est workspace=None, ce qui permettra à TensorRT d'allouer automatiquement la mémoire. Lors d'une configuration manuelle, cette valeur peut devoir être augmentée si la calibration plante (se ferme sans avertissement).
- TensorRT signalera UNSUPPORTED_STATE lors de l'exportation si la valeur de workspace est supérieure à la mémoire disponible sur l'appareil, ce qui signifie que la valeur pour workspace doit être diminuée ou définie sur None.
- Si workspace est défini sur la valeur maximale et que la calibration échoue/plante, envisage d'utiliser None pour l'auto-allocation ou en réduisant les valeurs pour imgsz et batch afin de réduire les besoins en mémoire.
- N'oublie pas que la calibration pour INT8 est spécifique à chaque appareil ; emprunter un GPU "haut de gamme" pour la calibration pourrait entraîner de faibles performances lorsque l'inférence sera exécutée sur un autre appareil.
batch : La taille de lot (batch-size) maximale qui sera utilisée pour l'inférence. Pendant l'inférence, des lots plus petits peuvent être utilisés, mais l'inférence n'acceptera pas de lots plus grands que ce qui est spécifié.

Remarque

L'utilisation de petits lots peut conduire à une mise à l'échelle inexacte pendant la calibration INT8. C'est parce que le processus s'ajuste en fonction des données qu'il voit. Les petits lots pourraient ne pas capturer la gamme complète des valeurs, menant à des problèmes avec la calibration finale. L'utilisation d'une batch size plus grande aide à assurer des résultats de calibration plus représentatifs.

L'expérimentation menée par NVIDIA les a conduits à recommander d'utiliser au moins 500 images de calibration représentatives des données de ton modèle avec la calibration de quantification INT8. Il s'agit d'une ligne directrice et non d'une exigence stricte, et tu devras expérimenter ce qui est nécessaire pour obtenir de bonnes performances pour ton jeu de données. Puisque les données de calibration sont requises pour la calibration INT8 avec TensorRT, assure-toi d'utiliser l'argument data lorsque int8=True pour TensorRT et utilise data="my_dataset.yaml", ce qui utilisera les images de validation pour calibrer. Lorsqu'aucune valeur n'est transmise pour data avec l'exportation vers TensorRT avec quantification INT8, la valeur par défaut sera d'utiliser l'un des "petits" jeux de données d'exemple basés sur la tâche du modèle au lieu de renvoyer une erreur.

Exemple

from ultralytics import YOLO

model = YOLO("yolo26n.pt")
model.export(
    format="engine",
    dynamic=True,  # (1)!
    batch=8,  # (2)!
    workspace=4,  # (3)!
    int8=True,
    data="coco.yaml",  # (4)!
)

# Load the exported TensorRT INT8 model
model = YOLO("yolo26n.engine", task="detect")

# Run inference
result = model.predict("https://ultralytics.com/images/bus.jpg")

Exporte avec des axes dynamiques ; ceci sera activé par défaut lors de l'exportation avec int8=True même s'il n'est pas explicitement défini. Voir arguments d'exportation pour plus d'informations.
Définit une taille de lot maximale de 8 pour le modèle exporté et la calibration INT8.
Alloue 4 GiB de mémoire au lieu d'allouer la totalité de l'appareil pour le processus de conversion.
Utilise le jeu de données COCO pour la calibration, spécifiquement les images utilisées pour la validation (5 000 au total).

Cache de calibration

TensorRT générera un .cache de calibration qui pourra être réutilisé pour accélérer l'exportation de futurs poids de modèles utilisant les mêmes données, mais cela peut entraîner une mauvaise calibration lorsque les données sont très différentes ou si la valeur batch est modifiée de manière drastique. Dans ces circonstances, le .cache existant doit être renommé et déplacé vers un répertoire différent ou supprimé entièrement.

Link to this sectionAvantages de l'utilisation de YOLO avec TensorRT INT8#

Taille de modèle réduite : La quantification de FP32 à INT8 peut réduire la taille du modèle par 4 (sur disque ou en mémoire), conduisant à des temps de téléchargement plus rapides, des exigences de stockage plus faibles et une empreinte mémoire réduite lors du déploiement d'un modèle.
Consommation d'énergie réduite : Les opérations de précision réduite pour les modèles YOLO exportés en INT8 peuvent consommer moins d'énergie par rapport aux modèles FP32, surtout pour les appareils alimentés par batterie.
Vitesses d'inférence améliorées : TensorRT optimise le modèle pour le matériel cible, conduisant potentiellement à des vitesses d'inférence plus rapides sur les GPU, les appareils embarqués et les accélérateurs.

Note sur les vitesses d'inférence

Les premiers appels d'inférence avec un modèle exporté vers TensorRT INT8 peuvent avoir des temps de prétraitement, d'inférence et/ou de post-traitement plus longs que d'habitude. Cela peut également se produire lors de la modification de imgsz pendant l'inférence, surtout lorsque imgsz n'est pas le même que ce qui a été spécifié lors de l'exportation (l'exportation imgsz est définie comme profil "optimal" TensorRT).

Link to this sectionInconvénients de l'utilisation de YOLO avec TensorRT INT8#

Diminutions des métriques d'évaluation : L'utilisation d'une précision inférieure signifiera que la mAP, la Precision, le Recall ou toute autre métrique utilisée pour évaluer les performances du modèle sera probablement légèrement moins bonne. Voir la section des résultats de performance pour comparer les différences de mAP50 et mAP50-95 lors de l'exportation avec INT8 sur un petit échantillon de divers appareils.
Temps de développement accrus : Trouver les paramètres "optimaux" pour la calibration INT8 pour un jeu de données et un appareil peut prendre une quantité significative de tests.
Dépendance matérielle : La calibration et les gains de performance pourraient être hautement dépendants du matériel et les poids du modèle sont moins transférables.

Link to this sectionPerformances d'exportation Ultralytics YOLO TensorRT#

Link to this sectionNVIDIA A100#

Performance

Testé avec Ubuntu 22.04.3 LTS, python 3.10.12, ultralytics==8.2.4, tensorrt==8.6.1.post1

Consulte les Docs de détection pour des exemples d'utilisation avec ces modèles entraînés sur COCO, qui incluent 80 classes pré-entraînées.

Remarque

Temps d'inférence affichés pour la mean, le min (plus rapide) et le max (plus lent) pour chaque test en utilisant les poids pré-entraînés yolov8n.engine

Précision	Test d'évaluation	moyenne (ms)	min \| max (ms)	mAP^val 50(B)	mAP^val 50-95(B)	`batch`	taille ^(pixels)
FP32	Prédire (Predict)	0.52	0.51 \| 0.56			8	640
FP32	COCO^val	0.52		0.52	0.37	1	640
FP16	Prédire (Predict)	0.34	0.34 \| 0.41			8	640
FP16	COCO^val	0.33		0.52	0.37	1	640
INT8	Prédire (Predict)	0.28	0.27 \| 0.31			8	640
INT8	COCO^val	0.29		0.47	0.33	1	640

Link to this sectionGPU grand public#

Performance de détection (COCO)

Testé avec Windows 10.0.19045, python 3.10.9, ultralytics==8.2.4, tensorrt==10.0.0b6

Remarque

Temps d'inférence affichés pour la mean, le min (plus rapide) et le max (plus lent) pour chaque test en utilisant les poids pré-entraînés yolov8n.engine

Précision	Test d'évaluation	moyenne (ms)	min \| max (ms)	mAP^val 50(B)	mAP^val 50-95(B)	`batch`	taille ^(pixels)
FP32	Prédire (Predict)	1.06	0.75 \| 1.88			8	640
FP32	COCO^val	1.37		0.52	0.37	1	640
FP16	Prédire (Predict)	0.62	0.75 \| 1.13			8	640
FP16	COCO^val	0.85		0.52	0.37	1	640
INT8	Prédire (Predict)	0.52	0.38 \| 1.00			8	640
INT8	COCO^val	0.74		0.47	0.33	1	640

Link to this sectionAppareils embarqués#

Performance de détection (COCO)

Testé avec JetPack 6.0 (L4T 36.3) Ubuntu 22.04.4 LTS, python 3.10.12, ultralytics==8.2.16, tensorrt==10.0.1

Remarque

Temps d'inférence affichés pour la mean, le min (plus rapide) et le max (plus lent) pour chaque test en utilisant les poids pré-entraînés yolov8n.engine

Précision	Test d'évaluation	moyenne (ms)	min \| max (ms)	mAP^val 50(B)	mAP^val 50-95(B)	`batch`	taille ^(pixels)
FP32	Prédire (Predict)	6.11	6.10 \| 6.29			8	640
FP32	COCO^val	6.17		0.52	0.37	1	640
FP16	Prédire (Predict)	3.18	3.18 \| 3.20			8	640
FP16	COCO^val	3.19		0.52	0.37	1	640
INT8	Prédire (Predict)	2,30	2.29 \| 2.35			8	640
INT8	COCO^val	2.32		0.46	0.32	1	640

Info

Consulte notre guide de démarrage rapide sur NVIDIA Jetson avec Ultralytics YOLO pour en savoir plus sur l'installation et la configuration.

Info

Consulte notre guide de démarrage rapide sur NVIDIA DGX Spark avec Ultralytics YOLO pour en savoir plus sur l'installation et la configuration.

Link to this sectionMéthodes d'évaluation#

Développe les sections ci-dessous pour plus d'informations sur la façon dont ces modèles ont été exportés et testés.

Configurations d'exportation

Consulte le mode export pour les détails concernant les arguments de configuration d'exportation.

from ultralytics import YOLO

model = YOLO("yolo26n.pt")

# TensorRT FP32
out = model.export(format="engine", imgsz=640, dynamic=True, verbose=False, batch=8, workspace=2)

# TensorRT FP16
out = model.export(format="engine", imgsz=640, dynamic=True, verbose=False, batch=8, workspace=2, half=True)

# TensorRT INT8 with calibration `data` (i.e. COCO, ImageNet, or DOTAv1 for appropriate model task)
out = model.export(
    format="engine", imgsz=640, dynamic=True, verbose=False, batch=8, workspace=2, int8=True, data="coco8.yaml"
)

Boucle de prédiction

Consulte le mode predict pour des informations supplémentaires.

import cv2

from ultralytics import YOLO

model = YOLO("yolo26n.engine")
img = cv2.imread("path/to/image.jpg")

for _ in range(100):
    result = model.predict(
        [img] * 8,  # batch=8 of the same image
        verbose=False,
        device="cuda",
    )

Configuration de la validation

See val mode to learn more about validation configuration arguments.

from ultralytics import YOLO

model = YOLO("yolo26n.engine")
results = model.val(
    data="data.yaml",  # COCO, ImageNet, or DOTAv1 for appropriate model task
    batch=1,
    imgsz=640,
    verbose=False,
    device="cuda",
)

Link to this sectionDéploiement de modèles YOLO26 exportés en TensorRT#

Après avoir exporté avec succès tes modèles Ultralytics YOLO26 au format TensorRT, tu es maintenant prêt à les déployer. Pour des instructions détaillées sur le déploiement de tes modèles TensorRT dans divers environnements, jette un œil aux ressources suivantes :

Déployer Ultralytics avec un serveur Triton : Notre guide sur l'utilisation du serveur NVIDIA Triton Inference (anciennement TensorRT Inference) spécifiquement pour une utilisation avec les modèles Ultralytics YOLO.
Déploiement de réseaux neuronaux profonds avec NVIDIA TensorRT : Cet article explique comment utiliser NVIDIA TensorRT pour déployer efficacement des réseaux neuronaux profonds sur des plateformes de déploiement basées sur GPU.
IA de bout en bout pour PC basés sur NVIDIA : déploiement NVIDIA TensorRT : Cet article de blog explique l'utilisation de NVIDIA TensorRT pour optimiser et déployer des modèles d'IA sur des PC équipés de matériel NVIDIA.
Dépôt GitHub pour NVIDIA TensorRT : : Ceci est le dépôt GitHub officiel contenant le code source et la documentation pour NVIDIA TensorRT.

Link to this sectionRésumé#

Dans ce guide, nous nous sommes concentrés sur la conversion des modèles Ultralytics YOLO26 vers le format de modèle TensorRT de NVIDIA. Cette étape de conversion est cruciale pour améliorer l'efficacité et la vitesse des modèles YOLO26, les rendant plus performants et adaptés à divers environnements de déploiement.

Pour plus d'informations sur les détails d'utilisation, jette un œil à la documentation officielle de TensorRT.

Si tu es curieux à propos d'autres intégrations Ultralytics YOLO26, notre page de guide d'intégration fournit une vaste sélection de ressources informatives et d'aperçus.

Link to this sectionFAQ#

Link to this sectionComment convertir les modèles YOLO26 au format TensorRT ?#

Pour convertir tes modèles Ultralytics YOLO26 au format TensorRT pour une inférence optimisée sur GPU NVIDIA, suis ces étapes :

Installe le package requis :
```
pip install ultralytics
```

Exporte ton modèle YOLO26 :

from ultralytics import YOLO

model = YOLO("yolo26n.pt")
model.export(format="engine")  # creates 'yolo26n.engine'

# Run inference
model = YOLO("yolo26n.engine")
results = model("https://ultralytics.com/images/bus.jpg")

Pour plus de détails, consulte le guide d'installation de YOLO26 et la documentation sur l'exportation.

Link to this sectionQuels sont les avantages d'utiliser TensorRT pour les modèles YOLO26 ?#

L'utilisation de TensorRT pour optimiser les modèles YOLO26 offre plusieurs avantages :

Vitesse d'inférence plus rapide : TensorRT optimise les couches du modèle et utilise la calibration de précision (INT8 et FP16) pour accélérer l'inférence sans sacrifier significativement la précision.
Efficacité de la mémoire : TensorRT gère dynamiquement la mémoire des tenseurs, réduisant la surcharge et améliorant l'utilisation de la mémoire GPU.
Fusion de couches : Combine plusieurs couches en opérations uniques, réduisant la complexité computationnelle.
Auto-ajustement des noyaux : Sélectionne automatiquement les noyaux GPU optimisés pour chaque couche de modèle, garantissant une performance maximale.

Pour en savoir plus, explore la documentation officielle de TensorRT de NVIDIA et notre présentation approfondie de TensorRT.

Link to this sectionPuis-je utiliser la quantification INT8 avec TensorRT pour les modèles YOLO26 ?#

Oui, tu peux exporter les modèles YOLO26 en utilisant TensorRT avec la quantification INT8. Ce processus implique la quantification post-entraînement (PTQ) et la calibration :

Exporter avec INT8 :

from ultralytics import YOLO

model = YOLO("yolo26n.pt")
model.export(format="engine", batch=8, workspace=4, int8=True, data="coco.yaml")

Exécuter l'inférence :

from ultralytics import YOLO

model = YOLO("yolo26n.engine", task="detect")
result = model.predict("https://ultralytics.com/images/bus.jpg")

Pour plus de détails, reporte-toi à la section sur l'exportation TensorRT avec quantification INT8.

Link to this sectionComment déployer les modèles YOLO26 TensorRT sur un serveur NVIDIA Triton Inference Server ?#

Le déploiement des modèles YOLO26 TensorRT sur un NVIDIA Triton Inference Server peut être effectué en utilisant les ressources suivantes :

Déployer Ultralytics YOLO26 avec Triton Server : Guide étape par étape sur la configuration et l'utilisation de Triton Inference Server.
Déployer des réseaux de neurones profonds avec NVIDIA TensorRT : Guide de NVIDIA sur le déploiement de modèles d'apprentissage profond avec TensorRT pour des options et configurations de déploiement détaillées.

Ces guides t'aideront à intégrer efficacement les modèles YOLO26 dans divers environnements de déploiement.

Link to this sectionQuelles sont les améliorations de performance observées avec les modèles YOLO26 exportés vers TensorRT ?#

Les améliorations de performance avec TensorRT peuvent varier selon le matériel utilisé. Voici quelques benchmarks typiques :

NVIDIA A100 :
- Inférence FP32 : ~0,52 ms / image
- Inférence FP16 : ~0,34 ms / image
- Inférence INT8 : ~0,28 ms / image
- Légère réduction du mAP avec la précision INT8, mais amélioration significative de la vitesse.
GPU grand public (ex : RTX 3080) :
- Inférence FP32 : ~1,06 ms / image
- Inférence FP16 : ~0,62 ms / image
- Inférence INT8 : ~0,52 ms / image

Des benchmarks de performance détaillés pour différentes configurations matérielles se trouvent dans la section performance.

Pour des aperçus plus complets sur les performances de TensorRT, reporte-toi à la documentation Ultralytics et à nos rapports d'analyse de performance.

Contributeurs

GLglenn-jocher²⁵ LAlakshanthad⁵ RIRizwanMunawar³ BUBurhan-Q³ ONonuralpszr² AMambitious-octopus² RAraimbekovm¹ PDpderrenger¹ Y-Y-T-G¹WIWillie Maddox¹JKjk4e¹ MAMatthewNoyce¹ IVIvorZhu331¹ ABabirami-vina¹

Créé 28 janv. 2024Mis à jour il y a 4 jours

Link to this sectionExportation TensorRT pour les modèles YOLO26#

Link to this sectionTensorRT#

Link to this sectionCaractéristiques principales des modèles TensorRT#

Link to this sectionOptions de déploiement dans TensorRT#

Link to this sectionExporter des modèles YOLO26 vers TensorRT#

Link to this sectionInstallation#

Link to this sectionUtilisation#

Link to this sectionArguments d'exportation#

Link to this sectionExporter TensorRT avec quantification INT8#

Link to this sectionConfigurer l'exportation INT8#

Link to this sectionAvantages de l'utilisation de YOLO avec TensorRT INT8#

Link to this sectionInconvénients de l'utilisation de YOLO avec TensorRT INT8#

Link to this sectionPerformances d'exportation Ultralytics YOLO TensorRT#

Link to this sectionNVIDIA A100#

Link to this sectionGPU grand public#

Link to this sectionAppareils embarqués#

Link to this sectionMéthodes d'évaluation#

Link to this sectionDéploiement de modèles YOLO26 exportés en TensorRT#

Link to this sectionRésumé#

Link to this sectionFAQ#

Link to this sectionComment convertir les modèles YOLO26 au format TensorRT ?#

Link to this sectionQuels sont les avantages d'utiliser TensorRT pour les modèles YOLO26 ?#

Link to this sectionPuis-je utiliser la quantification INT8 avec TensorRT pour les modèles YOLO26 ?#

Link to this sectionComment déployer les modèles YOLO26 TensorRT sur un serveur NVIDIA Triton Inference Server ?#

Link to this sectionQuelles sont les améliorations de performance observées avec les modèles YOLO26 exportés vers TensorRT ?#

Commentaires