AI010

Red Hat AI Inference Server Technical Overview

Überblick

Erschließen Sie das volle Potenzial Ihrer Kubernetes-Infrastruktur.

Kursbeschreibung

  • Dieser technische Überblick über Red Hat AI Inference Server bietet Ihnen grundlegende Einblicke in die KI-Bereitstellung. Lernen Sie, wie Sie die Komplexität und Kosten der Ausführung von KI-Modellen in der Produktion bewältigen können. Erfahren Sie, wie die vLLM-basierte Lösung von Red Hat die Performance optimiert und erhebliche Kosteneinsparungen in Cloud-, On-Premise-, virtualisierten und Edge-Umgebungen ermöglicht. Vertiefen Sie Ihre Wissen über fortschrittliche Techniken wie Quantisierung und spekulative Dekodierung, um Ihre KI-Inferenzfunktionen zu verbessern. Diese On-Demand-Videoinhalte demonstrieren die nahtlose Modellbereitstellung und -verwaltung in OpenShift AI und veranschaulichen, wie Sie beispiellose Effizienz und Flexibilität für Ihre KI-Workloads erreichen können.

Überblick über den Kursinhalt

  • Was ist Inferenz?
  • Herausforderungen durch Inferenz
  • Red Hat AI Inference Server Lösung
  • Integration des Red Hat AI Portfolios
  • Flexibles Deployment
  • LLM-Komprimierungstool (Quantisierung)
  • Techniken zur Optimierung der Performance (kV-Cache, spekulative Dekodierung, Tensor Parallel-Inferenz)
  • Case Studies
  • Modellbereitstellung und -verwaltung
  • Storage-Verbindungen für Modelle
  • Metriken und Überwachung
  • Hugging Face-Integration

Zielgruppe für diesen Kurs

  • Engineers und Fachkräfte aus dem Bereich KI/ML
  • DevOps Engineers
  • Cloud Architects und Cloud Engineers
  • Technische Entscheidungstragende

Empfohlenes Training

  • Für diesen technischen Überblick bestehen keine Voraussetzungen.

Technische Voraussetzungen

  • nicht zutreffend

Inhalt

Kursinhalte

  • Was ist Inferenz?
  • Herausforderungen mit Inferenz
  • Red Hat AI Inference Server Lösung
  • Integration des Red Hat AI Portfolios
  • Flexibles Deployment
  • LLM-Komprimierungstool (Quantisierung)
  • Techniken zur Optimierung der Performance (kV-Cache, spekulative Dekodierung, Tensor Parallel-Inferenz)
  • Case Studies
  • Modellbereitstellung und -verwaltung
  • Storage-Verbindungen für Modelle
  • Metriken und Überwachung
  • Hugging Face-Integration

Ergebnisse

Empfohlene Anschlusskurse oder Prüfungen