Überblick
Large Language Model Operations (LLMOps) sind operative Methoden zum Verwalten großer Sprachmodelle (Large Language Models, LLMs). Mit LLMOps wird der Lifecycle von LLMs verwaltet und automatisiert, vom Fine Tuning bis zur Wartung, und Entwicklungs- und andere Teams werden beim Bereitstellen, Überwachen und Verwalten von LLMs unterstützt.
Große Sprachmodelle sind maschinelle Lernmodelle, die menschliche Sprache verstehen und erzeugen können. LLMs wie GPT-3, LLaMA und Falcon sind Tools, die aus Daten lernen, Wörter und Sätze zu bilden. Da sich diese Tools ständig weiterentwickeln, benötigen Unternehmen Best Practices für die Nutzung dieser Modelle. Hier kommen LLMOps ins Spiel.
LLMOps im Vergleich zu MLOps
Wenn LLMs ein Teilbereich von ML-Modellen sind, dann ist LLMOps ein großes Sprachmodell, das Machine Learning Operations (MLOps) entspricht. MLOps besteht aus mehreren Workflow-Praktiken mit dem Ziel, Bereitstellung und Wartung von ML-Modellen zu optimieren. Mit MLOps soll die Integration von ML-Modellen in die Softwareentwicklung kontinuierlich weiterentwickelt werden. In ähnlicher Weise zielt LLMOps darauf ab, den Lifecycle der LLM-Entwicklung und -Bereitstellung kontinuierlich zu erproben, zu iterieren, einzusetzen und zu verbessern.
Auch wenn LLMOps und MLOps Ähnlichkeiten aufweisen, gibt es dennoch Unterschiede. Dazu gehören:
Lernen: Traditionelle ML-Modelle werden in der Regel von Grund auf erstellt oder trainiert, während LLMs von einem Basismodell ausgehen und anhand von Daten optimiert werden, um die Performance von Aufgaben zu verbessern.
Tuning: Bei LLMs verbessert das Fine Tuning die Performance und erhöht die Genauigkeit, sodass das Modell mehr Kenntnisse über ein bestimmtes Thema hat. Durch Prompt Tuning können LLMs eine bessere Performance bei bestimmten Aufgaben erzielen. Ein weiterer Unterschied ist das Hyperparameter Tuning. Bei traditionellem ML konzentriert sich das Tuning auf die Verbesserung der Genauigkeit. Bei LLMs ist das Tuning sowohl für die Genauigkeit als auch für das Senken der Kosten und der für das Training benötigten Energiemenge wichtig. Beide Modelle profitieren vom Tuning-Prozess, allerdings mit unterschiedlichen Schwerpunkten. Abschließend muss noch der RAG-Prozess (Retrieval-Augmented Generation) erwähnt werden, bei dem externes Wissen genutzt wird, um sicherzustellen, dass das LLM genaue und spezifische Fakten erfasst, um bessere Antworten zu produzieren.
Feedback: Bestärkendes Lernen durch menschliches Feedback (Reinforcement Learning from Human Feedback, RLHF) ist eine Verbesserung beim Training von LLMs. Das menschliche Feedback ist entscheidend für die Performance eines LLM. LLMs verwenden Feedback, um die Genauigkeit zu bewerten, während traditionelle ML-Modelle spezifische Metriken für die Genauigkeit verwenden.
Performancemetriken: ML-Modelle haben präzise Performancemetriken, aber LLMs haben andere Metriken, etwa die zweisprachige Evaluierungs-Understudy (BLEU) und die Recall-Oriented Understudy for Gisting Evaluation (ROUGE ), die komplexere Auswertungen erfordern.
Red Hat Ressourcen
Vorteile von LLMOps
Da LLMOps sich zur besten Methode zur Überwachung und Verbesserung der Leistung entwickelt haben, gibt es drei Hauptvorteile zu erörtern:
Effizienz: Mit LLMOps können Teams Modelle schneller entwickeln, die Modellqualität verbessern und schnell bereitstellen. Mit einem optimierten Managementansatz können Teams besser auf einer Plattform zusammenarbeiten, die Kommunikation, Entwicklung und Deployment fördert.
Skalierbarkeit: LLMOps unterstützt die Skalierbarkeit und das Management, da mehr als ein Modell verwaltet und überwacht werden kann für Continuous Integration und Continuous Delivery/Deployment (CI/CD). LLMOps bietet auch ein schnelleres Benutzererlebnis durch verbesserte Datenkommunikation und Reaktion.
Risikominderung: LLMOps fördert mehr Transparenz und sorgt für bessere Compliance mit Unternehmens- und Branchenrichtlinien. LLMOps können die Sicherheit und den Datenschutz verbessern, indem sensible Daten geschützt und Risiken vermieden werden.
Use Cases für LLMOps
Es gibt mehrere Use Cases für LLMOps.
CI/CD (Continuous Integration/Continuous Delivery): Mit CI/CD soll der Lifecycle der Modellentwicklung optimiert, beschleunigt und automatisiert werden. Dadurch entfällt die Notwendigkeit für menschliches Eingreifen, um neuen Code zu erhalten. Dies führt zu reduzierten Ausfallzeiten und schnelleren Code-Releases. Tools wie Tekton, das Red Hat OpenShift Pipelines auf basiert, unterstützen Entwickler-Workflows durch die Automatisierung von Deployments auf mehreren Plattformen.
Datenerfassung, Kennzeichnung, Speicherung: Bei der Datenerfassung werden verschiedene Quellen genutzt, um genaue Informationen zu erhalten. Bei der Datenkennzeichnung werden Daten kategorisiert. Bei der Datenspeicherung werden digitale Informationen, die mit einem Netzwerk verbunden sind, erfasst und gespeichert.
Fine Tuning, Inferenz und Überwachung von Modellen: Das Fine Tuning optimiert die Modelle, um domainspezifische Aufgaben zu erfüllen. Die Modellinferenz kann die Produktion auf der Basis des vorhandenen Wissens steuern und die Maßnahmen auf der Grundlage der abgeleiteten Informationen durchführen. Die Modellüberwachung, einschließlich des menschlichen Feedbacks, erfasst und speichert Daten über das Modellverhalten, um mehr über das Modellverhalten bei realen Produktionsdaten zu erfahren.
Phasen von LLMOps
Es gibt mehrere Phasen oder Komponenten von LLMOps und für die einzelnen Phasen und Komponenten jeweils Best Practices:
Explorative Datenanalyse (EDA): Der Prüfungsprozess von Daten zur Vorbereitung des ML-Lifecycle durch das Erstellen von Datensätzen.
- Datenerfassung: Im ersten Schritt werden Daten aus verschiedenen Quellen wie Code-Archiven und sozialen Netzwerken gesammelt, um das LLM zu trainieren.
- Datenbereinigung: Nach der Datenerfassung müssen die Daten überprüft und für das Training vorbereitet werden. Dazu gehören das Entfernen von Fehlern, das Korrigieren von Inkonsistenzen und das Entfernen von Datenduplikaten.
- Datenexploration: Der nächste Schritt besteht darin, die Daten zu explorieren, um ihre Eigenschaften besser zu verstehen, einschließlich der Identifizierung von Ausreißern und der Erkennung von Mustern.
Datenvorbereitung und Prompt-Engineering: Der Prozess der gemeinsamen Nutzung zugänglicher Daten zwischen Teams und der Entwicklung von Prompts für LLMs.
- Datenvorbereitung: Die zum Trainieren eines LLM verwendeten Daten werden auf verschiedene Weisen vorbereitet, einschließlich der Zusammenfassung und dem Abschluss der gesammelten Daten.
- Prompt Engineering: Die Erstellung von Prompts, die für Text verwendet werden, um sicherzustellen, dass LLMs die gewünschte Ausgabe generieren.
Fine Tuning des Modells: Die Verwendung gängiger Open Source Libraries wie Hugging Face Transformers dient dem Fine Tuning und der Verbesserung der Modell-Performance.
- Modelltraining: Nach der Aufbereitung der Daten wird das LLM mit Hilfe eines ML-Algorithmus trainiert oder feinabgestimmt, um die Datenmuster zu erkennen.
- Modellbewertung: Nach dem Training muss das LLM evaluiert werden, um seine Performance zu überprüfen. Dazu wird ein Datensatz verwendet, der nicht zum Training des LLM verwendet wurde.
- Fine Tuning des Modells: Wenn das LLM nicht gut funktioniert, kann ein Fine Tuning vorgenommen werden. Dabei werden die Parameter des LLM verändert, um seine Performance zu verbessern.
Modellprüfung und -Governance: Der Prozess der Erkennung, des Austauschs und der Zusammenarbeit verschiedener ML-Modelle mithilfe von Open-Source-MLOps-Plattformen wie Kubeflow.
- Modellüberprüfung: Nach dem Fine Tuning muss die Sicherheit und Zuverlässigkeit des LLM überprüft werden, d. h. es muss auf Verzerrungen und Sicherheitsrisiken geprüft werden.
- Modell-Governance: Modell-Governance ist der Verwaltungsprozess des LLM während seines gesamten Lifecycles. Dazu gehören das Verfolgen seiner Performance, das Vornehmen von Änderungen bei Bedarf und das Stilllegen des Modells, wenn es nicht mehr benötigt wird.
Modellinferenz und -bereitstellung: Die Verwaltung von Produktionsdetails wie etwa die Häufigkeit der Aktualisierung eines Modells oder die Anfragezeiten.
- Modellbereitstellung: Sobald das LLM geprüft und genehmigt wurde, kann es in der Produktion eingesetzt werden, indem es über eine API (Application Programming Interface) zur Verfügung gestellt wird.
- Modellinferenz: Die API kann von einer Anwendung abgefragt werden, um Text zu generieren oder Fragen zu beantworten. Dies kann auf verschiedene Weise erfolgen, beispielsweise über eine Repräsentative Zustandsübertragungs-REST-API (Representational State Transfer Application Programming Interface) oder eine Webanwendung.
Modellüberwachung mit menschlichem Feedback: Das Erstellen von Modellen und das Überwachen von abweichendem oder negativem Benutzerverhalten.
- Modellüberwachung: Nach dem Deployment muss das LLM überwacht werden, damit die erwartete Performance gewährleistet ist. Dazu gehören das Überwachen der Performance, das Erkennen von Problemen und das Vornehmen von Änderungen bei Bedarf.
- Menschliches Feedback: Dies dient zur Verbesserung der LLM-Perfomance und kann durch Feedback zu dem vom LLM generierten Text oder durch die Erkennung von Problemen mit der LLM-Performance erfolgen.
Was ist eine LLMOps-Plattform?
Eine LLMOps-Plattform bietet Entwicklern und Teams eine Umgebung, die die Zusammenarbeit durch Datenanalyse, Experimentverfolgung, schnelles Engineering und LLM-Management fördert. Darüber hinaus bietet das Dashboard einen gemanagten Modellwechsel, Deployment und Monitoring für LLMs. Durch ein verbessertes Library-Management kann die Plattform dazu beitragen, die Betriebskosten zu senken. Außerdem müssen weniger hochqualifizierte technische Teammitglieder Aufgaben wie die Datenvorverarbeitung, Modellüberwachung und -bereitstellung ausführen.
Warum Red Hat?
Unabhängig davon, ob Sie LLMOps zu Ihrem Vorteil nutzen oder nur ML-Operationen verstehen möchten, Red Hat kann die Basis bereitstellen, mit der Ihr Team von KI profitieren kann.
Red Hat® AI, unser KI-Produktportfolio, basiert auf den vertrauenswürdigen Lösungen, die unsere Kunden bereits nutzen.
Mit Red Hat AI können Unternehmen:
- KI schnell einführen und Innovationen schaffen
- Die Komplexitäten beim Bereitstellen von KI-Lösungen umgehen
- In vielen verschiedenen Umgebungen bereitstellen.
Mit dem richtigen LLMOps-Tool können Sie den Lifecycle Ihrer LLMs verwalten und automatisieren. Red Hat OpenShift® AI kann den Lifecycle sowohl von prädiktiven als auch generativen KI-Modellen in Hybrid Cloud-Umgebungen verwalten. Entwicklungsteams können LLMs nahtlos bereitstellen, überwachen und verwalten.
Der offizielle Red Hat Blog
Lernen Sie mehr über unser Ökosystem von Kunden, Partnern und Communities und erfahren Sie das Neueste zu Themen wie Automatisierung, Hybrid Cloud, KI und mehr.