banner
Heim / Blog / Sie können ChatGPT jetzt über die API auf Ihren eigenen Dokumenten trainieren
Blog

Sie können ChatGPT jetzt über die API auf Ihren eigenen Dokumenten trainieren

Aug 28, 2023Aug 28, 2023

Benj Edwards – 23. August 2023, 20:16 Uhr UTC

Am Dienstag kündigte OpenAI eine Feinabstimmung für GPT-3.5 Turbo – das KI-Modell, das die kostenlose Version von ChatGPT antreibt – über seine API an. Es ermöglicht das Training des Modells mit benutzerdefinierten Daten, beispielsweise Unternehmensdokumenten oder Projektdokumentationen. OpenAI behauptet, dass ein fein abgestimmtes Modell in bestimmten Szenarien eine ebenso gute Leistung wie GPT-4 bei geringeren Kosten erbringen kann.

In der KI bezieht sich Feinabstimmung auf den Prozess, ein vorab trainiertes neuronales Netzwerk (wie GPT-3.5 Turbo) zu nehmen und es auf einem anderen Datensatz (wie Ihren benutzerdefinierten Daten) weiter zu trainieren, der normalerweise kleiner ist und möglicherweise mit einer bestimmten Aufgabe zusammenhängt. Dieser Prozess baut auf dem Wissen auf, das das Modell während seiner anfänglichen Trainingsphase gewonnen hat, und verfeinert es für eine bestimmte Anwendung.

Im Grunde genommen lehrt die Feinabstimmung GPT-3.5 Turbo über benutzerdefinierte Inhalte, wie z. B. Projektdokumentation oder andere schriftliche Referenzen. Das kann nützlich sein, wenn Sie einen KI-Assistenten auf Basis von GPT-3.5 erstellen möchten, der mit Ihrem Produkt oder Ihrer Dienstleistung bestens vertraut ist, in seinen Trainingsdaten jedoch keine Kenntnis davon hat (die, zur Erinnerung, vor September aus dem Internet gelöscht wurden). 2021).

„Seit der Veröffentlichung von GPT-3.5 Turbo haben Entwickler und Unternehmen nach der Möglichkeit gefragt, das Modell anzupassen, um einzigartige und differenzierte Erlebnisse für ihre Benutzer zu schaffen“, schreibt OpenAI in seinem Werbeblog. „Mit dieser Einführung können Entwickler nun eine überwachte Feinabstimmung durchführen, um die Leistung dieses Modells für ihre Anwendungsfälle zu verbessern.“

Während GPT-4, der leistungsstärkere Cousin von GPT-3.5, als Generalist bekannt ist, der sich an viele Themen anpassen lässt, ist seine Ausführung langsamer und teurer. OpenAI schlägt die Feinabstimmung von 3.5 vor, um eine GPT-4-ähnliche Leistung in einem bestimmten Wissensbereich zu geringeren Kosten und schnellerer Ausführungszeit zu erzielen. „Frühe Tests haben gezeigt, dass eine fein abgestimmte Version von GPT-3.5 Turbo bei bestimmten engen Aufgaben mit den Basisfunktionen des GPT-4-Levels mithalten oder diese sogar übertreffen kann“, schreiben sie.

OpenAI sagt außerdem, dass fein abgestimmte Modelle eine „verbesserte Steuerbarkeit“ bieten, was bedeutet, dass Anweisungen besser befolgt werden können; „zuverlässige Ausgabeformatierung“, die die Fähigkeit des Modells verbessert, Text konsistent in einem Format wie API-Aufrufen oder JSON auszugeben; und „benutzerdefinierter Ton“, der einem Chatbot eine individuelle Note oder Persönlichkeit verleihen kann.

OpenAI sagt, dass die Feinabstimmung es Benutzern ermöglicht, ihre Eingabeaufforderungen zu verkürzen und Geld bei OpenAI-API-Aufrufen zu sparen, die pro Token abgerechnet werden. „Frühe Tester haben die Größe der Eingabeaufforderungen um bis zu 90 % reduziert, indem sie die Anweisungen im Modell selbst optimiert haben“, sagt OpenAI. Derzeit ist die Kontextlänge für die Feinabstimmung auf 4.000 Token festgelegt, aber OpenAI sagt, dass die Feinabstimmung „später in diesem Herbst“ auf das 16.000-Token-Modell ausgeweitet wird.

Inzwischen fragen Sie sich vielleicht, wie die Verwendung Ihrer eigenen Daten zum Trainieren von GPT-3.5 funktioniert – und was es kostet. OpenAI beschreibt in seinem Blog einen vereinfachten Prozess, der das Einrichten einer Systemeingabeaufforderung mit der API, das Hochladen von Dateien zu OpenAI zum Training und das Erstellen eines Feinabstimmungsjobs mithilfe des Befehlszeilentools Curl zum Abfragen einer API-Webadresse zeigt. Sobald der Feinabstimmungsprozess abgeschlossen ist, steht das angepasste Modell laut OpenAI sofort zur Verwendung mit denselben Ratenbeschränkungen wie das Basismodell zur Verfügung. Weitere Details finden Sie in der offiziellen Dokumentation von OpenAI.

Das alles hat natürlich seinen Preis und teilt sich in Schulungskosten und Nutzungskosten auf. Das Trainieren von GPT-3.5 kostet 0,008 $ pro 1.000 Token. Während der Nutzungsphase kostet der API-Zugriff 0,012 $ pro 1.000 Token für die Texteingabe und 0,016 $ pro 1.000 Token für die Textausgabe.

Im Vergleich dazu kostet das Basismodell 4k GPT-3.5 Turbo 0,0015 US-Dollar pro 1.000 eingegebene Token und 0,002 US-Dollar pro 1.000 ausgegebene Token, sodass der Betrieb des fein abgestimmten Modells etwa achtmal teurer ist. Und während das 8K-Kontextmodell von GPT-4 mit 0,03 US-Dollar pro 1.000 Token-Eingabe und 0,06 US-Dollar pro 1.000 Token-Ausgabe ebenfalls günstiger ist, behauptet OpenAI dennoch, dass Geld gespart werden kann, da im fein abgestimmten Modell weniger Eingabeaufforderungen erforderlich sind. Es ist weit hergeholt, aber in engen Fällen kann es zutreffen.

Auch wenn es etwas kostet, kann es sich für einige Leute durchaus lohnen, GPT-3.5 über benutzerdefinierte Dokumente zu unterrichten – wenn Sie das Modell davon abhalten können, sich darüber etwas auszudenken. Anpassen ist eine Sache, aber auf die Genauigkeit und Zuverlässigkeit der GPT-3.5 Turbo-Ausgaben in einer Produktionsumgebung zu vertrauen, ist eine ganz andere Sache. GPT-3.5 ist bekannt für seine Tendenz, Informationen zu verfälschen.

In Bezug auf den Datenschutz weist OpenAI darauf hin, dass, wie bei allen seinen APIs, die in die Feinabstimmungs-API ein- und ausgehenden Daten nicht von OpenAI (oder irgendjemand anderem) zum Trainieren von KI-Modellen verwendet werden. Interessanterweise wird OpenAI alle Kunden-Trainingsdaten zur Feinabstimmung zu Moderationszwecken über GPT-4 senden und dabei seine kürzlich angekündigte Moderations-API nutzen. Dies kann einen Teil der Kosten für die Nutzung des Feinabstimmungsdienstes ausmachen.

Und wenn Ihnen 3.5 nicht gut genug ist, sagt OpenAI, dass die Feinabstimmung für GPT-4 diesen Herbst erfolgt. Unserer Erfahrung nach macht GPT-4 die Sache nicht so gut, aber die Feinabstimmung dieses Modells (oder der angeblich 8 Modelle, die unter der Haube zusammenarbeiten) wird wahrscheinlich weitaus teurer sein.