Die Kostenfrage ist komplexer als sie aussieht
Token-Preise für Cloud-APIs sinken kontinuierlich. Gleichzeitig werden lokale Modelle (Llama, Mistral, Phi, Gemma) immer leistungsfähiger und laufen auf zunehmend günstiger Hardware. Die Frage ist nicht mehr "Cloud oder lokal?" als Prinzipfrage — sondern eine konkrete Rechnung pro Anwendungsfall.
- Sofort nutzbar, kein Setup
- Beste Modellqualität verfügbar
- Kosten skalieren mit Volumen
- Datenweitergabe an Dritte
- Abhängig von Verfügbarkeit & Preisen
- Feste Infrastrukturkosten
- Keine Datenweitergabe
- Volle Kontrolle und Anpassbarkeit
- Setup und Wartungsaufwand
- Qualität je nach Aufgabe ausreichend
Wann lokale Modelle ausreichen
Für viele typische BPM-Aufgaben — Dokumentenklassifikation, Feldextraktion aus strukturierten Formularen, einfaches Text-Routing — reichen kleinere lokale Modelle (7B–13B Parameter) vollständig aus. Sie sind schnell, günstig im Betrieb und benötigen keine Internetverbindung.
Faustregel: Geht es um Klassifikation oder Extraktion aus bekannten Formaten → lokales Modell. Geht es um komplexes Reasoning, lange Kontexte oder kreative Ausgaben → Cloud-API (oder Hybrid).
Der Break-Even-Punkt
Ein kleiner VPS mit GPU (z. B. Hetzner CCX23 mit 8 vCPUs, 32 GB RAM) kostet ca. 50–80 €/Monat. Wer täglich tausende Anfragen an einen Cloud-Dienst schickt, überschreitet diesen Betrag schnell. Ab ~500.000 Token pro Monat beginnt der Vergleich interessant zu werden — abhängig vom genutzten Modell und Anbieter.
Geplante Inhalte auf dieser Seite
- Kostenrechner: API vs. lokal für verschiedene Szenarien
- Ollama einrichten und als Service Task in n8n einbinden
- Modellauswahl: Welches lokale Modell für welche BPM-Aufgabe?
- Hybrid-Ansatz: Lokal für Klassifikation, Cloud für Komplexes