Erfahrungsbericht

Lokale KI-Modelle vs. Cloud-KI: Warum ich für Qualität gerne mehr zahle ????

Der Hype um die lokalen Modelle

In letzter Zeit häufen sich die YouTube-Videos, die zeigen, wie "super" es doch ist, KI-Modelle lokal laufen zu lassen. Man spart Kosten, zahlt vielleicht nur noch ein Zehntel im Vergleich zu den Premium-Cloud-Diensten, und hat die volle Kontrolle. Also habe ich beschlossen, das Ganze einmal auf Herz und Nieren zu testen.

Dafür kann man Werkzeuge wie Aider, VSCode, ClaudeCode oder Cursor nutzen und diese entweder mit einem lokal installierten LLM oder über Schnittstellen wie OpenRouter verbinden. Ich habe dabei verschiedene, sehr beliebte Modelle wie Kimi 2.6 ausprobiert.

VS Code mit Kimi Modell Integration in VS Code
OpenRouter Modelle Modellauswahl via OpenRouter
Hinweis zu Cursor: Bei Cursor kann man im Augenblick lokale oder OpenRouter-Modelle nur vernünftig anbinden, wenn man dort ein Bezahl-Abo hat. Da ich dieses aktuell habe, wollte ich es testen, aber für den reinen Kosten-Sparfuchs ist dies bereits ein Hindernis.

Die Realität: 10% der Kosten, aber 3-10x so viel Zeit

Ich weiß nicht, wie andere programmieren, aber ich möchte beim Programmieren Spaß haben. Und diesen Flow hatte ich bisher wirklich nur mit ChatGPT Codex, Claude Code und Antigravity.

Alle anderen Versuche endeten in Frustration. Ja, die Modelle waren billiger – teilweise nur noch Faktor 1/10. Allerdings hat die Programmierung damit auch 3 bis 10 mal so lange gedauert. Ein typisches Projekt, das ich normalerweise in 1-2 Stunden abschließe, brauchte plötzlich 4-5 Stunden, weil ich ständig auf die KI warten musste oder sie nicht die erwarteten Features lieferte.

Frustrierendes Warten auf die lokale KI

Der Härtetest für Kimi 2.6 (via OpenRouter)

Natürlich habe ich die Modelle hart getestet. Von Cloud-Systemen bin ich gewohnt, dass Standardaufgaben (wie ein Spring Boot Server oder JavaFX-Oberflächen) zu 99% rasend schnell und korrekt gelöst werden. Um die Alternativen zu prüfen, habe ich ihnen härtere Probleme gegeben – unter anderem Kimi 2.6, welches ich über OpenRouter angebunden habe (nicht lokal, da ein solches Modell lokal immense Hardware erfordern würde).

Das Ergebnis: Kimi 2.6 ist gar nicht mal so schlecht. Es hat seine Aufgabe inhaltlich erfüllt. Wobei es massiv hapert, ist die Geschwindigkeit. Man muss bedenken, dass bei so beliebten Modellen OpenRouter wahrscheinlich extrem ausgelastet ist. Und wenn man kleinere Modelle wirklich lokal betreibt, geht selbst bei einem leistungsstarken Rechner mit RTX 4070 und 128 GB RAM oft so wenig vorwärts, dass es frustriert.

Beim aktiven Programmieren erwarte ich einfach Reaktionsgeschwindigkeit. Das sieht natürlich anders aus, wenn ich zum Beispiel automatisierte n8n Workflows nachts um 1 Uhr laufen lasse – da ist die Latenz meist völlig egal und die KI darf gerne mal länger arbeiten. Aber wenn ich mitten im Flow bin und ständig auf die KI warten muss, bringt mir das nichts. Absolut nichts. Es macht keinen Spaß, und deswegen habe ich hierzu auch kein Tutorial-Video auf meinem Kanal veröffentlicht.

Für größere Firmen, die aufgrund strenger Datenschutzbestimmungen alles im eigenen Haus laufen lassen müssen, sieht das natürlich anders aus. Wer 100.000 Euro oder noch mehr hat, der kann sich ja mal so ein Modell lokal installieren :-). Aber für den Einzelentwickler, der flüssig arbeiten will? Den Hype kann ich absolut nicht nachvollziehen.

Qualität vor Preis: Mein Setup mit Antigravity

Leute, wollt ihr immer nur billig? Ich möchte Qualität. Ich bin gerne bereit, das Fünffache zu zahlen, um auch nur 10% mehr an Performance und Features zu bekommen.

Programmieren mit Antigravity

Deshalb möchte ich an dieser Stelle Werbung für Antigravity machen. Ja, ein Ultimate Account bei Google kostet seine 300 Euro (die ersten drei Monate gibt es meist billiger), aber das Erlebnis ist unschlagbar gut.

  • Der ultimative KI-Agent Antigravity administriert komplett eigenständig meine Homepage, konfiguriert meinen Linux-Server und erledigt lästige Routinearbeiten im Handumdrehen.
  • Bildergenerierung & Deep Research Das System kann direkt Bilder für meine Projekte generieren und nutzt Googles mächtiges Deep Research Tool. Man hat riesige Limits zur Verfügung.
  • Rund um die Uhr Power Man kann im Prinzip 24/7 mit Gemini 3.1 programmieren. Auch Top-Modelle wie Claude Opus 4.6 und Sonnet 4.6 sind integriert, wenngleich hier die Limits natürlich schneller aufgebraucht sind.

Programmieren soll Spaß machen, es soll fließen und nicht in Wartezeiten an Ladebalken ersticken. Für mich ist die Entscheidung ganz klar: Die Cloud-Modelle und fortschrittliche Agenten wie Antigravity sind ihren Preis wert.