Groq sammelt 650 Millionen Dollar ein — und setzt alles auf Inference

Im Schatten der Milliarden-Runden von Anthropic und OpenAI arbeitet ein kleinerer Player an einem Problem, das alle betrifft: Wie macht man KI schneller und günstiger?

Was Groq anders macht

Groq baut eigene Chips — sogenannte LPUs (Language Processing Units) — die speziell für Inference optimiert sind. Nicht für Training, sondern für den Moment, in dem ein Modell tatsächlich antwortet. Und in diesem Bereich ist Groq schnell. Sehr schnell.

Das Unternehmen hat sich als Inference-Neocloud positioniert: Kunden können über Groqs API auf Modelle wie Llama und Mixtral zugreifen und bekommen Antworten in einem Bruchteil der Zeit, die herkömmliche GPU-basierte Systeme brauchen.

Die Finanzierung

Laut TechCrunch verhandelt Groq eine Finanzierungsrunde über 650 Millionen Dollar. Die bestehenden Investoren Disruptive und Infinitium haben zugesagt, die Runde zu füllen, falls andere Investoren passen.

Der Zeitpunkt ist kein Zufall. Nvidia hat kürzlich einen 20-Milliarden-Dollar-Deal mit Groq abgeschlossen — keine Übernahme, aber eine strategische Partnerschaft, die zeigt, dass selbst Nvidia den Wert spezialisierter Inference-Hardware anerkennt.

Warum Inference der Flaschenhals ist

Training bekommt die Schlagzeilen. Aber Inference ist das eigentliche Geschäft. Jede Unterhaltung mit Claude, jede ChatGPT-Anfrage, jeder Gemini-Spark-Task — das alles ist Inference. Und je mehr KI-Agenten im Hintergrund arbeiten, desto wichtiger wird die Frage: Wie viele Tokens pro Sekunde schafft dein System?

Groq setzt darauf, dass die Antwort auf diese Frage nicht ‘mehr Nvidia-GPUs’ sein muss. Ob diese Wette aufgeht, hängt davon ab, ob genug Kunden bereit sind, das Nvidia-Ökosystem zu verlassen.

Quellen: TechCrunch