VOOZH about

URL: https://glama.ai/mcp/servers/woling-dev/promptthrift-mcp?locale=de-DE

⇱ PromptThrift MCP by woling-dev | Glama


PromptThrift MCP: Intelligente Token-Komprimierung für LLM-Apps

Senken Sie Ihre LLM-API-Kosten um 70-90 % mit intelligenter Gesprächskomprimierung. Jetzt mit lokaler Gemma-4-Komprimierung: intelligentere Zusammenfassungen, null API-Kosten.

👁 License: MIT
👁 Python 3.10+
👁 MCP Compatible
👁 Gemma 4

Wenn Ihnen das Geld spart, geben Sie diesem Repo einen Stern!

Das Problem

Jeder LLM-API-Aufruf sendet Ihren gesamten Gesprächsverlauf erneut. Ein Chat mit 20 Nachrichten kostet pro Aufruf 6-mal mehr als einer mit 3 Nachrichten, Sie bezahlen also immer wieder für dieselben alten Nachrichten.

Turn 1: ████ 700 tokens ($0.002)
Turn 5: ████████████████ 4,300 tokens ($0.013)
Turn 20: ████████████████████████████████████████ 12,500 tokens ($0.038)
 ↑ You're paying for THIS every call

Related MCP server: SlimContext MCP Server

Die Lösung

PromptThrift ist ein MCP-Server mit 4 Tools, um Ihre API-Kosten drastisch zu senken:

Tool

Was es tut

Auswirkung

promptthrift_compress_history

Komprimiert alte Nachrichten in eine intelligente Zusammenfassung

50-90 % weniger Eingabe-Token

promptthrift_count_tokens

Verfolgt Token-Verbrauch & Kosten über 14 Modelle

Wissen, wohin das Geld fließt

promptthrift_suggest_model

Empfiehlt das günstigste Modell für die Aufgabe

60-80 % bei einfachen Aufgaben

promptthrift_pin_facts

Heftet kritische Fakten an, die die Komprimierung überstehen

Wichtigen Kontext nie verlieren

Warum PromptThrift?

PromptThrift

Context Mode

Headroom

Lizenz

MIT (kommerziell OK)

ELv2 (kein Wettbewerb)

Apache 2.0

Komprimierungstyp

Gesprächsspeicher

Tool-Schema-Virtualisierung

Tool-Ausgabe

Lokale LLM-Unterstützung

Gemma 4 via Ollama

Nein

Nein

Kostenverfolgung

Multi-Modell-Vergleich

Nein

Nein

Modell-Routing

Integriert

Nein

Nein

Angeheftete Fakten

Nicht-komprimierbare Liste

Nein

Nein

Schnellstart

Installation

Option A: pip install (empfohlen)

pip install git+https://github.com/woling-dev/promptthrift-mcp.git

Option B: klonen und installieren

git clone https://github.com/woling-dev/promptthrift-mcp.git
cd promptthrift-mcp
pip install -e .

Optional: Gemma-4-Komprimierung aktivieren

Für intelligentere, KI-gestützte Komprimierung (kostenlos, läuft lokal):

# Install Ollama: https://ollama.com
ollama pull gemma4:e4b

PromptThrift erkennt Ollama automatisch. Wenn es läuft → nutzt es Gemma 4 zur Komprimierung. Wenn nicht → greift es auf schnelle heuristische Komprimierung zurück. Keine Konfiguration erforderlich.

Claude Desktop

Fügen Sie dies zu claude_desktop_config.json hinzu:

{
 "mcpServers": {
 "promptthrift": {
 "command": "python",
 "args": ["/path/to/promptthrift-mcp/server.py"]
 }
 }
}

Cursor / Windsurf

Fügen Sie dies zu Ihren MCP-Einstellungen hinzu:

{
 "mcpServers": {
 "promptthrift": {
 "command": "python",
 "args": ["/path/to/promptthrift-mcp/server.py"]
 }
 }
}

Praxisbeispiel

Ein KI-Programmierassistent, der ein komplexes Problem über 30+ Nachrichten hinweg debuggt:

Vor der Komprimierung (wird bei jedem API-Aufruf gesendet):

User: My Next.js app throws a hydration error on the /dashboard page.
Asst: That usually means server and client HTML don't match. Can you share the component?
User: [pastes 50 lines of DashboardLayout.tsx]
Asst: I see the issue, you're using `new Date()` directly in render, which differs
 between server and client. Let me also check your data fetching...
User: I also get a warning about useEffect running twice.
Asst: That's React 18 Strict Mode. Not related to hydration. Let me trace the real bug...
User: Wait, there's also a flash of unstyled content on first load.
Asst: That's a separate CSS loading order issue. Let me address both...
 [... 25 more turns of debugging, trying fixes, checking logs ...]
User: OK it's fixed now! But I want to add dark mode next.
Asst: Great! For dark mode with Next.js + Tailwind, here are three approaches...

~8.500 Token nach 30 Nachrichten, und es wächst mit jedem einzelnen API-Aufruf

Nach der Gemma-4-Komprimierung:

[Compressed history]
Resolved Next.js hydration error in DashboardLayout.tsx caused by
Date() in render (fixed with useEffect). Unrelated: React 18 Strict Mode
double-fire (expected), CSS flash (fixed via loading order).
User now wants to add dark mode to Next.js + Tailwind app.
[End compressed history]

[Recent turns preserved, last 4 turns intact]

~1.200 Token. 86 % Ersparnis bei jedem nachfolgenden Aufruf

Kostenauswirkung im großen Maßstab (Claude Sonnet @ $3/MTok):

Szenario

Ohne PromptThrift

Mit PromptThrift

Monatliche Ersparnis

1 Entwickler, 20 Sitzungen/Tag

$5.10/Monat

$0.72/Monat

$4.38

Team von 10 Entwicklern

$51/Monat

$7.20/Monat

$43.80

Kundenservice-Bot (500 Chats/Tag)

$255/Monat

$36/Monat

$219

KI-Agenten-Plattform (5K Sitzungen/Tag)

$2.550/Monat

$357/Monat

$2.193

Angeheftete Fakten (Nicht-komprimierbare Liste)

Einige Fakten dürfen während der Komprimierung niemals verloren gehen: Benutzernamen, kritische Präferenzen, wichtige Entscheidungen. Heften Sie diese an:

You: "Pin the fact that this customer is allergic to nuts"

→ promptthrift_pin_facts(action="add", facts=["Customer is allergic to nuts"])
→ This fact will appear in ALL future compressed summaries, guaranteed.

Unterstützte Modelle (Preise vom April 2026)

Modell

Eingabe $/MTok

Ausgabe $/MTok

Lokal?

gemma-4-e2b

$0.00

$0.00

Ollama

gemma-4-e4b

$0.00

$0.00

Ollama

gemma-4-27b

$0.00

$0.00

Ollama

gemini-2.0-flash

$0.10

$0.40

gpt-4.1-nano

$0.10

$0.40

gpt-4o-mini

$0.15

$0.60

gemini-2.5-flash

$0.15

$0.60

gpt-4.1-mini

$0.40

$1.60

claude-haiku-4.5

$1.00

$5.00

gemini-2.5-pro

$1.25

$10.00

gpt-4.1

$2.00

$8.00

gpt-4o

$2.50

$10.00

claude-sonnet-4.6

$3.00

$15.00

claude-opus-4.6

$5.00

$25.00

Funktionsweise

Before (every API call sends ALL of this):
┌──────────────────────────────────┐
│ System prompt (500 tokens) │
│ Turn 1: user+asst (600 tokens) │ ← Repeated every call
│ Turn 2: user+asst (600 tokens) │ ← Repeated every call
│ ... │
│ Turn 8: user+asst (600 tokens) │ ← Repeated every call
│ Turn 9: user+asst (new) │
│ Turn 10: user (new) │
└──────────────────────────────────┘
Total: ~6,500 tokens per call

After PromptThrift compression:
┌──────────────────────────────────┐
│ System prompt (500 tokens) │
│ [Pinned facts] (50 tokens) │ ← Always preserved
│ [Compressed summary](200 tokens) │ ← Turns 1-8 in 200 tokens!
│ Turn 9: user+asst (kept) │
│ Turn 10: user (kept) │
└──────────────────────────────────┘
Total: ~1,750 tokens per call (73% saved!)

Komprimierungsmodi

Modus

Methode

Qualität

Geschwindigkeit

Kosten

Heuristisch

Regelbasierte Extraktion

Gut (50-60 % Reduzierung)

Sofort

Kostenlos

LLM (Gemma 4)

KI-gestütztes Verständnis

Exzellent (70-90 % Reduzierung)

~10-15s

Kostenlos (lokal)

PromptThrift verwendet automatisch die beste verfügbare Methode. Installieren Sie Ollama + Gemma 4 für maximale Komprimierungsqualität.

Wann glänzt die Komprimierung?

Die Effektivität der Komprimierung skaliert mit der Gesprächslänge und Redundanz:

Gesprächslänge

Typische Reduzierung

Am besten für

Kurz (< 5 Nachrichten, meist technisch)

15-25 %

Minimale Ersparnis: so lassen

Mittel (10-20 Nachrichten, gemischter Chat)

50-70 %

Optimaler Bereich: klare Kostenreduzierung

Lang (30+ Nachrichten, Debugging/Iterieren)

70-90 %

Massive Ersparnis: früh und oft komprimieren

Warum? Kurze, dichte Gespräche haben wenig Füllmaterial, das entfernt werden könnte. Längere Gespräche sammeln Begrüßungen, wiederholten Kontext, explorative Sackgassen und wortreiche Erklärungen an – genau das, was der Kompressor entfernt. Eine 30-minütige Debugging-Sitzung mit Code-Snippets, Hin-und-Her-Fehlersuche und endgültiger Lösung lässt sich dramatisch komprimieren, da für den zukünftigen Kontext nur das Ergebnis und die wichtigsten Entscheidungen zählen.

Faustregel: Beginnen Sie nach 8-10 Nachrichten mit der Komprimierung für beste Ergebnisse.

Umgebungsvariablen

Variable

Erforderlich

Standard

Beschreibung

PROMPTTHRIFT_OLLAMA_MODEL

Nein

gemma4:e4b

Ollama-Modell für LLM-Komprimierung

PROMPTTHRIFT_OLLAMA_URL

Nein

http://localhost:11434

Ollama-API-Endpunkt

PROMPTTHRIFT_DEFAULT_MODEL

Nein

claude-sonnet-4.6

Standardmodell für Kostenschätzungen

Sicherheit

  • Alle Daten werden standardmäßig lokal verarbeitet. Nichts verlässt Ihren Rechner

  • Die Ollama-Komprimierung läuft zu 100 % auf Ihrer Hardware

  • Post-Komprimierungs-Sanitizer entfernt Prompt-Injection-Muster aus Zusammenfassungen

  • API-Schlüssel werden nur aus Umgebungsvariablen gelesen, niemals hartcodiert

  • Keine persistente Speicherung, keine Telemetrie, keine Drittanbieter-Aufrufe

Roadmap

  • [x] Heuristische Gesprächskomprimierung

  • [x] Multi-Modell-Token-Zählung (14 Modelle)

  • [x] Intelligentes Modell-Routing

  • [x] Gemma-4-lokale LLM-Komprimierung via Ollama

  • [x] Angeheftete Fakten (Nicht-komprimierbare Liste)

  • [x] Post-Komprimierungs-Sicherheits-Sanitizer

  • [ ] Cloud-basierte Komprimierung (Anthropic/OpenAI-API-Fallback)

  • [ ] Berater für Prompt-Caching-Optimierung

  • [ ] Web-Dashboard für Nutzungsanalysen

  • [ ] VS-Code-Erweiterung

Mitwirken

PRs willkommen! Dieses Projekt verwendet die MIT-Lizenz. Forken Sie es, verbessern Sie es, veröffentlichen Sie es.

Über BrandDefender.ai

BrandDefender.ai ist die Produktlinie von Wolin Global Media (沃嶺國際媒體), einem in Taiwan ansässigen KI-Infrastrukturstudio, das Marken dabei hilft, von KI-Systemen entdeckt, verstanden und empfohlen zu werden.

Was wir bauen

🔍 AEO-Beratung (Answer Engine Optimization) Sorgen Sie dafür, dass Ihre Marke von ChatGPT, Gemini, Perplexity und Claude korrekt zitiert wird. Wir implementieren JSON-LD-Schema, optimieren die Inhaltsstruktur und überwachen die KI-Suchpräsenz für taiwanesische Lebensmittel-, Tee-, Beauty- und Lifestyle-Marken.

💬 KI-Kundenservice (LINE Bot) Produktionsreife LINE-Chatbots mit 3-Ebenen-Speicher, Admin-Übernahme und Supabase-Backend. Bedient bereits echte Marken im Einzelhandel und in der Gastronomie.

🧠 KI-Speicher-MCP-Infrastruktur Open-Source-MCP-Server für Claude Code, Cursor und LLM-Entwickler. Lokal-zuerst, datenschutzfreundlich, entwickelt, um API-Kosten zu sparen.

Kontakt

Taiwanische Marken, die ein AEO-Audit wünschen: Wir bieten umfassende Scans für ChatGPT / Gemini / Perplexity + JSON-LD-Korrekturen + monatliche Überwachung. Kontaktieren Sie uns direkt per E-Mail oder LINE.

Lizenz

MIT-Lizenz. Kostenlos für den persönlichen und kommerziellen Gebrauch.


© 2026 Wolin Global Media (沃嶺國際媒體).

Geben Sie diesem Repo einen Stern, wenn es Ihnen Geld spart!

A
license - permissive license
-
quality - not tested
B
maintenance

Maintenance

Maintainers
Response time
Release cycle
Releases (12mo)
Commit activity

Latest Blog Posts

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/woling-dev/promptthrift-mcp'

If you have feedback or need assistance with the MCP directory API, please join our Discord server