PromptThrift MCP: Intelligente Token-Komprimierung für LLM-Apps
Senken Sie Ihre LLM-API-Kosten um 70-90 % mit intelligenter Gesprächskomprimierung. Jetzt mit lokaler Gemma-4-Komprimierung: intelligentere Zusammenfassungen, null API-Kosten.
👁 License: MIT
👁 Python 3.10+
👁 MCP Compatible
👁 Gemma 4
⭐ Wenn Ihnen das Geld spart, geben Sie diesem Repo einen Stern! ⭐
Das Problem
Jeder LLM-API-Aufruf sendet Ihren gesamten Gesprächsverlauf erneut. Ein Chat mit 20 Nachrichten kostet pro Aufruf 6-mal mehr als einer mit 3 Nachrichten, Sie bezahlen also immer wieder für dieselben alten Nachrichten.
Turn 1: ████ 700 tokens ($0.002)
Turn 5: ████████████████ 4,300 tokens ($0.013)
Turn 20: ████████████████████████████████████████ 12,500 tokens ($0.038)
↑ You're paying for THIS every callRelated MCP server: SlimContext MCP Server
Die Lösung
PromptThrift ist ein MCP-Server mit 4 Tools, um Ihre API-Kosten drastisch zu senken:
Tool | Was es tut | Auswirkung |
| Komprimiert alte Nachrichten in eine intelligente Zusammenfassung | 50-90 % weniger Eingabe-Token |
| Verfolgt Token-Verbrauch & Kosten über 14 Modelle | Wissen, wohin das Geld fließt |
| Empfiehlt das günstigste Modell für die Aufgabe | 60-80 % bei einfachen Aufgaben |
| Heftet kritische Fakten an, die die Komprimierung überstehen | Wichtigen Kontext nie verlieren |
Warum PromptThrift?
PromptThrift | Context Mode | Headroom | |
Lizenz | MIT (kommerziell OK) | ELv2 (kein Wettbewerb) | Apache 2.0 |
Komprimierungstyp | Gesprächsspeicher | Tool-Schema-Virtualisierung | Tool-Ausgabe |
Lokale LLM-Unterstützung | Gemma 4 via Ollama | Nein | Nein |
Kostenverfolgung | Multi-Modell-Vergleich | Nein | Nein |
Modell-Routing | Integriert | Nein | Nein |
Angeheftete Fakten | Nicht-komprimierbare Liste | Nein | Nein |
Schnellstart
Installation
Option A: pip install (empfohlen)
pip install git+https://github.com/woling-dev/promptthrift-mcp.gitOption B: klonen und installieren
git clone https://github.com/woling-dev/promptthrift-mcp.git
cd promptthrift-mcp
pip install -e .Optional: Gemma-4-Komprimierung aktivieren
Für intelligentere, KI-gestützte Komprimierung (kostenlos, läuft lokal):
# Install Ollama: https://ollama.com
ollama pull gemma4:e4bPromptThrift erkennt Ollama automatisch. Wenn es läuft → nutzt es Gemma 4 zur Komprimierung. Wenn nicht → greift es auf schnelle heuristische Komprimierung zurück. Keine Konfiguration erforderlich.
Claude Desktop
Fügen Sie dies zu claude_desktop_config.json hinzu:
{
"mcpServers": {
"promptthrift": {
"command": "python",
"args": ["/path/to/promptthrift-mcp/server.py"]
}
}
}Cursor / Windsurf
Fügen Sie dies zu Ihren MCP-Einstellungen hinzu:
{
"mcpServers": {
"promptthrift": {
"command": "python",
"args": ["/path/to/promptthrift-mcp/server.py"]
}
}
}Praxisbeispiel
Ein KI-Programmierassistent, der ein komplexes Problem über 30+ Nachrichten hinweg debuggt:
Vor der Komprimierung (wird bei jedem API-Aufruf gesendet):
User: My Next.js app throws a hydration error on the /dashboard page.
Asst: That usually means server and client HTML don't match. Can you share the component?
User: [pastes 50 lines of DashboardLayout.tsx]
Asst: I see the issue, you're using `new Date()` directly in render, which differs
between server and client. Let me also check your data fetching...
User: I also get a warning about useEffect running twice.
Asst: That's React 18 Strict Mode. Not related to hydration. Let me trace the real bug...
User: Wait, there's also a flash of unstyled content on first load.
Asst: That's a separate CSS loading order issue. Let me address both...
[... 25 more turns of debugging, trying fixes, checking logs ...]
User: OK it's fixed now! But I want to add dark mode next.
Asst: Great! For dark mode with Next.js + Tailwind, here are three approaches...~8.500 Token nach 30 Nachrichten, und es wächst mit jedem einzelnen API-Aufruf
Nach der Gemma-4-Komprimierung:
[Compressed history]
Resolved Next.js hydration error in DashboardLayout.tsx caused by
Date() in render (fixed with useEffect). Unrelated: React 18 Strict Mode
double-fire (expected), CSS flash (fixed via loading order).
User now wants to add dark mode to Next.js + Tailwind app.
[End compressed history]
[Recent turns preserved, last 4 turns intact]~1.200 Token. 86 % Ersparnis bei jedem nachfolgenden Aufruf
Kostenauswirkung im großen Maßstab (Claude Sonnet @ $3/MTok):
Szenario | Ohne PromptThrift | Mit PromptThrift | Monatliche Ersparnis |
1 Entwickler, 20 Sitzungen/Tag | $5.10/Monat | $0.72/Monat | $4.38 |
Team von 10 Entwicklern | $51/Monat | $7.20/Monat | $43.80 |
Kundenservice-Bot (500 Chats/Tag) | $255/Monat | $36/Monat | $219 |
KI-Agenten-Plattform (5K Sitzungen/Tag) | $2.550/Monat | $357/Monat | $2.193 |
Angeheftete Fakten (Nicht-komprimierbare Liste)
Einige Fakten dürfen während der Komprimierung niemals verloren gehen: Benutzernamen, kritische Präferenzen, wichtige Entscheidungen. Heften Sie diese an:
You: "Pin the fact that this customer is allergic to nuts"
→ promptthrift_pin_facts(action="add", facts=["Customer is allergic to nuts"])
→ This fact will appear in ALL future compressed summaries, guaranteed.Unterstützte Modelle (Preise vom April 2026)
Modell | Eingabe $/MTok | Ausgabe $/MTok | Lokal? |
gemma-4-e2b | $0.00 | $0.00 | Ollama |
gemma-4-e4b | $0.00 | $0.00 | Ollama |
gemma-4-27b | $0.00 | $0.00 | Ollama |
gemini-2.0-flash | $0.10 | $0.40 | |
gpt-4.1-nano | $0.10 | $0.40 | |
gpt-4o-mini | $0.15 | $0.60 | |
gemini-2.5-flash | $0.15 | $0.60 | |
gpt-4.1-mini | $0.40 | $1.60 | |
claude-haiku-4.5 | $1.00 | $5.00 | |
gemini-2.5-pro | $1.25 | $10.00 | |
gpt-4.1 | $2.00 | $8.00 | |
gpt-4o | $2.50 | $10.00 | |
claude-sonnet-4.6 | $3.00 | $15.00 | |
claude-opus-4.6 | $5.00 | $25.00 |
Funktionsweise
Before (every API call sends ALL of this):
┌──────────────────────────────────┐
│ System prompt (500 tokens) │
│ Turn 1: user+asst (600 tokens) │ ← Repeated every call
│ Turn 2: user+asst (600 tokens) │ ← Repeated every call
│ ... │
│ Turn 8: user+asst (600 tokens) │ ← Repeated every call
│ Turn 9: user+asst (new) │
│ Turn 10: user (new) │
└──────────────────────────────────┘
Total: ~6,500 tokens per call
After PromptThrift compression:
┌──────────────────────────────────┐
│ System prompt (500 tokens) │
│ [Pinned facts] (50 tokens) │ ← Always preserved
│ [Compressed summary](200 tokens) │ ← Turns 1-8 in 200 tokens!
│ Turn 9: user+asst (kept) │
│ Turn 10: user (kept) │
└──────────────────────────────────┘
Total: ~1,750 tokens per call (73% saved!)Komprimierungsmodi
Modus | Methode | Qualität | Geschwindigkeit | Kosten |
Heuristisch | Regelbasierte Extraktion | Gut (50-60 % Reduzierung) | Sofort | Kostenlos |
LLM (Gemma 4) | KI-gestütztes Verständnis | Exzellent (70-90 % Reduzierung) | ~10-15s | Kostenlos (lokal) |
PromptThrift verwendet automatisch die beste verfügbare Methode. Installieren Sie Ollama + Gemma 4 für maximale Komprimierungsqualität.
Wann glänzt die Komprimierung?
Die Effektivität der Komprimierung skaliert mit der Gesprächslänge und Redundanz:
Gesprächslänge | Typische Reduzierung | Am besten für |
Kurz (< 5 Nachrichten, meist technisch) | 15-25 % | Minimale Ersparnis: so lassen |
Mittel (10-20 Nachrichten, gemischter Chat) | 50-70 % | Optimaler Bereich: klare Kostenreduzierung |
Lang (30+ Nachrichten, Debugging/Iterieren) | 70-90 % | Massive Ersparnis: früh und oft komprimieren |
Warum? Kurze, dichte Gespräche haben wenig Füllmaterial, das entfernt werden könnte. Längere Gespräche sammeln Begrüßungen, wiederholten Kontext, explorative Sackgassen und wortreiche Erklärungen an – genau das, was der Kompressor entfernt. Eine 30-minütige Debugging-Sitzung mit Code-Snippets, Hin-und-Her-Fehlersuche und endgültiger Lösung lässt sich dramatisch komprimieren, da für den zukünftigen Kontext nur das Ergebnis und die wichtigsten Entscheidungen zählen.
Faustregel: Beginnen Sie nach 8-10 Nachrichten mit der Komprimierung für beste Ergebnisse.
Umgebungsvariablen
Variable | Erforderlich | Standard | Beschreibung |
| Nein |
| Ollama-Modell für LLM-Komprimierung |
| Nein |
| Ollama-API-Endpunkt |
| Nein |
| Standardmodell für Kostenschätzungen |
Sicherheit
Alle Daten werden standardmäßig lokal verarbeitet. Nichts verlässt Ihren Rechner
Die Ollama-Komprimierung läuft zu 100 % auf Ihrer Hardware
Post-Komprimierungs-Sanitizer entfernt Prompt-Injection-Muster aus Zusammenfassungen
API-Schlüssel werden nur aus Umgebungsvariablen gelesen, niemals hartcodiert
Keine persistente Speicherung, keine Telemetrie, keine Drittanbieter-Aufrufe
Roadmap
[x] Heuristische Gesprächskomprimierung
[x] Multi-Modell-Token-Zählung (14 Modelle)
[x] Intelligentes Modell-Routing
[x] Gemma-4-lokale LLM-Komprimierung via Ollama
[x] Angeheftete Fakten (Nicht-komprimierbare Liste)
[x] Post-Komprimierungs-Sicherheits-Sanitizer
[ ] Cloud-basierte Komprimierung (Anthropic/OpenAI-API-Fallback)
[ ] Berater für Prompt-Caching-Optimierung
[ ] Web-Dashboard für Nutzungsanalysen
[ ] VS-Code-Erweiterung
Mitwirken
PRs willkommen! Dieses Projekt verwendet die MIT-Lizenz. Forken Sie es, verbessern Sie es, veröffentlichen Sie es.
Über BrandDefender.ai
BrandDefender.ai ist die Produktlinie von Wolin Global Media (沃嶺國際媒體), einem in Taiwan ansässigen KI-Infrastrukturstudio, das Marken dabei hilft, von KI-Systemen entdeckt, verstanden und empfohlen zu werden.
Was wir bauen
🔍 AEO-Beratung (Answer Engine Optimization) Sorgen Sie dafür, dass Ihre Marke von ChatGPT, Gemini, Perplexity und Claude korrekt zitiert wird. Wir implementieren JSON-LD-Schema, optimieren die Inhaltsstruktur und überwachen die KI-Suchpräsenz für taiwanesische Lebensmittel-, Tee-, Beauty- und Lifestyle-Marken.
Website: https://aibranddefender.com/
Kostenloser KI-Marken-Scan: https://app.aibranddefender.com/
💬 KI-Kundenservice (LINE Bot) Produktionsreife LINE-Chatbots mit 3-Ebenen-Speicher, Admin-Übernahme und Supabase-Backend. Bedient bereits echte Marken im Einzelhandel und in der Gastronomie.
Leitfaden: LINE AI Chatbot Guide
🧠 KI-Speicher-MCP-Infrastruktur Open-Source-MCP-Server für Claude Code, Cursor und LLM-Entwickler. Lokal-zuerst, datenschutzfreundlich, entwickelt, um API-Kosten zu sparen.
Dieses Repo ist eines davon.
Verwandte Tools: promptforge · promptthrift-mcp
Kontakt
📧 E-Mail: service@wolinglobal.com
💬 LINE: @886upktf
🌐 Website: https://aibranddefender.com/
🐙 GitHub: https://github.com/woling-dev
Taiwanische Marken, die ein AEO-Audit wünschen: Wir bieten umfassende Scans für ChatGPT / Gemini / Perplexity + JSON-LD-Korrekturen + monatliche Überwachung. Kontaktieren Sie uns direkt per E-Mail oder LINE.
Lizenz
MIT-Lizenz. Kostenlos für den persönlichen und kommerziellen Gebrauch.
© 2026 Wolin Global Media (沃嶺國際媒體).
Geben Sie diesem Repo einen Stern, wenn es Ihnen Geld spart!
This server cannot be installed
Maintenance
Appeared in Searches
Latest Blog Posts
MCP directory API
We provide all the information about MCP servers via our MCP API.
curl -X GET 'https://glama.ai/api/mcp/v1/servers/woling-dev/promptthrift-mcp'
If you have feedback or need assistance with the MCP directory API, please join our Discord server
