de en es ja ko ru zh

PromptThrift MCP: Intelligente Token-Komprimierung für LLM-Apps

Senken Sie Ihre LLM-API-Kosten um 70-90 % mit intelligenter Gesprächskomprimierung. Jetzt mit lokaler Gemma-4-Komprimierung: intelligentere Zusammenfassungen, null API-Kosten.

👁 License: MIT
👁 Python 3.10+
👁 MCP Compatible
👁 Gemma 4

⭐ Wenn Ihnen das Geld spart, geben Sie diesem Repo einen Stern! ⭐

Das Problem

Jeder LLM-API-Aufruf sendet Ihren gesamten Gesprächsverlauf erneut. Ein Chat mit 20 Nachrichten kostet pro Aufruf 6-mal mehr als einer mit 3 Nachrichten, Sie bezahlen also immer wieder für dieselben alten Nachrichten.

Turn 1: ████ 700 tokens ($0.002)
Turn 5: ████████████████ 4,300 tokens ($0.013)
Turn 20: ████████████████████████████████████████ 12,500 tokens ($0.038)
 ↑ You're paying for THIS every call

Related MCP server: SlimContext MCP Server

Die Lösung

PromptThrift ist ein MCP-Server mit 4 Tools, um Ihre API-Kosten drastisch zu senken:

Tool	Was es tut	Auswirkung
`promptthrift_compress_history`	Komprimiert alte Nachrichten in eine intelligente Zusammenfassung	50-90 % weniger Eingabe-Token
`promptthrift_count_tokens`	Verfolgt Token-Verbrauch & Kosten über 14 Modelle	Wissen, wohin das Geld fließt
`promptthrift_suggest_model`	Empfiehlt das günstigste Modell für die Aufgabe	60-80 % bei einfachen Aufgaben
`promptthrift_pin_facts`	Heftet kritische Fakten an, die die Komprimierung überstehen	Wichtigen Kontext nie verlieren

Warum PromptThrift?

PromptThrift	Context Mode	Headroom
Lizenz	MIT (kommerziell OK)	ELv2 (kein Wettbewerb)	Apache 2.0
Komprimierungstyp	Gesprächsspeicher	Tool-Schema-Virtualisierung	Tool-Ausgabe
Lokale LLM-Unterstützung	Gemma 4 via Ollama	Nein	Nein
Kostenverfolgung	Multi-Modell-Vergleich	Nein	Nein
Modell-Routing	Integriert	Nein	Nein
Angeheftete Fakten	Nicht-komprimierbare Liste	Nein	Nein

Schnellstart

Installation

Option A: pip install (empfohlen)

pip install git+https://github.com/woling-dev/promptthrift-mcp.git

Option B: klonen und installieren

git clone https://github.com/woling-dev/promptthrift-mcp.git
cd promptthrift-mcp
pip install -e .

Optional: Gemma-4-Komprimierung aktivieren

Für intelligentere, KI-gestützte Komprimierung (kostenlos, läuft lokal):

# Install Ollama: https://ollama.com
ollama pull gemma4:e4b

PromptThrift erkennt Ollama automatisch. Wenn es läuft → nutzt es Gemma 4 zur Komprimierung. Wenn nicht → greift es auf schnelle heuristische Komprimierung zurück. Keine Konfiguration erforderlich.

Claude Desktop

Fügen Sie dies zu claude_desktop_config.json hinzu:

{
 "mcpServers": {
 "promptthrift": {
 "command": "python",
 "args": ["/path/to/promptthrift-mcp/server.py"]
 }
 }
}

Cursor / Windsurf

Fügen Sie dies zu Ihren MCP-Einstellungen hinzu:

{
 "mcpServers": {
 "promptthrift": {
 "command": "python",
 "args": ["/path/to/promptthrift-mcp/server.py"]
 }
 }
}

Praxisbeispiel

Ein KI-Programmierassistent, der ein komplexes Problem über 30+ Nachrichten hinweg debuggt:

Vor der Komprimierung (wird bei jedem API-Aufruf gesendet):

User: My Next.js app throws a hydration error on the /dashboard page.
Asst: That usually means server and client HTML don't match. Can you share the component?
User: [pastes 50 lines of DashboardLayout.tsx]
Asst: I see the issue, you're using `new Date()` directly in render, which differs
 between server and client. Let me also check your data fetching...
User: I also get a warning about useEffect running twice.
Asst: That's React 18 Strict Mode. Not related to hydration. Let me trace the real bug...
User: Wait, there's also a flash of unstyled content on first load.
Asst: That's a separate CSS loading order issue. Let me address both...
 [... 25 more turns of debugging, trying fixes, checking logs ...]
User: OK it's fixed now! But I want to add dark mode next.
Asst: Great! For dark mode with Next.js + Tailwind, here are three approaches...

~8.500 Token nach 30 Nachrichten, und es wächst mit jedem einzelnen API-Aufruf

Nach der Gemma-4-Komprimierung:

[Compressed history]
Resolved Next.js hydration error in DashboardLayout.tsx caused by
Date() in render (fixed with useEffect). Unrelated: React 18 Strict Mode
double-fire (expected), CSS flash (fixed via loading order).
User now wants to add dark mode to Next.js + Tailwind app.
[End compressed history]

[Recent turns preserved, last 4 turns intact]

~1.200 Token. 86 % Ersparnis bei jedem nachfolgenden Aufruf

Kostenauswirkung im großen Maßstab (Claude Sonnet @ $3/MTok):

Szenario	Ohne PromptThrift	Mit PromptThrift	Monatliche Ersparnis
1 Entwickler, 20 Sitzungen/Tag	$5.10/Monat	$0.72/Monat	$4.38
Team von 10 Entwicklern	$51/Monat	$7.20/Monat	$43.80
Kundenservice-Bot (500 Chats/Tag)	$255/Monat	$36/Monat	$219
KI-Agenten-Plattform (5K Sitzungen/Tag)	$2.550/Monat	$357/Monat	$2.193

Angeheftete Fakten (Nicht-komprimierbare Liste)

Einige Fakten dürfen während der Komprimierung niemals verloren gehen: Benutzernamen, kritische Präferenzen, wichtige Entscheidungen. Heften Sie diese an:

You: "Pin the fact that this customer is allergic to nuts"

→ promptthrift_pin_facts(action="add", facts=["Customer is allergic to nuts"])
→ This fact will appear in ALL future compressed summaries, guaranteed.

Unterstützte Modelle (Preise vom April 2026)

Modell	Eingabe $/MTok	Ausgabe $/MTok	Lokal?
gemma-4-e2b	$0.00	$0.00	Ollama
gemma-4-e4b	$0.00	$0.00	Ollama
gemma-4-27b	$0.00	$0.00	Ollama
gemini-2.0-flash	$0.10	$0.40
gpt-4.1-nano	$0.10	$0.40
gpt-4o-mini	$0.15	$0.60
gemini-2.5-flash	$0.15	$0.60
gpt-4.1-mini	$0.40	$1.60
claude-haiku-4.5	$1.00	$5.00
gemini-2.5-pro	$1.25	$10.00
gpt-4.1	$2.00	$8.00
gpt-4o	$2.50	$10.00
claude-sonnet-4.6	$3.00	$15.00
claude-opus-4.6	$5.00	$25.00

Funktionsweise

Before (every API call sends ALL of this):
┌──────────────────────────────────┐
│ System prompt (500 tokens) │
│ Turn 1: user+asst (600 tokens) │ ← Repeated every call
│ Turn 2: user+asst (600 tokens) │ ← Repeated every call
│ ... │
│ Turn 8: user+asst (600 tokens) │ ← Repeated every call
│ Turn 9: user+asst (new) │
│ Turn 10: user (new) │
└──────────────────────────────────┘
Total: ~6,500 tokens per call

After PromptThrift compression:
┌──────────────────────────────────┐
│ System prompt (500 tokens) │
│ [Pinned facts] (50 tokens) │ ← Always preserved
│ [Compressed summary](200 tokens) │ ← Turns 1-8 in 200 tokens!
│ Turn 9: user+asst (kept) │
│ Turn 10: user (kept) │
└──────────────────────────────────┘
Total: ~1,750 tokens per call (73% saved!)

Komprimierungsmodi

Modus	Methode	Qualität	Geschwindigkeit	Kosten
Heuristisch	Regelbasierte Extraktion	Gut (50-60 % Reduzierung)	Sofort	Kostenlos
LLM (Gemma 4)	KI-gestütztes Verständnis	Exzellent (70-90 % Reduzierung)	~10-15s	Kostenlos (lokal)

PromptThrift verwendet automatisch die beste verfügbare Methode. Installieren Sie Ollama + Gemma 4 für maximale Komprimierungsqualität.

Wann glänzt die Komprimierung?

Die Effektivität der Komprimierung skaliert mit der Gesprächslänge und Redundanz:

Gesprächslänge	Typische Reduzierung	Am besten für
Kurz (< 5 Nachrichten, meist technisch)	15-25 %	Minimale Ersparnis: so lassen
Mittel (10-20 Nachrichten, gemischter Chat)	50-70 %	Optimaler Bereich: klare Kostenreduzierung
Lang (30+ Nachrichten, Debugging/Iterieren)	70-90 %	Massive Ersparnis: früh und oft komprimieren

Warum? Kurze, dichte Gespräche haben wenig Füllmaterial, das entfernt werden könnte. Längere Gespräche sammeln Begrüßungen, wiederholten Kontext, explorative Sackgassen und wortreiche Erklärungen an – genau das, was der Kompressor entfernt. Eine 30-minütige Debugging-Sitzung mit Code-Snippets, Hin-und-Her-Fehlersuche und endgültiger Lösung lässt sich dramatisch komprimieren, da für den zukünftigen Kontext nur das Ergebnis und die wichtigsten Entscheidungen zählen.

Faustregel: Beginnen Sie nach 8-10 Nachrichten mit der Komprimierung für beste Ergebnisse.

Umgebungsvariablen

Variable	Erforderlich	Standard	Beschreibung
`PROMPTTHRIFT_OLLAMA_MODEL`	Nein	`gemma4:e4b`	Ollama-Modell für LLM-Komprimierung
`PROMPTTHRIFT_OLLAMA_URL`	Nein	`http://localhost:11434`	Ollama-API-Endpunkt
`PROMPTTHRIFT_DEFAULT_MODEL`	Nein	`claude-sonnet-4.6`	Standardmodell für Kostenschätzungen

Sicherheit

Alle Daten werden standardmäßig lokal verarbeitet. Nichts verlässt Ihren Rechner
Die Ollama-Komprimierung läuft zu 100 % auf Ihrer Hardware
Post-Komprimierungs-Sanitizer entfernt Prompt-Injection-Muster aus Zusammenfassungen
API-Schlüssel werden nur aus Umgebungsvariablen gelesen, niemals hartcodiert
Keine persistente Speicherung, keine Telemetrie, keine Drittanbieter-Aufrufe

Roadmap

[x] Heuristische Gesprächskomprimierung
[x] Multi-Modell-Token-Zählung (14 Modelle)
[x] Intelligentes Modell-Routing
[x] Gemma-4-lokale LLM-Komprimierung via Ollama
[x] Angeheftete Fakten (Nicht-komprimierbare Liste)
[x] Post-Komprimierungs-Sicherheits-Sanitizer
[ ] Cloud-basierte Komprimierung (Anthropic/OpenAI-API-Fallback)
[ ] Berater für Prompt-Caching-Optimierung
[ ] Web-Dashboard für Nutzungsanalysen
[ ] VS-Code-Erweiterung

Mitwirken

PRs willkommen! Dieses Projekt verwendet die MIT-Lizenz. Forken Sie es, verbessern Sie es, veröffentlichen Sie es.

Über BrandDefender.ai

BrandDefender.ai ist die Produktlinie von Wolin Global Media (沃嶺國際媒體), einem in Taiwan ansässigen KI-Infrastrukturstudio, das Marken dabei hilft, von KI-Systemen entdeckt, verstanden und empfohlen zu werden.

Was wir bauen

🔍 AEO-Beratung (Answer Engine Optimization) Sorgen Sie dafür, dass Ihre Marke von ChatGPT, Gemini, Perplexity und Claude korrekt zitiert wird. Wir implementieren JSON-LD-Schema, optimieren die Inhaltsstruktur und überwachen die KI-Suchpräsenz für taiwanesische Lebensmittel-, Tee-, Beauty- und Lifestyle-Marken.

Website: https://aibranddefender.com/
Kostenloser KI-Marken-Scan: https://app.aibranddefender.com/

💬 KI-Kundenservice (LINE Bot) Produktionsreife LINE-Chatbots mit 3-Ebenen-Speicher, Admin-Übernahme und Supabase-Backend. Bedient bereits echte Marken im Einzelhandel und in der Gastronomie.

Leitfaden: LINE AI Chatbot Guide

🧠 KI-Speicher-MCP-Infrastruktur Open-Source-MCP-Server für Claude Code, Cursor und LLM-Entwickler. Lokal-zuerst, datenschutzfreundlich, entwickelt, um API-Kosten zu sparen.

Dieses Repo ist eines davon.
Verwandte Tools: promptforge · promptthrift-mcp

Kontakt

📧 E-Mail: service@wolinglobal.com
💬 LINE: @886upktf
🌐 Website: https://aibranddefender.com/
🐙 GitHub: https://github.com/woling-dev

Taiwanische Marken, die ein AEO-Audit wünschen: Wir bieten umfassende Scans für ChatGPT / Gemini / Perplexity + JSON-LD-Korrekturen + monatliche Überwachung. Kontaktieren Sie uns direkt per E-Mail oder LINE.

Lizenz

MIT-Lizenz. Kostenlos für den persönlichen und kommerziellen Gebrauch.

Geben Sie diesem Repo einen Stern, wenn es Ihnen Geld spart!

This server cannot be installed

license - permissive license

quality - not tested

maintenance

How are these scores calculated?

Maintenance

–Maintainers

–Response time

–Release cycle

–Releases (12mo)

Commit activity

Resources

GitHub Repository

Need Help?

Related Servers

Appeared in Searches

A guide for reducing token count in AI requests

Latest Blog Posts

Lightport: Open-Sourcing Glama's AI Gateway
By punkpeye on April 27, 2026.
open source
OpenAI
Tool Definition Quality Score (TDQS)
By punkpeye on April 3, 2026.
mcp
The Hackers Who Tracked My Sleep Cycle
By punkpeye on March 26, 2026.
security

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/woling-dev/promptthrift-mcp'

If you have feedback or need assistance with the MCP directory API, please join our Discord server

URL: https://glama.ai/mcp/servers/woling-dev/promptthrift-mcp?locale=de-DE

⇱ PromptThrift MCP by woling-dev | Glama