PromptThrift MCP: Умное сжатие токенов для LLM-приложений
Сократите расходы на API LLM на 70-90% с помощью интеллектуального сжатия диалогов. Теперь с локальным сжатием Gemma 4: более умные суммаризации, нулевые затраты на API.
👁 Лицензия: MIT
👁 Python 3.10+
👁 Совместимость с MCP
👁 Gemma 4
⭐ Если это экономит ваши деньги, поставьте звезду этому репозиторию! ⭐
Проблема
Каждый вызов API LLM повторно отправляет всю историю вашего диалога. Чат из 20 сообщений стоит в 6 раз дороже за вызов, чем чат из 3 сообщений, поэтому вы постоянно платите за одни и те же старые сообщения.
Turn 1: ████ 700 tokens ($0.002)
Turn 5: ████████████████ 4,300 tokens ($0.013)
Turn 20: ████████████████████████████████████████ 12,500 tokens ($0.038)
↑ You're paying for THIS every callRelated MCP server: SlimContext MCP Server
Решение
PromptThrift — это MCP-сервер с 4 инструментами для сокращения ваших расходов на API:
Инструмент | Что он делает | Эффект |
| Сжимает старые сообщения в умную суммаризацию | На 50-90% меньше входных токенов |
| Отслеживает использование токенов и расходы по 14 моделям | Знайте, куда уходят деньги |
| Рекомендует самую дешевую модель для задачи | 60-80% экономии на простых задачах |
| Закрепляет критические факты, которые не удаляются при сжатии | Никогда не теряйте ключевой контекст |
Почему PromptThrift?
PromptThrift | Context Mode | Headroom | |
Лицензия | MIT (коммерческое использование OK) | ELv2 (без конкуренции) | Apache 2.0 |
Тип сжатия | Память диалога | Виртуализация схемы инструментов | Вывод инструментов |
Поддержка локальных LLM | Gemma 4 через Ollama | Нет | Нет |
Отслеживание расходов | Сравнение нескольких моделей | Нет | Нет |
Маршрутизация моделей | Встроено | Нет | Нет |
Закрепленные факты | Список "Никогда не сжимать" | Нет | Нет |
Быстрый старт
Установка
Вариант A: pip install (рекомендуется)
pip install git+https://github.com/woling-dev/promptthrift-mcp.gitВариант B: клонирование и установка
git clone https://github.com/woling-dev/promptthrift-mcp.git
cd promptthrift-mcp
pip install -e .Опционально: Включение сжатия Gemma 4
Для более умного сжатия на базе ИИ (бесплатно, работает локально):
# Install Ollama: https://ollama.com
ollama pull gemma4:e4bPromptThrift автоматически обнаруживает Ollama. Если запущено → использует Gemma 4 для сжатия. Если нет → переключается на быстрое эвристическое сжатие. Настройка не требуется.
Claude Desktop
Добавьте в claude_desktop_config.json:
{
"mcpServers": {
"promptthrift": {
"command": "python",
"args": ["/path/to/promptthrift-mcp/server.py"]
}
}
}Cursor / Windsurf
Добавьте в настройки MCP:
{
"mcpServers": {
"promptthrift": {
"command": "python",
"args": ["/path/to/promptthrift-mcp/server.py"]
}
}
}Пример из реальной жизни
ИИ-ассистент по программированию отлаживает сложную проблему в течение 30+ сообщений:
До сжатия (отправляется при каждом вызове API):
User: My Next.js app throws a hydration error on the /dashboard page.
Asst: That usually means server and client HTML don't match. Can you share the component?
User: [pastes 50 lines of DashboardLayout.tsx]
Asst: I see the issue, you're using `new Date()` directly in render, which differs
between server and client. Let me also check your data fetching...
User: I also get a warning about useEffect running twice.
Asst: That's React 18 Strict Mode. Not related to hydration. Let me trace the real bug...
User: Wait, there's also a flash of unstyled content on first load.
Asst: That's a separate CSS loading order issue. Let me address both...
[... 25 more turns of debugging, trying fixes, checking logs ...]
User: OK it's fixed now! But I want to add dark mode next.
Asst: Great! For dark mode with Next.js + Tailwind, here are three approaches...~8 500 токенов после 30 сообщений, и растет с каждым вызовом API
После сжатия Gemma 4:
[Compressed history]
Resolved Next.js hydration error in DashboardLayout.tsx caused by
Date() in render (fixed with useEffect). Unrelated: React 18 Strict Mode
double-fire (expected), CSS flash (fixed via loading order).
User now wants to add dark mode to Next.js + Tailwind app.
[End compressed history]
[Recent turns preserved, last 4 turns intact]~1 200 токенов. 86% экономии на каждом последующем вызове
Влияние на расходы в масштабе (Claude Sonnet @ $3/млн токенов):
Сценарий | Без PromptThrift | С PromptThrift | Ежемесячная экономия |
1 разработчик, 20 сессий/день | $5.10/мес | $0.72/мес | $4.38 |
Команда из 10 разработчиков | $51/мес | $7.20/мес | $43.80 |
Бот службы поддержки (500 чатов/день) | $255/мес | $36/мес | $219 |
Платформа ИИ-агентов (5 тыс. сессий/день) | $2 550/мес | $357/мес | $2 193 |
Закрепленные факты (Список "Никогда не сжимать")
Некоторые факты никогда не должны теряться при сжатии: имена пользователей, критические предпочтения, ключевые решения. Закрепите их:
You: "Pin the fact that this customer is allergic to nuts"
→ promptthrift_pin_facts(action="add", facts=["Customer is allergic to nuts"])
→ This fact will appear in ALL future compressed summaries, guaranteed.Поддерживаемые модели (цены на апрель 2026 г.)
Модель | Вход $/млн токенов | Выход $/млн токенов | Локально? |
gemma-4-e2b | $0.00 | $0.00 | Ollama |
gemma-4-e4b | $0.00 | $0.00 | Ollama |
gemma-4-27b | $0.00 | $0.00 | Ollama |
gemini-2.0-flash | $0.10 | $0.40 | |
gpt-4.1-nano | $0.10 | $0.40 | |
gpt-4o-mini | $0.15 | $0.60 | |
gemini-2.5-flash | $0.15 | $0.60 | |
gpt-4.1-mini | $0.40 | $1.60 | |
claude-haiku-4.5 | $1.00 | $5.00 | |
gemini-2.5-pro | $1.25 | $10.00 | |
gpt-4.1 | $2.00 | $8.00 | |
gpt-4o | $2.50 | $10.00 | |
claude-sonnet-4.6 | $3.00 | $15.00 | |
claude-opus-4.6 | $5.00 | $25.00 |
Как это работает
Before (every API call sends ALL of this):
┌──────────────────────────────────┐
│ System prompt (500 tokens) │
│ Turn 1: user+asst (600 tokens) │ ← Repeated every call
│ Turn 2: user+asst (600 tokens) │ ← Repeated every call
│ ... │
│ Turn 8: user+asst (600 tokens) │ ← Repeated every call
│ Turn 9: user+asst (new) │
│ Turn 10: user (new) │
└──────────────────────────────────┘
Total: ~6,500 tokens per call
After PromptThrift compression:
┌──────────────────────────────────┐
│ System prompt (500 tokens) │
│ [Pinned facts] (50 tokens) │ ← Always preserved
│ [Compressed summary](200 tokens) │ ← Turns 1-8 in 200 tokens!
│ Turn 9: user+asst (kept) │
│ Turn 10: user (kept) │
└──────────────────────────────────┘
Total: ~1,750 tokens per call (73% saved!)Режимы сжатия
Режим | Метод | Качество | Скорость | Стоимость |
Эвристический | Извлечение на основе правил | Хорошее (50-60% сокращения) | Мгновенно | Бесплатно |
LLM (Gemma 4) | Понимание на базе ИИ | Отличное (70-90% сокращения) | ~10-15 сек | Бесплатно (локально) |
PromptThrift автоматически использует лучший доступный метод. Установите Ollama + Gemma 4 для максимального качества сжатия.
Когда сжатие наиболее эффективно?
Эффективность сжатия зависит от длины диалога и избыточности:
Длина диалога | Типичное сокращение | Лучше всего для |
Короткий (< 5 сообщений, в основном технический) | 15-25% | Минимальная экономия: оставьте как есть |
Средний (10-20 сообщений, смешанный чат) | 50-70% | Оптимально: четкое снижение затрат |
Длинный (30+ сообщений, отладка/итерации) | 70-90% | Огромная экономия: сжимайте часто и рано |
Почему? Короткие, плотные диалоги содержат мало лишнего для удаления. Длинные диалоги накапливают приветствия, повторяющийся контекст, исследовательские тупики и многословные объяснения — именно это и удаляет компрессор. 30-шаговая сессия отладки с фрагментами кода, обсуждениями и итоговым решением сжимается драматически, так как для будущего контекста важны только выводы и ключевые решения.
Правило: Начинайте сжимать после 8-10 сообщений для достижения наилучших результатов.
Переменные окружения
Переменная | Обязательно | По умолчанию | Описание |
| Нет |
| Модель Ollama для сжатия LLM |
| Нет |
| API-эндпоинт Ollama |
| Нет |
| Модель по умолчанию для оценки стоимости |
Безопасность
Все данные по умолчанию обрабатываются локально. Ничего не покидает вашу машину
Сжатие Ollama работает на 100% на вашем оборудовании
Пост-компрессионный санитайзер удаляет паттерны инъекций промптов из суммаризаций
API-ключи считываются только из переменных окружения, никогда не прописываются в коде
Нет постоянного хранилища, нет телеметрии, нет сторонних вызовов
Дорожная карта
[x] Эвристическое сжатие диалогов
[x] Подсчет токенов для нескольких моделей (14 моделей)
[x] Интеллектуальная маршрутизация моделей
[x] Локальное сжатие LLM Gemma 4 через Ollama
[x] Закрепленные факты (Список "Никогда не сжимать")
[x] Пост-компрессионный санитайзер безопасности
[ ] Облачное сжатие (резервный вариант через API Anthropic/OpenAI)
[ ] Советник по оптимизации кэширования промптов
[ ] Веб-панель для аналитики использования
[ ] Расширение для VS Code
Участие в разработке
PR приветствуются! Этот проект использует лицензию MIT. Форкайте, улучшайте, выпускайте.
О BrandDefender.ai
BrandDefender.ai — это линейка продуктов Wolin Global Media (沃嶺國際媒體), тайваньской студии ИИ-инфраструктуры, помогающей брендам быть обнаруженными, понятыми и рекомендованными ИИ-системами.
Что мы создаем
🔍 AEO Consulting (Оптимизация для поисковых систем с ответами) Сделайте так, чтобы ваш бренд правильно цитировался ChatGPT, Gemini, Perplexity и Claude. Мы внедряем схему JSON-LD, оптимизируем структуру контента и отслеживаем присутствие в ИИ-поиске для тайваньских брендов продуктов питания, чая, косметики и лайфстайла.
Веб-сайт: https://aibranddefender.com/
Бесплатное сканирование бренда ИИ: https://app.aibranddefender.com/
💬 ИИ-обслуживание клиентов (LINE Bot) Промышленные чат-боты LINE с 3-уровневой памятью, административным управлением и бэкендом Supabase. Уже обслуживают реальные бренды в ритейле и общепите.
Руководство: LINE AI Chatbot Guide
🧠 Инфраструктура ИИ-памяти MCP MCP-серверы с открытым исходным кодом для Claude Code, Cursor и разработчиков LLM. Локально-ориентированные, сохраняющие конфиденциальность, созданные для экономии затрат на API.
Этот репозиторий — один из них.
Родственные инструменты: promptforge · promptthrift-mcp
Контакты
📧 Email: service@wolinglobal.com
💬 LINE: @886upktf
🌐 Веб-сайт: https://aibranddefender.com/
🐙 GitHub: https://github.com/woling-dev
Тайваньские бренды, желающие провести AEO-аудит: мы предлагаем полное сканирование ChatGPT / Gemini / Perplexity + исправление JSON-LD + ежемесячный мониторинг. Email или LINE — пишите нам напрямую.
Лицензия
Лицензия MIT. Бесплатно для личного и коммерческого использования.
© 2026 Wolin Global Media (沃嶺國際媒體).
Поставьте звезду этому репозиторию, если он экономит ваши деньги!
This server cannot be installed
Maintenance
Appeared in Searches
Latest Blog Posts
MCP directory API
We provide all the information about MCP servers via our MCP API.
curl -X GET 'https://glama.ai/api/mcp/v1/servers/woling-dev/promptthrift-mcp'
If you have feedback or need assistance with the MCP directory API, please join our Discord server
