de en es ja ko ru zh

PromptThrift MCP: Умное сжатие токенов для LLM-приложений

Сократите расходы на API LLM на 70-90% с помощью интеллектуального сжатия диалогов. Теперь с локальным сжатием Gemma 4: более умные суммаризации, нулевые затраты на API.

👁 Лицензия: MIT
👁 Python 3.10+
👁 Совместимость с MCP
👁 Gemma 4

⭐ Если это экономит ваши деньги, поставьте звезду этому репозиторию! ⭐

Проблема

Каждый вызов API LLM повторно отправляет всю историю вашего диалога. Чат из 20 сообщений стоит в 6 раз дороже за вызов, чем чат из 3 сообщений, поэтому вы постоянно платите за одни и те же старые сообщения.

Turn 1: ████ 700 tokens ($0.002)
Turn 5: ████████████████ 4,300 tokens ($0.013)
Turn 20: ████████████████████████████████████████ 12,500 tokens ($0.038)
 ↑ You're paying for THIS every call

Related MCP server: SlimContext MCP Server

Решение

PromptThrift — это MCP-сервер с 4 инструментами для сокращения ваших расходов на API:

Инструмент	Что он делает	Эффект
`promptthrift_compress_history`	Сжимает старые сообщения в умную суммаризацию	На 50-90% меньше входных токенов
`promptthrift_count_tokens`	Отслеживает использование токенов и расходы по 14 моделям	Знайте, куда уходят деньги
`promptthrift_suggest_model`	Рекомендует самую дешевую модель для задачи	60-80% экономии на простых задачах
`promptthrift_pin_facts`	Закрепляет критические факты, которые не удаляются при сжатии	Никогда не теряйте ключевой контекст

Почему PromptThrift?

PromptThrift	Context Mode	Headroom
Лицензия	MIT (коммерческое использование OK)	ELv2 (без конкуренции)	Apache 2.0
Тип сжатия	Память диалога	Виртуализация схемы инструментов	Вывод инструментов
Поддержка локальных LLM	Gemma 4 через Ollama	Нет	Нет
Отслеживание расходов	Сравнение нескольких моделей	Нет	Нет
Маршрутизация моделей	Встроено	Нет	Нет
Закрепленные факты	Список "Никогда не сжимать"	Нет	Нет

Быстрый старт

Установка

Вариант A: pip install (рекомендуется)

pip install git+https://github.com/woling-dev/promptthrift-mcp.git

Вариант B: клонирование и установка

git clone https://github.com/woling-dev/promptthrift-mcp.git
cd promptthrift-mcp
pip install -e .

Опционально: Включение сжатия Gemma 4

Для более умного сжатия на базе ИИ (бесплатно, работает локально):

# Install Ollama: https://ollama.com
ollama pull gemma4:e4b

PromptThrift автоматически обнаруживает Ollama. Если запущено → использует Gemma 4 для сжатия. Если нет → переключается на быстрое эвристическое сжатие. Настройка не требуется.

Claude Desktop

Добавьте в claude_desktop_config.json:

{
 "mcpServers": {
 "promptthrift": {
 "command": "python",
 "args": ["/path/to/promptthrift-mcp/server.py"]
 }
 }
}

Cursor / Windsurf

Добавьте в настройки MCP:

{
 "mcpServers": {
 "promptthrift": {
 "command": "python",
 "args": ["/path/to/promptthrift-mcp/server.py"]
 }
 }
}

Пример из реальной жизни

ИИ-ассистент по программированию отлаживает сложную проблему в течение 30+ сообщений:

До сжатия (отправляется при каждом вызове API):

User: My Next.js app throws a hydration error on the /dashboard page.
Asst: That usually means server and client HTML don't match. Can you share the component?
User: [pastes 50 lines of DashboardLayout.tsx]
Asst: I see the issue, you're using `new Date()` directly in render, which differs
 between server and client. Let me also check your data fetching...
User: I also get a warning about useEffect running twice.
Asst: That's React 18 Strict Mode. Not related to hydration. Let me trace the real bug...
User: Wait, there's also a flash of unstyled content on first load.
Asst: That's a separate CSS loading order issue. Let me address both...
 [... 25 more turns of debugging, trying fixes, checking logs ...]
User: OK it's fixed now! But I want to add dark mode next.
Asst: Great! For dark mode with Next.js + Tailwind, here are three approaches...

~8 500 токенов после 30 сообщений, и растет с каждым вызовом API

После сжатия Gemma 4:

[Compressed history]
Resolved Next.js hydration error in DashboardLayout.tsx caused by
Date() in render (fixed with useEffect). Unrelated: React 18 Strict Mode
double-fire (expected), CSS flash (fixed via loading order).
User now wants to add dark mode to Next.js + Tailwind app.
[End compressed history]

[Recent turns preserved, last 4 turns intact]

~1 200 токенов. 86% экономии на каждом последующем вызове

Влияние на расходы в масштабе (Claude Sonnet @ $3/млн токенов):

Сценарий	Без PromptThrift	С PromptThrift	Ежемесячная экономия
1 разработчик, 20 сессий/день	$5.10/мес	$0.72/мес	$4.38
Команда из 10 разработчиков	$51/мес	$7.20/мес	$43.80
Бот службы поддержки (500 чатов/день)	$255/мес	$36/мес	$219
Платформа ИИ-агентов (5 тыс. сессий/день)	$2 550/мес	$357/мес	$2 193

Закрепленные факты (Список "Никогда не сжимать")

Некоторые факты никогда не должны теряться при сжатии: имена пользователей, критические предпочтения, ключевые решения. Закрепите их:

You: "Pin the fact that this customer is allergic to nuts"

→ promptthrift_pin_facts(action="add", facts=["Customer is allergic to nuts"])
→ This fact will appear in ALL future compressed summaries, guaranteed.

Поддерживаемые модели (цены на апрель 2026 г.)

Модель	Вход $/млн токенов	Выход $/млн токенов	Локально?
gemma-4-e2b	$0.00	$0.00	Ollama
gemma-4-e4b	$0.00	$0.00	Ollama
gemma-4-27b	$0.00	$0.00	Ollama
gemini-2.0-flash	$0.10	$0.40
gpt-4.1-nano	$0.10	$0.40
gpt-4o-mini	$0.15	$0.60
gemini-2.5-flash	$0.15	$0.60
gpt-4.1-mini	$0.40	$1.60
claude-haiku-4.5	$1.00	$5.00
gemini-2.5-pro	$1.25	$10.00
gpt-4.1	$2.00	$8.00
gpt-4o	$2.50	$10.00
claude-sonnet-4.6	$3.00	$15.00
claude-opus-4.6	$5.00	$25.00

Как это работает

Before (every API call sends ALL of this):
┌──────────────────────────────────┐
│ System prompt (500 tokens) │
│ Turn 1: user+asst (600 tokens) │ ← Repeated every call
│ Turn 2: user+asst (600 tokens) │ ← Repeated every call
│ ... │
│ Turn 8: user+asst (600 tokens) │ ← Repeated every call
│ Turn 9: user+asst (new) │
│ Turn 10: user (new) │
└──────────────────────────────────┘
Total: ~6,500 tokens per call

After PromptThrift compression:
┌──────────────────────────────────┐
│ System prompt (500 tokens) │
│ [Pinned facts] (50 tokens) │ ← Always preserved
│ [Compressed summary](200 tokens) │ ← Turns 1-8 in 200 tokens!
│ Turn 9: user+asst (kept) │
│ Turn 10: user (kept) │
└──────────────────────────────────┘
Total: ~1,750 tokens per call (73% saved!)

Режимы сжатия

Режим	Метод	Качество	Скорость	Стоимость
Эвристический	Извлечение на основе правил	Хорошее (50-60% сокращения)	Мгновенно	Бесплатно
LLM (Gemma 4)	Понимание на базе ИИ	Отличное (70-90% сокращения)	~10-15 сек	Бесплатно (локально)

PromptThrift автоматически использует лучший доступный метод. Установите Ollama + Gemma 4 для максимального качества сжатия.

Когда сжатие наиболее эффективно?

Эффективность сжатия зависит от длины диалога и избыточности:

Длина диалога	Типичное сокращение	Лучше всего для
Короткий (< 5 сообщений, в основном технический)	15-25%	Минимальная экономия: оставьте как есть
Средний (10-20 сообщений, смешанный чат)	50-70%	Оптимально: четкое снижение затрат
Длинный (30+ сообщений, отладка/итерации)	70-90%	Огромная экономия: сжимайте часто и рано

Почему? Короткие, плотные диалоги содержат мало лишнего для удаления. Длинные диалоги накапливают приветствия, повторяющийся контекст, исследовательские тупики и многословные объяснения — именно это и удаляет компрессор. 30-шаговая сессия отладки с фрагментами кода, обсуждениями и итоговым решением сжимается драматически, так как для будущего контекста важны только выводы и ключевые решения.

Правило: Начинайте сжимать после 8-10 сообщений для достижения наилучших результатов.

Переменные окружения

Переменная	Обязательно	По умолчанию	Описание
`PROMPTTHRIFT_OLLAMA_MODEL`	Нет	`gemma4:e4b`	Модель Ollama для сжатия LLM
`PROMPTTHRIFT_OLLAMA_URL`	Нет	`http://localhost:11434`	API-эндпоинт Ollama
`PROMPTTHRIFT_DEFAULT_MODEL`	Нет	`claude-sonnet-4.6`	Модель по умолчанию для оценки стоимости

Безопасность

Все данные по умолчанию обрабатываются локально. Ничего не покидает вашу машину
Сжатие Ollama работает на 100% на вашем оборудовании
Пост-компрессионный санитайзер удаляет паттерны инъекций промптов из суммаризаций
API-ключи считываются только из переменных окружения, никогда не прописываются в коде
Нет постоянного хранилища, нет телеметрии, нет сторонних вызовов

Дорожная карта

[x] Эвристическое сжатие диалогов
[x] Подсчет токенов для нескольких моделей (14 моделей)
[x] Интеллектуальная маршрутизация моделей
[x] Локальное сжатие LLM Gemma 4 через Ollama
[x] Закрепленные факты (Список "Никогда не сжимать")
[x] Пост-компрессионный санитайзер безопасности
[ ] Облачное сжатие (резервный вариант через API Anthropic/OpenAI)
[ ] Советник по оптимизации кэширования промптов
[ ] Веб-панель для аналитики использования
[ ] Расширение для VS Code

Участие в разработке

PR приветствуются! Этот проект использует лицензию MIT. Форкайте, улучшайте, выпускайте.

О BrandDefender.ai

BrandDefender.ai — это линейка продуктов Wolin Global Media (沃嶺國際媒體), тайваньской студии ИИ-инфраструктуры, помогающей брендам быть обнаруженными, понятыми и рекомендованными ИИ-системами.

Что мы создаем

🔍 AEO Consulting (Оптимизация для поисковых систем с ответами) Сделайте так, чтобы ваш бренд правильно цитировался ChatGPT, Gemini, Perplexity и Claude. Мы внедряем схему JSON-LD, оптимизируем структуру контента и отслеживаем присутствие в ИИ-поиске для тайваньских брендов продуктов питания, чая, косметики и лайфстайла.

Веб-сайт: https://aibranddefender.com/
Бесплатное сканирование бренда ИИ: https://app.aibranddefender.com/

💬 ИИ-обслуживание клиентов (LINE Bot) Промышленные чат-боты LINE с 3-уровневой памятью, административным управлением и бэкендом Supabase. Уже обслуживают реальные бренды в ритейле и общепите.

Руководство: LINE AI Chatbot Guide

🧠 Инфраструктура ИИ-памяти MCP MCP-серверы с открытым исходным кодом для Claude Code, Cursor и разработчиков LLM. Локально-ориентированные, сохраняющие конфиденциальность, созданные для экономии затрат на API.

Этот репозиторий — один из них.
Родственные инструменты: promptforge · promptthrift-mcp

Контакты

📧 Email: service@wolinglobal.com
💬 LINE: @886upktf
🌐 Веб-сайт: https://aibranddefender.com/
🐙 GitHub: https://github.com/woling-dev

Тайваньские бренды, желающие провести AEO-аудит: мы предлагаем полное сканирование ChatGPT / Gemini / Perplexity + исправление JSON-LD + ежемесячный мониторинг. Email или LINE — пишите нам напрямую.

Лицензия

Лицензия MIT. Бесплатно для личного и коммерческого использования.

Поставьте звезду этому репозиторию, если он экономит ваши деньги!

This server cannot be installed

license - permissive license

quality - not tested

maintenance

How are these scores calculated?

Maintenance

–Maintainers

–Response time

–Release cycle

–Releases (12mo)

Commit activity

Resources

GitHub Repository

Need Help?

Related Servers

Appeared in Searches

A guide for reducing token count in AI requests

Latest Blog Posts

Lightport: Open-Sourcing Glama's AI Gateway
By punkpeye on April 27, 2026.
open source
OpenAI
Tool Definition Quality Score (TDQS)
By punkpeye on April 3, 2026.
mcp
The Hackers Who Tracked My Sleep Cycle
By punkpeye on March 26, 2026.
security

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/woling-dev/promptthrift-mcp'

If you have feedback or need assistance with the MCP directory API, please join our Discord server

URL: https://glama.ai/mcp/servers/woling-dev/promptthrift-mcp?locale=ru-RU

⇱ PromptThrift MCP by woling-dev | Glama