Охват за 30 дней

Data Mining *

Глубинный анализ данных

11,85

Рейтинг

СтатьиПостыНовостиАвторыКомпании

Сначала показывать

Порог рейтинга

Уровень сложности

👁 Image

oopatow 26 июн в 11:57

Тихая-тихая мировая революция. Мы сделали модель распознавания для любых задач компьютерного зрения – и выше уровня SOTA

7 мин

Data Engineering * Data Mining * Машинное обучение *

Обзор

Recovery Mode

👁 Image

Практический эффект TAPe+ML v2 сейчас лучше всего видно в object detection. Так, TAPe+ML v2 на конкретной практической задаче рудозасорения (см главу про промышленный пилот), без COCO-головы, на новом backbone, основанном на данных клиента, дает точность детекции 96%, по mAP50 – точность 90% и по mAP50–95 – 85%. То есть TAPe‑детекция выходит на уровень RF‑DETR по mAP50 при числе параметров меньше 100 тысяч против порядка 127 миллионов у RF‑DETR 2XL.

Мы применили последовательность улучшений, которые не раскрываем публично как ноу‑хау, но их итоговые эффекты можно зафиксировать на COCO. На разных этапах получались следующие значения:

Божечки

+12

Все новости

👁 Image

ph_piter 23 июн в 09:42

Книга: «Анализ данных с LLM. Текст, таблицы, изображения и аудио»

2 мин

9.6K

Блог компании Издательский дом «Питер»Профессиональная литература * Python * Data Mining * Искусственный интеллект

👁 Image

Привет, Хаброжители! Большие языковые модели (LLM) позволяют оптимизировать и ускорить решение практически любой задачи в области анализа данных. Освойте методы для анализа больших массивов текстовых, табличных и графовых данных, изображений, видео и многого другого с помощью понятных запросов на естественном языке и нескольких строк кода на Python.

+10

👁 Image

That_Vlad 22 июн в 11:56

От имени Габенбота: измеряем во сколько обошёлся призыв оставить отзыв

Средний

11 мин

7.1K

Разработка игр * Data Mining * Игры и игровые консолиСтатистика в IT

Аналитика

Из песочницы

Перевод

👁 Image

Игра Far Far West просила игроков оставить отзыв прямо через внутриигрового NPC — прямое нарушение правил Steam. Мы выгрузили данные и прогнали через модели детекции аномалий, чтобы посчитать, сколько отзывов оказались «добавленными». Спойлер: от 27% до 50%.

👁 Image

oopatow 19 июн в 05:57

Мы — другие. Компьютерное зрение без миллионов параметров: практический разрыв SOTA

Простой

3 мин

5.6K

Машинное обучение * Data Mining *

Recovery Mode

👁 Image

Краткий манифест-тизер; запомните этот твит.

Повторяем как мантру, чтобы она дошла до как можно большего количества людей. У YOLO, семейства DINO и прочих сетей - сотни миллионов и миллиардов параметров для решения задач детекции, классификации, сегментации. На фундаменте этих сетей по всему миру рождаются сервисы, которые позволяют решать какие-то задачи детекции, классификации, сегментации.

У нас есть своя собственная универсальная модель компьютерного зрения – со своей собственной архитектурой – со своей собственной “математикой”. И нам для решения задач детекции, классификации, сегментации нужны не сотни и даже не десятки миллионов параметров, и уж тем более не миллиарды, а меньше 100 тыс. А точность при этом в худшем случае сопоставима с SOTA, а в обычном – превосходит SOTA.

Но как же так? С одной стороны миллионы и миллиарды параметров, а с другой – меньше 100 тыс. Это же гигантская разница. Что происходит? Что все это значит?

Это значит, что мы про что-то другое

👁 Image

GenomeDust 14 июн в 09:54

Как я собрал эталонный Data Engineering проект: ClickHouse, Kafka, Spark, dbt, Airflow и Superset за одну команду

Средний

10 мин

12K

Data Engineering * Data Mining * КриптовалютыBig Data *

Туториал

👁 Image

Меня зовут Андрей, я работаю с данными. И так получается, что на реальных проектах у меня никогда не было возможности собрать идеальный, на мой взгляд стек. Поэтому я собрал его в идеальном пет проекте.

Стать инженером данных

👁 Image

GcVit 10 июн в 10:36

raFTI: как сопоставлять «хаотичные» названия вин

Средний

6 мин

6.3K

Data Mining * Natural Language Processing * Инженерные системы * Машинное обучение * Поисковые технологии *

Кейс

Из песочницы

👁 Image

Привет, я Вит Глинка, backend программист в компании Deeplace, в которой среди прочего активно работают в области winetech. Хочу презентовать нашу последнюю фичу в этой области — raFTI.v5.3 — систему полнотекстового поиска.

Разобраться в вине

👁 Image

Isma 30 мая в 16:57

Критерии выживания и случайность — 5

Сложный

27 мин

11K

Карьера в IT-индустрииАнализ и проектирование систем * GTD * Data Mining * Научно-популярное

Продолжаем data mining путешествие в погоне за удачей. Адаптивность — последний фактор в нашем разборе, хотя и не последняя статья серии. Если интеллект отвечает на вопрос «насколько у человека мощный когнитивный аппарат», то адаптивность отвечает на вопрос «насколько устойчиво он функционирует под давлением и насколько быстро восстанавливается». В популярной литературе адаптивность считается едва ли не главным фактором жизненного успеха. Данные показывают более скромную, фрагментированную и в нескольких местах контринтуитивную картину.

👁 Image

algol78 29 мая в 07:30

Энтропия, которая измеряет порядок: IH-анализ находит закономерности в разнотипных данных

Средний

8 мин

C++ * Data Mining * Python * Математика * Машинное обучение *

Аналитика

Из песочницы

👁 Image

Обычно энтропия — мера хаоса. Но наш сегодняшний герой — IH-анализ (Information-Entropy analysis) — вычисляет информационную энтропию, чтобы измерить обратное: степень детерминированности связи между признаками и целевой переменной. Мы будем вычислять: насколько утверждение «если А, то Б, и, если не А, то и не Б» выполняется в наших данных устойчиво. Одновременная работа с категориальными и количественными признаками нас не затруднит.

👁 Image

oopatow 26 мая в 10:52

Почему вы тратите время не на переговоры, а на чужую внутреннюю драму. Как проходят переговоры с крупными компаниями

Простой

6 мин

6.8K

Искусственный интеллектМашинное обучение * Data Mining *

Мнение

Статья о наболевшем.

Есть удобная, почти благородная формулировка: «рынок плохо воспринимает новые технологии». Она красивая, интеллигентная и вежливая, поэтому почти наверняка неправильная. Но проблема, конечно, вовсе не в рынке, а в том, что до рынка ещё надо добраться. А до него, как правило, сидит цепочка людей, которые либо не понимают, что им показывают, либо понимают слишком мало, но с очень большим апломбом.

Разделить боль

👁 Image

khmelkoff 26 мая в 08:50

RAG без downtime: настраиваем инкрементальное обновление документов на Qdrant и LangChain

Средний

12 мин

7.4K

Искусственный интеллектNatural Language Processing * Data Mining * Машинное обучение *

Туториал

👁 Image

PM: Нам нужно актуализировать базу знаний для ИИ-ассистента,
там изменилась инструкция по смене пароля.
DevOps: Не проблема, сейчас запущу скрипт, через два часа всё обновится.
Предупреди Заказчика о недоступности сервиса.

Знакомая ситуация? Полная зачистка векторной базы и реиндексация всех имеющихся документов с остановкой сервиса - решение простое и надёжное, но «прощается» только на этапе прототипа.

В продакшене могут быть сотни тысяч документов, живые пользователи и SLA с требованием по доступности сервиса. Обновилась одна, пусть и очень важная инструкция, и сервис недоступен два часа. А если таких обновлений десятки в неделю? Давайте исправим это и напишем ETL-скрипт, который умеет добавлять, обновлять и удалять отдельные документы без остановки сервиса.

👁 Image

Moxovich 26 мая в 08:30

Как мы анализировали поведение пользователей Яндекс Музыки на 50 млн событий

Средний

12 мин

Big Data * Python * Data Engineering * Data Mining * Звук

Аналитика

Из песочницы

Музыкальные стриминговые сервисы давно перестали быть просто каталогами треков. Сегодня значительная часть пользовательского опыта формируется рекомендательными системами: персональными подборками, автоматическими плейлистами, «волнами» и похожими механизмами. Пользователь может сам искать музыку, добавлять треки в библиотеку и слушать знакомых артистов, а может переходить по рекомендациям алгоритма. Возникает естественный исследовательский вопрос: рекомендации действительно расширяют музыкальный кругозор или, наоборот, закрепляют уже существующие предпочтения пользователя?

👁 Image

GlobalSign_admin 24 мая в 17:32

ИИ-боты сканируют даже логи TLS-сертификатов. Любая информация используется для обучения LLM

4 мин

20K

Информационная безопасность * Data Mining * Искусственный интеллектПоисковые технологии *

👁 Image

Согласно статистическому отчёту State of AI Traffic от Human Security, за последний год резко увеличилась активность ИИ-агентов, ботов и ИИ-инструментов в интернете.

Например, трафик от ИИ-агентов увеличился почти в 80 раз (на 7851%), трафик от ИИ-скраперов — на 597%. Весь ИИ-трафик за последний год увеличился на 187%, а в целом он растёт в восемь раз быстрее, чем человеческий.

👁 Image

clapton 22 мая в 08:00

Математика кластеров: разбираемся в умной кластеризации данных на примере нашей системы поиска аномалий в логах. Часть 1

Средний

15 мин

Блог компании МТСМашинное обучение * Data Mining * Математика *

👁 Image

Привет, Хабр! Меня зовут Андрей Басов, я руководитель команды технической поддержки стрима корпоративных продуктов и сервисов в MWS, занимаюсь технической поддержкой и сопровождением продуктов линейки Partner Experience Platform.

В прошлом материале я рассказал о том, как мы с коллегами попробовали искать аномалии в логах наших систем с помощью методов машинного обучения. Сейчас мы провели работу над ошибками, все переработали (архитектуру, математический аппарат), внедрили генеративную LLM и Principal Component Analysis — и в итоге создали новую систему анализа жизни продуктов, которая самостоятельно балансирует, обучается, выявляет аномалии, паттерны и даже заглядывает в будущее.

Но не только сама разработка этой «живой» системы стала для меня в проекте вызовом. Мы столкнулись с тем, что некоторые коллеги из разных подразделений не всегда понимают, чем конкретно мы занимаемся и как это все работает. Не всегда разделяют границы ИИ между машинным обучением и генеративным интеллектом.

Поэтому я открываю серию материалов о том, как математика способна превратить пассивную кластеризацию в активную и самосознающую систему: от основ байесовской адаптации, динамических границ и топологического анализа до внедрения в практику. Разбираться будем на примере нашей новой архитектуры.

+18

👁 Image

oopatow 18 мая в 09:07

ИИ в тупике, потому что его строят на неверных абстракциях, игнорируя важность зрительного восприятия

Простой

9 мин

7.2K

Data Mining * Машинное обучение *

Мнение

Recovery Mode

👁 Image

Индустрия строит модели на абстракциях, которые слабо связаны с реальной работой мозга и зрительного восприятия, в итоге платит за это дикой ценой в энергии и, возможно, принципиальными ограничениями. Но зрительное восприятие важнее любых архитектур ИИ.

История науки показывает, что прорывы происходят тогда, когда исследователь возвращается к конкретным примерам мира — как Хопфилд, который соединил физику твёрдого тела с наблюдениями нейробиологов. Если хотим сдвига, надо вернуться к тому, как устроено наше зрение — как к самому мощному и постоянно проверяемому «движку» обработки реальности. Этим мы и успешно и занимаемся.

Узреть

👁 Image

badcasedaily1 18 мая в 06:46

Ваша модель показывает 95% accuracy и при этом бесполезна: метрики для несбалансированных классов

Средний

8 мин

7.5K

Блог компании OTUSPython * Программирование * Машинное обучение * Data Mining *

Туториал

👁 Image

Модель может показывать 95–99% accuracy и при этом не решать задачу: особенно если редкий класс важнее всего для бизнеса. В статье разбираем, почему accuracy ломается на несбалансированных данных, как читать precision, recall и F1, зачем смотреть PR‑кривую и confusion matrix, а также как подбирать порог классификации с учетом стоимости ошибок.

Понять ошибки

👁 Image

TechRecruiter 18 мая в 05:53

Как создать свой бенчмарк: 6 уроков с туториала NeurIPS

2 мин

5.7K

Data Engineering * Data Mining *

Туториал

Посмотрела Туториал NeurIPS «The Art of Benchmarking» — панель с авторами SWE-bench, GPQA и ведущими исследователями из Google DeepMind, NYU и Berkeley.
Вот мой конспект. Делюсь с вами, так как бенчмарки теперь не только про науку, но и про безопасность, регуляторику и миллиардные решения о деплое.

* Тирания метрик
Оказывается, любая метрика имеет honey spots, которые модель может хакнуть. Проблема в том, что текущая мета-оценка (корреляция Пирсона) эти точки не показывает. А если метрика становится еще и reward'ом при обучении — могут быть проблемы

* Про долговечность
Бенчмарки действуют только определенный период, и нередко - далеко не 10 лет. Всё насыщается. ImageNet продолжает быть полезным, потому что его используют для 10 разных задач (диффузия, CLIP, zero-shot). А большинство бенчмарков теряют актуальность, но продолжают кочевать по paper'ам еще 5 лет — просто потому, что их удобно цитировать. Это плохая практика.

* Субъективность — везде
Даже в классификации изображений люди расходятся. Две принципиально разные причины: (а) задача плохо задана (underspecification), (б) люди реально думают по-разному. Проблема краудворкинга: если не кэпировать ответы, вы получите не мнение популяции, а мнение Боба, который сделал 80% аннотаций.

* LLM как источник оценки — это очень опасно
Они коррелируют с людьми только на той выборке, на которой их калибровали(!). Модель становится умнее — распределение данных меняется — корреляция падает. А при генерации бенчмарков LLM имеют сильнейший self-bias (даже с независимой метрикой). Единственный корректный подход — заставить модель генерировать примеры, на которых она ошибается

-1

👁 Image

zzeng 18 мая в 04:01

Насколько многомерным может быть многомерный точный индекс?

Средний

9 мин

9.4K

Алгоритмы * C * C++ * Data Mining *

👁 Image

Вот, например, Milvius(DiskANN) рассчитан на вектора размерности до 32 768, но это приближенный поиск. Но как насчёт поиска точного?

В данной статье рассматривается работоспособность 1024 мерного индекса, хранилищем которого служит обычное B‑дерево (насколько вообще может быть обычным такое дерево). Используемый диск — вполне себе «железный» старый добрый WD Purple, оперативная память сознательно ограничена 8 Гб. Можно ли что‑то из этого выжать на рядовом десктопе за приемлемое время?

👁 Image

samako 13 мая в 21:11

AI для PHP-разработчиков. Часть 6: Bag of Words и TF–IDF – как компьютер превращает текст в математику

Средний

10 мин

12K

PHP * Машинное обучение * Data Mining * Алгоритмы * Поисковые технологии *

Аналитика

👁 Image

Когда мы говорим, что нейросети "понимают текст", легко забыть: компьютер изначально вообще не понимает слова. Для него текст – это набор чисел, статистики и векторов.

В этой статье разберём Bag of Words и TF–IDF – фундаментальные подходы, с которых начинались NLP, поисковые системы и анализ текста. А заодно реализуем поиск похожих документов на чистом PHP без библиотек.

👁 Image

stas_makarov 13 мая в 09:51

Process mining — это стратегическая основа, которой не хватает вашему корпоративному AI‑проекту

Простой

14 мин

6.8K

Искусственный интеллектData Mining * Анализ и проектирование систем * Исследования и прогнозы в IT *

Мнение

Перевод

👁 Image

Самое дорогое предложение в корпоративных технологиях — это «мы можем начать внедрение в следующем квартале», и я слышал его так часто, что оно уже снится мне.

Корпоративный AI съедает бюджеты с такой скоростью, что даже предприниматель из пузыря eCommerce 1996 года пустил бы скупую, достойную слезу. Во многих организациях бизнес-результаты от AI настолько скромны, что их можно разглядеть только под микроскопом. При этом счета за вычисления вполне реальны, и даже если вы не участвуете в моде на максимизацию токенов, годовой контракт с провайдером инференса и ваши Azure AI Foundry, WatsonX, Vertex, Bedrock или Einstein — очень и очень реальны. А вот трансформация, то есть фактический измеримый сдвиг в том, как работает компания, приходит с опозданием — где-то между третьей переработкой дорожной карты и тем руководителем, который продвигал всю инициативу и теперь тихо переведен на другую роль без пресс-релиза.

Я наблюдал, как этот сценарий повторяется с такой регулярностью, что это было бы впечатляюще, если бы не обходилось так дорого. Вот как обычно все происходит . . .

👁 Image

enamored_poc 4 мая в 08:31

Изучаем машинное обучение scikit-learn за одну статью: от понимания API до боевого пайплайна

Простой

11 мин

8.8K

Python * Программирование * Машинное обучение * Big Data * Data Mining *

Туториал

👁 Image

Осваиваем scikit-learn за 20 минут 🚀 Выкатил на Хабр гайд для тех, кто хочет понять классический ML на Python без воды. Внутри: — Главный секрет библиотеки (.fit, .predict, .transform) — Как не обмануть себя при оценке модели — Сборка правильного Pipeline, как у мидлов Залетайте читать и забирать шаблоны кода.

2 3 ...

116 117

URL: https://habr.com/ru/hubs/data_mining/articles/

⇱ Data Mining — Глубинный анализ данных / Хабр

Data Mining *

Тихая-тихая мировая революция. Мы сделали модель распознавания для любых задач компьютерного зрения – и выше уровня SOTA

Книга: «Анализ данных с LLM. Текст, таблицы, изображения и аудио»

От имени Габенбота: измеряем во сколько обошёлся призыв оставить отзыв

Мы — другие. Компьютерное зрение без миллионов параметров: практический разрыв SOTA

Как я собрал эталонный Data Engineering проект: ClickHouse, Kafka, Spark, dbt, Airflow и Superset за одну команду

raFTI: как сопоставлять «хаотичные» названия вин

Критерии выживания и случайность — 5

Энтропия, которая измеряет порядок: IH-анализ находит закономерности в разнотипных данных

Почему вы тратите время не на переговоры, а на чужую внутреннюю драму. Как проходят переговоры с крупными компаниями

RAG без downtime: настраиваем инкрементальное обновление документов на Qdrant и LangChain

Как мы анализировали поведение пользователей Яндекс Музыки на 50 млн событий

ИИ-боты сканируют даже логи TLS-сертификатов. Любая информация используется для обучения LLM

Математика кластеров: разбираемся в умной кластеризации данных на примере нашей системы поиска аномалий в логах. Часть 1

ИИ в тупике, потому что его строят на неверных абстракциях, игнорируя важность зрительного восприятия

Ваша модель показывает 95% accuracy и при этом бесполезна: метрики для несбалансированных классов

Как создать свой бенчмарк: 6 уроков с туториала NeurIPS

Насколько многомерным может быть многомерный точный индекс?

AI для PHP-разработчиков. Часть 6: Bag of Words и TF–IDF – как компьютер превращает текст в математику

Process mining — это стратегическая основа, которой не хватает вашему корпоративному AI‑проекту

Изучаем машинное обучение scikit-learn за одну статью: от понимания API до боевого пайплайна