VOOZH about

URL: https://habr.com/ru/hubs/data_mining/articles/

⇱ Data Mining — Глубинный анализ данных / Хабр


64K+
Охват за 30 дней

Data Mining *

Глубинный анализ данных

11,85
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

Тихая-тихая мировая революция. Мы сделали модель распознавания для любых задач компьютерного зрения – и выше уровня SOTA

7 мин
9K
Обзор
Recovery Mode

Практический эффект TAPe+ML v2 сейчас лучше всего видно в object detection. Так, TAPe+ML v2 на конкретной практической задаче рудозасорения (см главу про промышленный пилот), без COCO-головы, на новом backbone, основанном на данных клиента, дает точность детекции 96%, по mAP50 – точность  90% и по mAP50–95 – 85%. То есть TAPe‑детекция выходит на уровень RF‑DETR по mAP50 при числе параметров меньше 100 тысяч против порядка 127 миллионов у RF‑DETR 2XL.

Мы применили последовательность улучшений, которые не раскрываем публично как ноу‑хау, но их итоговые эффекты можно зафиксировать на COCO. На разных этапах получались следующие значения:

Божечки
+12

Книга: «Анализ данных с LLM. Текст, таблицы, изображения и аудио»

2 мин
9.6K

Привет, Хаброжители! Большие языковые модели (LLM) позволяют оптимизировать и ускорить решение практически любой задачи в области анализа данных. Освойте методы для анализа больших массивов текстовых, табличных и графовых данных, изображений, видео и многого другого с помощью понятных запросов на естественном языке и нескольких строк кода на Python.

Читать далее
+10

От имени Габенбота: измеряем во сколько обошёлся призыв оставить отзыв

Средний
11 мин
7.1K
Аналитика
Перевод

Игра Far Far West просила игроков оставить отзыв прямо через внутриигрового NPC — прямое нарушение правил Steam. Мы выгрузили данные и прогнали через модели детекции аномалий, чтобы посчитать, сколько отзывов оказались «добавленными». Спойлер: от 27% до 50%.

Читать далее
+7

Мы — другие. Компьютерное зрение без миллионов параметров: практический разрыв SOTA

Простой
3 мин
5.6K
Recovery Mode

Краткий манифест-тизер; запомните этот твит.

Повторяем как мантру, чтобы она дошла до как можно большего количества людей. У YOLO, семейства DINO и прочих сетей - сотни миллионов и миллиардов параметров для решения задач детекции, классификации, сегментации. На фундаменте этих сетей по всему миру рождаются сервисы, которые позволяют решать какие-то задачи детекции, классификации, сегментации. 

У нас есть своя собственная универсальная модель компьютерного зрения – со своей собственной архитектурой – со своей собственной “математикой”. И нам для решения задач детекции, классификации, сегментации нужны не сотни и даже не десятки миллионов параметров, и уж тем более не миллиарды, а меньше 100 тыс. А точность при этом в худшем случае сопоставима с SOTA, а в обычном – превосходит SOTA.

Но как же так? С одной стороны миллионы и миллиарды параметров, а с другой – меньше 100 тыс. Это же гигантская разница. Что происходит? Что все это значит?

Это значит, что мы про что-то другое
0

Как я собрал эталонный Data Engineering проект: ClickHouse, Kafka, Spark, dbt, Airflow и Superset за одну команду

Средний
10 мин
12K
Туториал

Меня зовут Андрей, я работаю с данными. И так получается, что на реальных проектах у меня никогда не было возможности собрать идеальный, на мой взгляд стек. Поэтому я собрал его в идеальном пет проекте.

Стать инженером данных
+8

raFTI: как сопоставлять «хаотичные» названия вин

Средний
6 мин
6.3K

Привет, я Вит Глинка, backend программист в компании Deeplace, в которой среди прочего активно работают в области winetech. Хочу презентовать нашу последнюю фичу в этой области — raFTI.v5.3 — систему полнотекстового поиска.

Разобраться в вине
+6

Критерии выживания и случайность — 5

Сложный
27 мин
11K

Продолжаем data mining путешествие в погоне за удачей. Адаптивность — последний фактор в нашем разборе, хотя и не последняя статья серии. Если интеллект отвечает на вопрос «насколько у человека мощный когнитивный аппарат», то адаптивность отвечает на вопрос «насколько устойчиво он функционирует под давлением и насколько быстро восстанавливается». В популярной литературе адаптивность считается едва ли не главным фактором жизненного успеха. Данные показывают более скромную, фрагментированную и в нескольких местах контринтуитивную картину.

Читать далее
+8

Энтропия, которая измеряет порядок: IH-анализ находит закономерности в разнотипных данных

Средний
8 мин
7K
Аналитика

Обычно энтропия — мера хаоса. Но наш сегодняшний герой — IH-анализ (Information-Entropy analysis) — вычисляет информационную энтропию, чтобы измерить обратное: степень детерминированности связи между признаками и целевой переменной. Мы будем вычислять: насколько утверждение «если А, то Б, и, если не А, то и не Б» выполняется в наших данных устойчиво. Одновременная работа с категориальными и количественными признаками нас не затруднит.

Читать далее
+2

Почему вы тратите время не на переговоры, а на чужую внутреннюю драму. Как проходят переговоры с крупными компаниями

Простой
6 мин
6.8K
Мнение

Статья о наболевшем.

Есть удобная, почти благородная формулировка: «рынок плохо воспринимает новые технологии». Она красивая, интеллигентная и вежливая, поэтому почти наверняка неправильная. Но проблема, конечно, вовсе не в рынке, а в том, что до рынка ещё надо добраться. А до него, как правило, сидит цепочка людей, которые либо не понимают, что им показывают, либо понимают слишком мало, но с очень большим апломбом.

Разделить боль
+2

RAG без downtime: настраиваем инкрементальное обновление документов на Qdrant и LangChain

Средний
12 мин
7.4K
Туториал

PM: Нам нужно актуализировать базу знаний для ИИ-ассистента,
там изменилась инструкция по смене пароля.
DevOps: Не проблема, сейчас запущу скрипт, через два часа всё обновится.
Предупреди Заказчика о недоступности сервиса.

Знакомая ситуация? Полная зачистка векторной базы и реиндексация всех имеющихся документов с остановкой сервиса - решение простое и надёжное, но «прощается» только на этапе прототипа.

В продакшене могут быть сотни тысяч документов, живые пользователи и SLA с требованием по доступности сервиса. Обновилась одна, пусть и очень важная инструкция, и сервис недоступен два часа. А если таких обновлений десятки в неделю? Давайте исправим это и напишем ETL-скрипт, который умеет добавлять, обновлять и удалять отдельные документы без остановки сервиса.

Читать далее
+2

Как мы анализировали поведение пользователей Яндекс Музыки на 50 млн событий

Средний
12 мин
8K
Аналитика

Музыкальные стриминговые сервисы давно перестали быть просто каталогами треков. Сегодня значительная часть пользовательского опыта формируется рекомендательными системами: персональными подборками, автоматическими плейлистами, «волнами» и похожими механизмами. Пользователь может сам искать музыку, добавлять треки в библиотеку и слушать знакомых артистов, а может переходить по рекомендациям алгоритма. Возникает естественный исследовательский вопрос: рекомендации действительно расширяют музыкальный кругозор или, наоборот, закрепляют уже существующие предпочтения пользователя?

Читать далее
+3

ИИ-боты сканируют даже логи TLS-сертификатов. Любая информация используется для обучения LLM

4 мин
20K

Согласно статистическому отчёту State of AI Traffic от Human Security, за последний год резко увеличилась активность ИИ-агентов, ботов и ИИ-инструментов в интернете.

Например, трафик от ИИ-агентов увеличился почти в 80 раз (на 7851%), трафик от ИИ-скраперов — на 597%. Весь ИИ-трафик за последний год увеличился на 187%, а в целом он растёт в восемь раз быстрее, чем человеческий.

Читать далее
+8

Математика кластеров: разбираемся в умной кластеризации данных на примере нашей системы поиска аномалий в логах. Часть 1

Средний
15 мин
8K

Привет, Хабр! Меня зовут Андрей Басов, я руководитель команды технической поддержки стрима корпоративных продуктов и сервисов в MWS, занимаюсь технической поддержкой и сопровождением продуктов линейки Partner Experience Platform.

В прошлом материале я рассказал о том, как мы с коллегами попробовали искать аномалии в логах наших систем с помощью методов машинного обучения. Сейчас мы провели работу над ошибками, все переработали (архитектуру, математический аппарат), внедрили генеративную LLM и Principal Component Analysis — и в итоге создали новую систему анализа жизни продуктов, которая самостоятельно балансирует, обучается, выявляет аномалии, паттерны и даже заглядывает в будущее.

Но не только сама разработка этой «живой» системы стала для меня в проекте вызовом. Мы столкнулись с тем, что некоторые коллеги из разных подразделений не всегда понимают, чем конкретно мы занимаемся и как это все работает. Не всегда разделяют границы ИИ между машинным обучением и генеративным интеллектом.

Поэтому я открываю серию материалов о том, как математика способна превратить пассивную кластеризацию в активную и самосознающую систему: от основ байесовской адаптации, динамических границ и топологического анализа до внедрения в практику. Разбираться будем на примере нашей новой архитектуры.

Читать дальше
+18

ИИ в тупике, потому что его строят на неверных абстракциях, игнорируя важность зрительного восприятия

Простой
9 мин
7.2K
Мнение
Recovery Mode

Индустрия строит модели на абстракциях, которые слабо связаны с реальной работой мозга и зрительного восприятия, в итоге платит за это дикой ценой в энергии и, возможно, принципиальными ограничениями. Но зрительное восприятие важнее любых архитектур ИИ.

История науки показывает, что прорывы происходят тогда, когда исследователь возвращается к конкретным примерам мира — как Хопфилд, который соединил физику твёрдого тела с наблюдениями нейробиологов. Если хотим сдвига, надо вернуться к тому, как устроено наше зрение — как к самому мощному и постоянно проверяемому «движку» обработки реальности.  Этим мы и успешно и занимаемся.

Узреть
0

Ваша модель показывает 95% accuracy и при этом бесполезна: метрики для несбалансированных классов

Средний
8 мин
7.5K
Туториал

Модель может показывать 95–99% accuracy и при этом не решать задачу: особенно если редкий класс важнее всего для бизнеса. В статье разбираем, почему accuracy ломается на несбалансированных данных, как читать precision, recall и F1, зачем смотреть PR‑кривую и confusion matrix, а также как подбирать порог классификации с учетом стоимости ошибок.

Понять ошибки
+6

Как создать свой бенчмарк: 6 уроков с туториала NeurIPS

2 мин
5.7K
Туториал


Посмотрела Туториал NeurIPS «The Art of Benchmarking» — панель с авторами SWE-bench, GPQA и ведущими исследователями из Google DeepMind, NYU и Berkeley.
Вот мой конспект. Делюсь с вами, так как бенчмарки теперь не только про науку, но и про безопасность, регуляторику и миллиардные решения о деплое.

* Тирания метрик
Оказывается, любая метрика имеет honey spots, которые модель может хакнуть. Проблема в том, что текущая мета-оценка (корреляция Пирсона) эти точки не показывает. А если метрика становится еще и reward'ом при обучении — могут быть проблемы

* Про долговечность
Бенчмарки действуют только определенный период, и нередко - далеко не 10 лет. Всё насыщается. ImageNet продолжает быть полезным, потому что его используют для 10 разных задач (диффузия, CLIP, zero-shot). А большинство бенчмарков теряют актуальность, но продолжают кочевать по paper'ам еще 5 лет — просто потому, что их удобно цитировать. Это плохая практика.


* Субъективность — везде
Даже в классификации изображений люди расходятся. Две принципиально разные причины: (а) задача плохо задана (underspecification), (б) люди реально думают по-разному. Проблема краудворкинга: если не кэпировать ответы, вы получите не мнение популяции, а мнение Боба, который сделал 80% аннотаций.

* LLM как источник оценки — это очень опасно
Они коррелируют с людьми только на той выборке, на которой их калибровали(!). Модель становится умнее — распределение данных меняется — корреляция падает. А при генерации бенчмарков LLM имеют сильнейший self-bias (даже с независимой метрикой). Единственный корректный подход — заставить модель генерировать примеры, на которых она ошибается

Читать далее
-1

Насколько многомерным может быть многомерный точный индекс?

Средний
9 мин
9.4K

Вот, например, Milvius(DiskANN) рассчитан на вектора размерности до 32 768, но это приближенный поиск. Но как насчёт поиска точного?

В данной статье рассматривается работоспособность 1024 мерного индекса, хранилищем которого служит обычное B‑дерево (насколько вообще может быть обычным такое дерево). Используемый диск — вполне себе «железный» старый добрый WD Purple, оперативная память сознательно ограничена 8 Гб. Можно ли что‑то из этого выжать на рядовом десктопе за приемлемое время?

Читать далее
+5

AI для PHP-разработчиков. Часть 6: Bag of Words и TF–IDF – как компьютер превращает текст в математику

Средний
10 мин
12K
Аналитика

Когда мы говорим, что нейросети "понимают текст", легко забыть: компьютер изначально вообще не понимает слова. Для него текст – это набор чисел, статистики и векторов.

В этой статье разберём Bag of Words и TF–IDF – фундаментальные подходы, с которых начинались NLP, поисковые системы и анализ текста. А заодно реализуем поиск похожих документов на чистом PHP без библиотек.

Читать далее
+6

Process mining — это стратегическая основа, которой не хватает вашему корпоративному AI‑проекту

Простой
14 мин
6.8K
Мнение
Перевод

Самое дорогое предложение в корпоративных технологиях — это «мы можем начать внедрение в следующем квартале», и я слышал его так часто, что оно уже снится мне.

Корпоративный AI съедает бюджеты с такой скоростью, что даже предприниматель из пузыря eCommerce 1996 года пустил бы скупую, достойную слезу. Во многих организациях бизнес-результаты от AI настолько скромны, что их можно разглядеть только под микроскопом. При этом счета за вычисления вполне реальны, и даже если вы не участвуете в моде на максимизацию токенов, годовой контракт с провайдером инференса и ваши Azure AI Foundry, WatsonX, Vertex, Bedrock или Einstein — очень и очень реальны. А вот трансформация, то есть фактический измеримый сдвиг в том, как работает компания, приходит с опозданием — где-то между третьей переработкой дорожной карты и тем руководителем, который продвигал всю инициативу и теперь тихо переведен на другую роль без пресс-релиза.

Я наблюдал, как этот сценарий повторяется с такой регулярностью, что это было бы впечатляюще, если бы не обходилось так дорого. Вот как обычно все происходит . . .

Читать далее
+3

Изучаем машинное обучение scikit-learn за одну статью: от понимания API до боевого пайплайна

Простой
11 мин
8.8K
Туториал

Осваиваем scikit-learn за 20 минут 🚀 Выкатил на Хабр гайд для тех, кто хочет понять классический ML на Python без воды. Внутри: — Главный секрет библиотеки (.fit, .predict, .transform) — Как не обмануть себя при оценке модели — Сборка правильного Pipeline, как у мидлов Залетайте читать и забирать шаблоны кода.

Читать далее
+5
1
23 ...
Туда