Добавить
Уведомления

Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs

(https://arxiv.org/abs/2601.17058v1) Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs Подготовка данных направлена на очистку необработанных наборов данных от шума, выявление взаимосвязей между различными наборами данных и извлечение из них ценной информации, что крайне важно для широкого спектра приложений, ориентированных на данные. Обусловленные (i) растущим спросом на данные, готовые к применению (например, для аналитики, визуализации, принятия решений), (ii) все более мощными методами больших языковых моделей (LLM) и (iii) появлением инфраструктур, облегчающих гибкое создание агентов (например, с использованием Databricks Unity Catalog), методы, улучшенные LLM, быстро становятся преобразующей и потенциально доминирующей парадигмой для подготовки данных. Исследовав сотни недавних литературных работ, данная статья представляет систематический обзор этой развивающейся области, сосредоточиваясь на использовании методов LLM для подготовки данных к разнообразным последующим задачам. Во-первых, мы характеризуем фундаментальный сдвиг парадигмы: от конвейеров, основанных на правилах и специфичных для модели, к рабочим процессам подготовки, управляемым подсказками, контекстно-зависимым и агентным. Далее мы представляем таксономию, ориентированную на задачи, которая организует область в три основные задачи: очистка данных (например, стандартизация, обработка ошибок, импутация), интеграция данных (например, сопоставление сущностей, сопоставление схем) и обогащение данных (например, аннотирование данных, профилирование). Для каждой задачи мы рассматриваем репрезентативные методы и выделяем их соответствующие сильные стороны (например, улучшенная обобщающая способность, семантическое понимание) и ограничения (например, непомерная стоимость масштабирования LLM, постоянные галлюцинации даже у продвинутых агентов, несоответствие между передовыми методами и слабой оценкой). Кроме того, мы анализируем часто используемые наборы данных и метрики оценки (эмпирическая часть). Наконец, мы обсуждаем открытые исследовательские проблемы и намечаем перспективную дорожную карту, которая подчеркивает масштабируемые системы LLM-данных, принципиальные подходы к проектированию надежных агентных рабочих процессов и надежные протоколы оценки.

Иконка канала Paper debate
4 подписчика
12+
3 просмотра
месяц назад
12+
3 просмотра
месяц назад

(https://arxiv.org/abs/2601.17058v1) Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs Подготовка данных направлена на очистку необработанных наборов данных от шума, выявление взаимосвязей между различными наборами данных и извлечение из них ценной информации, что крайне важно для широкого спектра приложений, ориентированных на данные. Обусловленные (i) растущим спросом на данные, готовые к применению (например, для аналитики, визуализации, принятия решений), (ii) все более мощными методами больших языковых моделей (LLM) и (iii) появлением инфраструктур, облегчающих гибкое создание агентов (например, с использованием Databricks Unity Catalog), методы, улучшенные LLM, быстро становятся преобразующей и потенциально доминирующей парадигмой для подготовки данных. Исследовав сотни недавних литературных работ, данная статья представляет систематический обзор этой развивающейся области, сосредоточиваясь на использовании методов LLM для подготовки данных к разнообразным последующим задачам. Во-первых, мы характеризуем фундаментальный сдвиг парадигмы: от конвейеров, основанных на правилах и специфичных для модели, к рабочим процессам подготовки, управляемым подсказками, контекстно-зависимым и агентным. Далее мы представляем таксономию, ориентированную на задачи, которая организует область в три основные задачи: очистка данных (например, стандартизация, обработка ошибок, импутация), интеграция данных (например, сопоставление сущностей, сопоставление схем) и обогащение данных (например, аннотирование данных, профилирование). Для каждой задачи мы рассматриваем репрезентативные методы и выделяем их соответствующие сильные стороны (например, улучшенная обобщающая способность, семантическое понимание) и ограничения (например, непомерная стоимость масштабирования LLM, постоянные галлюцинации даже у продвинутых агентов, несоответствие между передовыми методами и слабой оценкой). Кроме того, мы анализируем часто используемые наборы данных и метрики оценки (эмпирическая часть). Наконец, мы обсуждаем открытые исследовательские проблемы и намечаем перспективную дорожную карту, которая подчеркивает масштабируемые системы LLM-данных, принципиальные подходы к проектированию надежных агентных рабочих процессов и надежные протоколы оценки.

, чтобы оставлять комментарии