Работа с датасетами
В этом руководстве описан полный процесс работы с датасетами в нашей системе — от создания до получения готового результата для ваших моделей.
Общий процесс
Работа с датасетом состоит из нескольких ключевых этапов:
- Создание и настройка: Вы задаёте основные параметры, загружаете изображения и формулируете требования к разметке.
- Разметка: Вы можете доверить разметку нашим специалистам или выполнить её самостоятельно в ручном режиме.
- Получение результата: После завершения разметки вы скачиваете готовый датасет в удобном формате.
- Использование: Готовый датасет можно использовать для обучения и валидации моделей машинного обучения.
Этап 1: Создание и настройка датасета
На этом этапе вы подготавливаете всё необходимое для начала разметки.
-
Основные настройки:
- Нажмите "Создать датасет".
- Введите название и выберите тип разметки (прямоугольник, полигон или маска).
⚠️ Важно: Тип разметки нельзя изменить после запуска.
-
Настройка меток:
- Добавьте метки (классы), которые нужно будет находить на изображениях (например: "автомобиль", "пешеход").
- Для каждой метки можно указать название и описание.
-
Инструкции для разметчиков:
- Предоставьте чёткие инструкции: опишите, что и как размечать, и приложите примеры. Чем понятнее инструкция, тем качественнее будет результат.
- Если планируете выполнить разметку самостоятельно, инструкцию можно не указывать.
-
Загрузка изображений:
- Загрузите файлы в формате JPG или PNG. Вы можете перетащить их, выбрать на диске или загрузить целую папку.
После выполнения этих шагов ваш датасет будет в статусе "Черновик". Вы можете вернуться к его редактированию в любой момент перед запуском.

Этап 2: Разметка данных
Когда все настройки готовы и изображения загружены, можно запускать процесс разметки. У вас есть два варианта:
Вариант А: Автоматическая разметка
Этот вариант подходит, если вы хотите доверить работу профессиональным разметчикам.
- Нажмите "Запустить разметку".
- Система отправит ваше задание в работу. Вы сможете отслеживать прогресс в реальном времени.
- Статус датасета изменится на "В работе".
Вариант Б: Самостоятельная разметка
Этот вариант идеален, если вы хотите разметить данные самостоятельно.
- Нажмите "Запустить разметку в ручном режиме".
- Вы получите доступ к редактору, где сможете вручную наносить разметку на каждое изображение в соответствии с созданными метками.
- Этот режим также позволяет вам проверять и корректировать уже размеченные данные.
⚠️ Внимание: После запуска разметки (в любом из режимов) нельзя изменить настройки меток, инструкции или добавить новые изображения без возобновления обработки.
Этап 3: Получение и проверка результата
После того как все изображения будут обработаны, датасет перейдёт в статус "Готово".
-
Просмотр статистики и результатов:
- Изучите статистику по размеченным объектам и распределение по меткам.
- Просмотрите любое изображение с нанесённой разметкой, чтобы убедиться в качестве. Используйте фильтры для удобного поиска.
-
Скачивание датасета:
- Нажмите кнопку "Скачать".
- Вы получите ZIP-архив, содержащий:
- Исходные изображения.
- Файл с аннотациями в формате COCO JSON.
- Дополнительные файлы для масок (если использовался этот тип разметки).

Этап 4: Использование датасета
Скачанный датасет полностью готов к использованию. Файл аннотаций в формате COCO JSON является стандартом для многих фреймворков машинного обучения, таких как PyTorch и TensorFlow.
Вы можете использовать его для:
- Обучения моделей детекции или сегментации объектов.
- Валидации и тестирования уже обученных моделей.
- Анализа данных.
Дополнительные возможности
Копирование датасета
- Создаёт новый датасет с такими же настройками. Полезно для создания похожих проектов.
Возобновление обработки
- Переводит завершённый датасет обратно в режим редактирования, позволяя добавить новые изображения.
Оценка качества
- После завершения автоматической разметки вы можете поставить оценку работе, чтобы помочь нам улучшить сервис.
Техническая поддержка
При возникновении проблем обратитесь в службу поддержки через интерфейс системы. Сохраните скриншоты ошибок для более быстрого решения.