Открытый курс машинного обучения. тема 1. первичный анализ данных с pandas

Термины

Основные термины определяются, в частности, в ГОСТ Р ИСО 8000-2-2019 «Качество данных. Часть 2. Словарь».

Совокупность (набор данных, data set) — логически значимая группа данных.

Метаданные (metadata) — данные, определяющие и описывающие другие данные.

Качество данных (data quality) — степень, с которой набор характеристик, присущих данным, отвечает конкретным требованиям с точки зрения их применения. Неправильно выстроенные уровни качества данных непосредственно влияют на успех проекта: можно либо задать слишком высокий уровень и не достигнуть его, либо установить слишком низкий уровень и тогда будет потерян смысл системы аналитики.

Управление качеством данных (data quality management, DQM) — согласованная деятельность по контролю и управлению структурой, имеющей непосредственное отношение к качеству данных, обеспечение соответствия данных целям их использования с поддержанием полноты, точности, корректности и своевременности.

Верификация (verification) — подтверждение посредством представления объективных свидетельств того, что установленные требования выполнены.

Полнота и завершенность данных (data completeness) — качество всех имеющихся у пользователя данных, которыми он владеет на определенный момент. Полнота характеризует подтвержденную достаточность данных для достижения конкретной цели.

Авторитетный источник данных (authoritative data source) — владелец процесса, производящего данные.

Утвержденное эталонное значение (accepted reference value) — значение, применяемое в качестве согласованной ссылки при сравнении данных (реестр).

Истинное значение (true value) — значение параметров характеристики какого-либо объекта в определенных условиях.

Качество данных — комплексная характеристика, которую присваивают источникам или наборам данных для их сравнения и использования в конкретных целях. Нельзя говорить о качестве данных в отрыве от цели их использования — эта характеристика строится с учетом множества параметров, начиная от таких простых, как объем данных, и заканчивая такими сложными, как стилистика текста на естественном языке. При оценке качества важны следующие параметры: непротиворечивость — отсутствие ошибок, корректность и пригодность для достижения цели (процент ошибочно введенных данных, процент доказанных ошибок и пр.); актуальность — связанность данных с конкретным моментом времени (дата последнего обновления, средняя дата набора и пр.).

Для большинства типичных применений имеются готовые метрики — всевозможные сборки в одну оценку отдельных характеристик данных, а также популярные приложения для работы с конкретными наборами и источниками данных. Однако, когда итоговый рабочий набор собирается, например, из четырех, и при этом один взят из открытых источников, другой — стандартный справочник, третий — корпоративные данные, а четвертый — исторические данные о продажах, могут возникнуть проблемы. У всех источников разные характеристики качества, и при их взаимной гармонизации надо знать, как изменяются эти характеристики, что происходит при иерархическом выстраивании данных и когда имеются связи «многие ко многим», а также выявлять ошибки на верхних уровнях иерархии. Нельзя говорить, что при сборе наборов разного качества получится нечто среднее.

Цель проверки кодов маркировки

В общем случае успешное выполнение операции в ИС МП «Честный знак» (честныйзнак.рф) возможно лишь при определенном статусе и определенном владельце кодов маркировки. Например, для продажи маркированного товара код маркировки должен находиться в статусе «В обороте», а владельцем должен быть продавец продукции. Из общего правила могут быть исключения в течение переходных периодов для товарных категорий, у которых они определены (например, табачная продукция, выпущенная до 01.07.2020, подробнее см. далее). Если в ИС МП будут переданы коды с неверным статусом или владельцем, то операция выполнена не будет. Коды не перейдут к получателю или не будут выведены из оборота.

В программы 1С встроены проверки кодов маркировки, которые предоставляют пользователю информацию о текущем статусе и владельце кода маркировки непосредственно из программы.

Задача этих инструментов — предупредить пользователя о возможных проблемах как можно раньше, до фактического выполнения операции, на этапе подготовки документов, когда решать возникающие вопросы проще. Также эти инструменты позволяют получать информацию непосредственно из программы 1С, исключая необходимость использования дополнительного внешнего программного обеспечения.

Настройка проверки кодов маркировки в программе 1С

В форме НСИ и администрирование — Администрирование — Интеграция с ИС МП (обувь, одежда, табак…) — Настройки сканирования кодов маркировки задается порядок обработки и контроля кодов маркировки. В частности, предусмотрена возможность Запрашивать данные сервиса для контроля статусов и владельца кодов маркировки (флаги Контролировать статусы кодов маркировки и Контролировать владельцев кодов маркировки соответственно), рис. 1.

Для операций и товарных групп можно задать исключения. Ссылки для настройки исключений выводятся рядом с настройками Контролировать статусы кодов маркировки и Контролировать владельцев кодов маркировки при установке соответствующих флагов (см. рис. 1). После настройки исключений в ссылке указываются настроенные исключения.

Рис. 1

Исключения позволяют более гибко настроить проверки в течение переходного периода, когда еще не все участники оборота обязаны отражать операции с маркируемой продукцией. В таком случае проверка по отдельным операциям для отдельных товарных групп может оказаться излишней.

Отключить контроль статусов и контроль владельцев можно временно, на сеанс работы с формой Подбор и проверка маркируемой продукции в меню Еще указанной формы (рис. 2).

Рис. 2

Указанные настройки касаются только проверок на стороне программы 1C, не влияют на выполнение проверок на стороне Центра развития перспективных технологий (ЦРПТ, оператора системы маркировки) и не снимают ответственности, связанной с оборотом маркируемой продукции.

Классификация данных

С точки зрения управления первичные данные обычно делят на четыре класса:

  • Мастер-данные (master-data) определяют ключевые, представляющие особую ценность для организации или бизнеса и относительно редко изменяемые сущности.
  • Разделяемые справочники (reference data) систематизируют и классифицируют другие данные, а также связывают между собой данные различных организаций. Сегодня на эту роль претендуют открытые данные (open data) любых уровней — от федеральных до местных.
  • Оперативные (транзакционные) данные (transactional data) отражают информацию о ходе исполнения бизнес-процессов.
  • Исторические данные (historical data) образованы из прошлых версий мастер-данных, разделяемых справочников и транзакционных данных, возникших после завершения соответствующих бизнес-процессов. Такие данные явно привязаны ко времени свершения с указанием периода актуальности для записей справочников и реестров, конкретной исторической глубины. По сути, исторические данные — это один из важнейших ресурсов компании или организации, такие данные купить нельзя.

Все качественные данные в конечном итоге должны становиться частью знаний (knowledge) с формально описанной семантикой (рис. 1), что и позволяет наиболее эффективно строить интеллектуальные системы, а не просто автоматизировать бизнес-процессы. Именно качество данных определяет качество интеллектуальных методов анализа данных.

Анализ проблем контроля кодов маркировки

При проверке поступившей маркированной продукции часто возникают следующие вопросы: в форме проверки поступившего маркированного товара у покупателя указано, что текущим владельцем является сам покупатель. Это означает, что поступление этих кодов маркировки уже было оформлено. Например, уже подтвержден электронный документ без проверки, подтверждение сделано в личном кабинете ИС МП «Честный знак» или стороннем программном обеспечении. Также это может означать, что введенный в информационную базу 1С документ продублирован. Проверка на этом этапе уже не имеет смысла — она должна выполняется до подтверждения поступления. Дополнительных действий с кодами маркировки в данном случае уже не требуется.

Если при проверке поступившей продукции или при подборе продукции при отгрузке в форме проверки указан ИНН третьей организации (не покупателя и не продавца), то, возможно, эта продукция произведена в течение переходного периода, когда производители уже были обязаны маркировать продукцию и представлять в информационную систему маркировки сведения о вводе в оборот, а обязанность предоставлять сведения об обороте маркируемой продукции для других участников оборота маркируемого товара еще не наступила. Это означает, что маркируемая продукция может не числиться за поставщиком на момент совершения операции. Но выполнять операции с такой продукцией можно. В этом случае нужно настроить исключения проверки кодов или временно отключить контроль непосредственно в форме подбора и проверки, как описано выше.

В остальных случаях нужно исследовать причины возникших ошибок отдельно по каждой операции. Возможно, поставщик отразил отгрузку ранее, чем оформил у себя поступление кодов, или, например, коды были заказаны и введены в оборот по одной организации, а отгружен товар от имени другой, аффилированной с первой. Первичный анализ можно выполнить в рабочем месте Проверка кодов маркировки, а далее обращаться к поставщику для совместного исследования, анализа и приведения документов в порядок.

Еще один из частых вопросов — неверное сопоставление кода маркировки карточке номенклатуры (и характеристике, если ведется) в информационной базе, например, в случае изменения номенклатуры или другой нормативно-справочной информации в процессе работы. Это сопоставление отражается в справочнике Штрикходы упаковок и товаров. Ссылка на элемент этого справочника для проверяемого кода маркировки отражается в рабочем месте Проверка кодов маркировки.

В случае системной ошибки при подборе и проверке кодов информации о текущем владельце и статусе может быть недостаточно, а для анализа необходимо привлекать специалиста обслуживающей организации или обращаться на линию поддержки. При этом специалистам для расследования необходим лог (история) запросов к ИС МП, который нужно направить специалистам вместе с подробным описанием проблемы. При проверке кодов из рабочего места Проверка кодов маркировки запись логов включается автоматически, ссылка открыть лог запросов выводится непосредственно в рабочем месте. В текстах некоторых ошибок добавляется гиперссылка с временным включением лога запросов и просмотра ранее включенного лога. Запись логов можно также включить вручную перед выполнением проблемной операции в рабочем месте Обмен с ИС МП (обувь, одежда, табак…) в группе см. также. Включение производится на определенное время: 5, 10 или 15 минут. Там же будет доступна ссылка Открыть, которая позволяет просмотреть лог в текстовом виде и сохранить его для передачи специалистам.

Базовые стандарты

Для исключения разночтений, при сборе простых характеристик нужной оценки качества данных применяются стандарты (начиная с ГОСТ 56215), регламентирующие понимание и применение терминов.

Стандарты группы ISO/TS 8000  и перевод (ГОСТ Р 56214-2014/ISO/TS 8000-1:2011 «Качество данных. Часть 1. Обзор» (docs.cntd.ru/document/1200114769)) — более 20 спецификаций, к которым сейчас активно добавляются новые:

a. части 1–99: «Качество общих данных»;

b. части 100–199: «Качество основных данных»;

c. части 200–299: «Качество данных в транзакциях»;

d. части 300–399: «Качество данных о продукции».

Принципы стандартов 8000:

качество применимо к данным, имеющим определенное назначение, учитывающимся при принятии какого-либо решения;

качество данных затрагивает нужные и подходящие данные, уместные в подходящем месте в подходящее время;

качество данных отвечает требованиям потребителя;

качество данных предотвращает повторение дефектов данных и сокращает избыточные расходы.

Международные стандарты группы ISO 25000 (iso25000.com) — это три главных стандарта: 25010, 25012 и 25040. Они определяют качество программного продукта с акцентом на общей модели качества данных, представленных в структурированном виде для информационной системы, а также критерии качества «продукта данных» как специального вида программного продукта.

Заключение

Работа с маркируемой продукцией в соответствии с актуальным законодательством, безусловно, повысила требования к выполнению операций с такими товарами, их документальному оформлению. Работа в новых, непривычных условиях может приводить к ошибкам участников оборота и вести к дальнейшим проблемам. Часть из этих ошибок являются типовыми и встречаются, по данным линии поддержки 1С, достаточно часто. Выше мы рассмотрели несколько примеров таких ошибок. В других случаях требуется дополнительное исследование ошибок и анализ причин их возникновения. Также мы рассмотрели инструменты, включенные в программы 1С, для оперативного решения таких ситуаций. При отлаженных процессах внутри компании и во взаимодействии с другими участниками оборота вероятность таких ошибок сводится к минимуму, а встроенные инструменты позволяют их оперативно отслеживать и устранять.

О поддержке обязательной маркировки в учетных решениях «1С:Предприятие 8» можно узнать в разделе «Маркировка» в «Мониторинге законодательства».

Рейтинг
( Пока оценок нет )
Editor
Editor/ автор статьи

Давно интересуюсь темой. Мне нравится писать о том, в чём разбираюсь.

Понравилась статья? Поделиться с друзьями:
Эксперт по товарам
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: