Skip to content

Definitions

Термин Описание
  • API: Application Programming Interface
  • Morphism: Система класса Feature Store, осуществляющая загрузку, инвентаризацию и стандартизированное предоставление данных для использования в ML разработке
  • CSV: Comma-separated values
  • Data Quality : Подсистема контроля качества данных
  • DE: Data Engineer
  • DS: Data Scientist
  • DWH / КХД: Data Warehouse (корпоративное хранилище данных)
  • ETL: Extract-Transform-Load - процесс извлечения данных из источника, их трансформации и последующей загрузки в приёмник
  • FS: Feature Store
  • GUI: Graphical User Interface (графический интерфейс)
  • ML: Machine Learning (машинное обучение)
  • Pandas Dataframe: Формат представления табличных данных средствами библиотеки Pandas
  • PK: Primary Key (первичный ключ)
  • S3: Amazon S3 (файловое хранилище)
  • SDK: Software Development Kit
  • SQL: Structured Query Language
  • Актуальный срез: Срез данных, актуальных на момент запроса
  • Алиас / Alias: Название компонента конфигурации датасета (переменная / агрегирующая функция / условие фильтрации), используемое при генерации физического названия поля датасета
  • БД: База данных
  • Вектор: Датасет
  • Дата актуальности: Дата, на которую актуальны данные
  • Датасет: Материализованный набор данных (таблица в реляционной БД) для использования в модели машинного обучения
  • Каталог: Реестр зарегистрированных сущностей - каталог переменных, каталог датасетов и т.д.
  • Ключ сущности: Поле для связи данных внутри приложения - CUSTOMER_RK (ключ клиента), AGREEMENT_RK (ключ договора) и т.д.
  • Маппинг: Соотнесение (например, полей источника на ключи сущности)
  • Переменная / Фича: Логическая сущность, объединяющая различные алгоритмы её расчёта (версии переменных) - пол клиента, дата рождения, признак VIP и т.д.
  • Пользовательская формула: Макрос, позволяющий применять дополнительную логику для расчёта полей датасета. Задаётся в виде кода в стандартизированном формате
  • Сегмент: Список ключей, по которому производится расчёт датасета
  • Сущность: Сущность, в разрезе которой рассчитаны данные - клиент, договор и т.д. Объединяет под собой один или несколько ключей сущности
  • Таймфрейм / Timeframe: Временное окно для агрегации данных
  • Тонкий клиент / PyClient: Подключаемая в Jupyter Notebook библиотека для работы с функциями приложения через API