Glossary of terms for Data Warehousing, Business Intelligence, OLAP, Data Mining. Глоссарий терминов по технологиям хранилищ данных, бизнес анализу (BI), Оперативному Анализу Данных (OLAP), Обнаружению/Добыче данных (Data Mining).
- Ad Hoc Query
-
Ad Hoc Query is a request for information that is normally fabricated and run a single time and cannot be anticipated in advance. It consists of an SQL statement that has been constructed by a knowledgeable user or through the use of a data access tool.
- Aggregate Data
-
Aggregate Data are data collected and reported as a sum or another aggregate function over a dimension, for example, over a given time period (monthly or quarterly).
- Aggregation
-
Aggregation is the process by which data values are collected with the intent to manage the collection as a single unit. For example, the combination of fields for the same customer extracted from multiple sources.
b - Batch Windows
-
Batch Windows is the time required to run the ETL process from beginning to end.
- Business Intelligence
-
Term 'Business Intelligence' usually describes the result of comprehensive analysis of detailed business data. Also this term, Business Intelligence, can describe solution or environment that includes databases, application technologies, and analysis practices. Business users receive data that is reliable, consistent, understandable, easily manipulated and timely in this environment by using these analysis practices.
Термин Business Intelligence обычно описывает результат всестороннего анализа детальных деловых данных. Включает, как технологии программного обеспечения и баз данных, так и методы анализа. Иногда используются как синоним «поддержки принятия решений», хотя Business Intelligence технически намного шире.
Synonyms: BI
Для термина Business Intelligence нет однозначного перевода, все зависит от контекста, в котором эта фраза употребляется. В одних случаях это можно перевести на русский язык, как «бизнес-анализ», в других требуется более широкая трактовка наподобие: «комплекс программных продуктов и методов их применения, позволяющий извлекать полезную информацию из различных источников и предоставлять ее в удобном виде для анализа».c - Change Data Capture
-
Change Data Capture is the process of capturing changes made to a production data source. There are several methods to perform Change Data Capture, for example, by reading the log file of the source database system or comparing source and target tables. CDC consolidates units of work, ensures data is synchronized with the original source, and reduces data volume in a data warehousing environment.
Synonyms: CDCd - Data Management
-
Data Management includes controlling, protecting, and facilitating access to data in order to provide information consumers with timely access to the data they need. The functions provided by a database management system.
* * *
There can be different definitions of Data management:- The business function that develops and executes plans, policies, practices and projects that acquire,
control, protect, deliver and enhance the value of data and information.
See «data resource management», «information management»,
«information resource management», «enterprise information management». - A program for implementation and performance of the data management function.
- The field of disciplines required to perform the data management function.
- The profession of individuals who perform data management disciplines.
- In some cases, a synonym for a Data Management Services organization that performs data management activities.
- The business function that develops and executes plans, policies, practices and projects that acquire,
- Data Management Service
-
Data Management Services is an organization of data management professionals within IT performing data management functions. One or more units of data management professionals responsible for data management within the IT organization. A centralized DMS organization is sometimes known as a Data Management Center of Excellence (COE).
- Data Mart
-
Data Mart is a subset of the data resource, usually oriented to a specific purpose or data subject, that may be used to decision support.
Synonyms: DM - Data Mining
-
Data Mining is a technique using software tools geared for the user who typically does not know exactly what he's searching for, but is looking for particular patterns or trends. Data mining is the process of sifting through large amounts of data to produce data content relationships. It can predict future trends and behaviors, allowing businesses to make proactive, knowledge-driven decisions. This is also known as data surfing.
- Data Model
-
Data Model is a representation of the data describing real-world objects and the relationships between the objects, independent of any associated process. A data model includes the set of diagrams for each view along with the meta data defining each object in the model. A complete data model may also include state transition diagrams depicting each major entity lifecycle and value chain analysis linking the data model to processes, roles, organizations, goals, applications and projects. See conceptual data model (CDM), enterprise data model, logical data model (LDM), physical data model (PDM), semantic data model (SDM).
* * *
Data Model is a logical map that represents the inherent properties of the data independent of software, hardware or machine performance considerations. The model shows data elements grouped into records, as well as the association around those records. - Data Quality
-
Data Quality is the degree of excellence of data. High-quality data is stored according to data types, is consistent, not redundant, timely, complete, and well understood. Such data also follows business rules, corresponds to established domains, and satisfies the needs of the business. The user is satisfied with the validity of the data and the information derived from that data, and there are no duplicate records. For example, data quality ensures that a customer's name is spelled correctly and the address is correct.
- Data Vault
-
Data Vault is a detail oriented, historical tracking and uniquely linked set of normalized tables that support one or more functional areas of business. It is a hybrid approach encompassing the best of breed between 3rd normal form (3NF) and star schema. The design is flexible, scalable, consistent and adaptable to the needs of the enterprise. It is a data model that is architected specifically to meet the needs of today’s enterprise data warehouses.
***
Data Vault – набор уникально связанных нормализованных таблиц, содержащих детальные данные, отслеживающих историю изменений и предназначенных для поддержки одной или нескольких функциональных областей бизнеса. Это – гибридный подход, обобщающий лучшие свойства третьей нормальной формы (3NF) и схемы Звезда (Star schema). Прим.: Не путать с Oracle Data Vault. - Data Warehouse
-
Data Warehouse is a subject-oriented, integrated, nonvolatile, and time-variant collection of data in support of management’s decisions. The data warehouse contains granular corporate data.
Synonyms: DW, DWH
* * *
Data Warehouse a collection of integrated, subject-oriented databases designed to support the DSS function, where each unit of data is relevant to some moment in time. The data warehouse contains atomic data and lightly summarized data. - Derived Data
-
Derived Data is a new data element created from or composed of other data elements
j - Joint Application Development
-
TBD
Synonyms: JADm - Methodology
-
Methodology is a system of principles, methods, practices, and procedures applied to a
particular area of knowledge.o - Online Analytical Processing
-
On-Line Analytical Processing (OLAP) is a category of applications and technologies for collecting, managing, processing and presenting multidimensional data for analysis and management purposes.
Synonyms: OLAP, On-Line Analytical Processing
* * *
Online Analytical Processing (OLAP) is a «drilling down» on various data dimensions to gain a more detailed view of the data. For instance, a user might begin by looking at North American sales and then drill down on regional sales, then sales by state, and then sales by major metropolitan area. Enables a user to view different perspectives of the same data to facilitate decision making. - Online Transaction Processing
-
On-Line Transaction Processing (OLTP) is used in operational environments for collecting and managing the base data in an organization, such as sales order processing, inventory, accounts payable, etc. Usually offer little or no analytical capabilities.
Synonyms: OLTP, On-Line Transaction Processing
* * *
Online Transaction Processing (OLTP) is the transaction processing that supports the daily business operations. - Operational Data Store
-
Operational Data Store (ODS) is an integrated database of operational data. Its sources include legacy databases and other operational databases. An ODS contains current or near term data. An ODS may contain 30 to 60 days of information, while a data warehouse typically contains years of data. Like a data warehouse, data ODS is extracted from sources, cleansed, consolidated and transformed into a standard format. An ODS supports enterprise reporting, master data management and application integration as the enterprise source for shared operational data. An ODS may serve as the primary source for a data warehouse, or be used to audit a data warehouse.
Synonyms: ODS
* * *
Operational Data Store is a data store that contains only current data. It can be used for analytical and reporting purposes by the access and analysis tools to understand current data, not historical data.
* * *
An operational data store (ODS) is an integrated database of operational data. Its sources include legacy systems and it contains current or near-term data. An ODS may contain 30 to 60 days of information, while a data warehouse typically contains years of data. - Oracle Data Vault
-
Oracle Database Vault restricts access to specific areas in an Oracle database from any user, including users who have administrative access. For example, you can restrict administrative access to employee salaries, customer medical records, or other sensitive information. This enables you to apply fine-grained access control to your sensitive data in a variety of ways.
***
Oracle Data Vault – опция безопасности базы данных Oracle, позволяющая контролировать или, при необходимости, исключать доступ администратора СУБД к данным приложений, усилить защиту структур СУБД от несанкционированных действий персонала и реализовать, при необходимости, динамическую настройку политик безопасности. Данные средства основываются на усовершенствованном механизме ролевого доступа и позволяют обеспечивать выполнение нормативных требований и стандартов внутреннего аудита. Oracle Database Vault может поддерживать управление безопасностью в рамках отдельного экземпляра СУБД Oracle.r - Relational Database Management System
-
Relational Database Management System (RDMS) is is Software that controls and supports the storing and access of data. This includes loads, updates, deletions, and access. A RDBMS supports the backup and recovery of the data as well as the support of securing the data. An RDBMS provides relations or connections between tables by column values and access by column value. A major capability of an RDBMS is that it can process a set of data with a single statement.
Synonyms: RDBMSs - Snowflake Schema
-
Snowflake Schema is a star schema with normalized dimensions.
* * *
A Snowflake Schema is a set of tables comprised of a single, central fact table surrounded by normalized dimension hierarchies. Each dimension level is represented in a table. Snowflake schema implement dimensional data structures with fully normalized dimensions. Star schema are an alternative to snowflake schema. - Source System
-
Source System is an operational system or ODS used as the source or input to the ETL process.
Synonyms: Source Database
* * *
Source Database is an database that feeds into a target database. - Staging Area
-
Staging Area is a "place" where the ETL programs run and where the source data is prepared for the data warehouse. Staging Area is a system that stands between the legacy systems and the analytic system, usually a data warehouse and sometimes an ODS. The data staging area is considered the "back room" portion of the data warehouse environment. The data staging area is where the extract, transform and load (ETL) takes place and is out of bounds for end users.
- Star Schema
-
A Star Schema is a set of tables comprised of a single, central fact table surrounded by de-normalized dimensions. Each dimension is represented in a single table. Star schema implement dimensional data structures with de- normalized dimensions. Snowflake schema are an alternative to star schema. A relational database schema for representing multidimensional data. The data is stored in a central fact table, with one or more tables holding information on each dimension. Dimensions have levels, and all levels are usually shown as columns in each dimension table.
* * *
Star Schema is a modeling paradigm that has single object in the middle (fact table) connected to a number of objects (dimensions tables) around it radially.
* * *
Star Schema is a relational database schema for representing multidimensional data. The data is stored in a central fact table, with one or more tables holding information on each dimension. Dimensions have levels, and all levels are usually shown as columns in each dimension table.v - Very Large Database
-
Very Large Database (VLDB) is an inexact term since the perception of what constitutes a VLDB continues to grow.
Synonyms: VLDB
* * *
VLDB are databases that pose unusual performance challenges due to their exceptional size.а - Абстрагирование
-
Выделение существенных характеристик некоторого процесса или объекта, отличающих его от всех других видов и четко определяющих концептуальные границы для дальнейшего рассмотрения и анализа. При абстрагировании концентрируют внимание на внешних особенностях объекта и отделяют существенные особенности его поведения от деталей реализации.
- Агрегирование
-
Агрегирование (Aggregation) - это процесс получения новых данных из детальных данных путем проведения над ними вычислений или других манипуляций. Агрегирование часто производится суммированием, подсчетом количества записей или вычислением средних значений. Как правило, агрегирование производится вдоль нескольких размерностей. Например, вычисление суммарных продаж с группировкой по клиентам и продуктам.
- Агрегированные Данные
-
Агрегированные Данные (Aggregate Data) - данные, полученные в результате применения процесса комбинирования других элементов данных. Например: суммированием, вычислением среднего, нахождением максимального значения и т.п.
- Аддитивность
-
Возможность суммирования факта вдоль определенной размерности.
- Аддитивный факт
-
Фактический показатель, который можно суммировать вдоль всех измерений.
в - Витрина Данных
-
Витрина Данных (Data Mart, DM) - это проблемно-ориентированное подмножество данных из хранилища (или оперативной системы), проектируемое для удовлетворения потребностей определенной группы пользователей, работающих с определенным кругом задач, и требований безопасности доступа к данным. Витрины данных позволяют решить проблемы с производительностью, так как содержат меньший объем данных, агрегируют данные заранее и используются ограниченным кругом пользователей.
з - Запрос Ad Hoc
-
Запрос Ad Hoc (Ad Hoc Query) - это незапланированный запрос информации из базы данных, который обычно создается и запускается по мере текущей необходимости и не может быть предусмотрен заранее. Как правило, это выражение на языке запросов SQL, которое создается подготовленным пользователем непосредственно или с помощью графического инструмента доступа к данным.
- Захват Измененных Данных
-
Захват Измененных Данных (Change Data Capture, CDC) - это способность периодически обновлять хранилище или витрины данных текущей информацией без необходимости их полного обновления. Это процесс обнаружения новых, измененных или удаленных записей в системах-источниках (см. Source System) и обновления хранилища или витрины данных в соответствии с этими изменениями.
и - Интеллектуальный Анализ Данных
-
Интеллектуальный Анализ Данных (Data Mining) - процесс анализа больших наборов данных с целью обнаружения тенденций, связей и зависимостей между различными элементами и блоками данных.
Synonyms: ИАДк - Качество Данных
-
Качество Данных (Data Quality) - это уровень пригодности данных для использования. Под качеством понимают соответствие совокупности факторов: соответствие типам данных, согласованность и непротиворечивость, полнота, уместность, отсутствие избыточности, соответствие предметной области и бизнес правилам, и другие показатели
м - Медленно Изменяющаяся Размерность Типа 1
-
Медленно Изменяющаяся Размерность Типа 1 (Slowly Changing Dimension Type 1, SCD 1) – способ моделирования истории в Схемах Звезда и Снежинка, при котором изменяющиеся атрибуты размерности перезаписываются, а история не хранится (т.е. размерность хранит только последнее значение атрибута). Технически – наиболее легкий вариант реализации.
- Медленно Изменяющаяся Размерность Типа 2
-
Медленно Изменяющаяся Размерность Типа 2 (Slowly Changing Dimension Type 2, SCD2)– способ моделирования истории в Схемах Звезда и Снежинка, при котором хранятся и старые, и новые значения атрибутов. При изменении данных в источнике, в размерность добавляется строка с новым значением, а строка, хранящая старое значение, помечается, как архивная. Данная техника позволяет анализировать все исторические изменения.
- Медленно Изменяющаяся Размерность Типа 3
-
Медленно Изменяющаяся Размерность Типа 3 (Slowly Changing Dimension Type 3, SCD 3) – способ моделирования истории в Схемах Звезда и Снежинка, при котором строка размерности содержит поля для текущего и предыдущего(их) значений. При изменении данных в источнике, в размерность новая строка не добавляется, а происходит лишь перезапись значений атрибутов, что позволяет хранить ограниченную историю.
- Модель Данных
-
Модель Данных (Data Model) - представление данных, описывающих объекты реального мира, с определенной точки зрения (концептуальной, логической, семантической и т.п.). Как правило, модель данных представляет собой схемы или диаграммы, созданные в соответствии с определенными стандартами и описание.
о - Область Преобразования Данных
-
Область, как правило реализуемая физически на сервере СУБД, в которой хранятся промежуточные таблицы, используюмые в процессе преобразования оперативных данных.
Synonyms: Буферная зона, Буферная область, Промежуточная область, Стайджинг Эрия - Окно Загрузки
-
Окно загрузки (Batch Windows) - это промежуток времени, в течение которого возможна загрузка данных из оперативных систем в хранилище данных. Зависит от многих факторов, в частности, от режима работы предприятия.
- Оперативная Обработка Транзакций
-
Оперативная Обработка Транзакций (Online Transaction Processing, OLTP) используется в оперативная системах, предназначенных для обработки рутинных транзакций, таких как ввод и вывод данных, поддерживающая ежедневные бизнес-процессы. Аналитические функции и возможности, как правило, ограниченные.
- Оперативный Анализ Данных
-
Оперативный Анализ Данных (Online Analytical Processing, OLAP) - это компьютерные аналитические приложения и технологии, поддерживающие сбор, управление, обработку и многомерное представление, отображение и визуализацию данных с целью анализа информации, составления и публикации отчетов. Термин OLAP был введен в 1993 году Эдвардом Коддом (Кодд – так же автор реляционной модели данных), сформулировавшим основные требования к функциональности программных продуктов, реализующих эти технологии.
п - Производные Данные
-
Производные Данные (Derived Data) - это данные, получаемые с помощью математических вычислений или других манипуляций, выполняемых в процессе загрузки данных в хранилище и витрины данных.
- Промежуточная Область
-
Промежуточная Область (Staging Area) - область, в которой хранятся промежуточные таблицы, использующиеся в процессе преобразования оперативных данных; как правило, данная область реализуется физически на сервере СУБД.
Synonyms: Буферная Областьр - Реляционная Система Управления Базами Данных
-
Реляционная Система Управления Базами Данных (Relational Database Management System, RDBMS, РСУБД) - cистема управления базами данных (СУБД), основанная на реляционной модели.
Synonyms: РСУБДс - Сверхбольшая База Данных
-
Сверхбольшая База Данных (Very Large Database, VLDB) - база данных сверхбольшого объема.
- Система-Источник
-
Система-Источник (Source System) - система, являющаяся источником данных для загрузки в хранилище данных, в витрину данных, в хранилище оперативных данных (ODS) и т. п., т. е. система, содержащая данные извлекаемые ETL-процессом.
- Совместная Разработка Приложений
-
Совместная Разработка Приложений (Joint Application Development, JAD) – методология управления проектами, предусматривающая тесное взаимодействие заказчиков и исполнителей, с целью добиться взаимопонимания в вопросах, касающихся разрабатываемой системы.
- Схема Звезда
-
Схема Звезда (Star Schema) - популярный тип модели данных для витрин данных. Характеризуется наличием таблицы фактов, окруженной связанными с ней таблицами размерностей. Запросы к такой структуре включают простые объединения таблицы фактов с каждой из таблиц размерностей.
Synonyms: Схема «Звезда» - Схема Снежинка
-
Схема Снежинка (Snowflake Schema) представляет собой набор таблиц, состоящий из центральной таблицы фактов, окруженной нормализованными иерархиями размерностей. Каждый уровень иерархии внутри размерности представлен отдельной таблицей. Альтернативой схеме «снежинка» является схема «звезда».
Synonyms: Схема «Снежинка»у - Управление Данными
-
Управление Данными (Data Management) представляет собой сочетание технологий и процессов, которые совместно обеспечивают безопасность, точность, согласованность и актуальность всех данных организации. Наиболее важной задачей управления данными является постоянно поддерживать данные актуальными, точными, согласованными и обеспечивать своевременное предоставление информации заинтересованным сторонам в соответствии с политикой безопасности.
х - Хранилище Данных
-
Хранилище Данных (Data Warehouse, DWH) - предметно-ориентированная, вариантная по времени, не разрушаемая совокупность данных, предназначенная для поддержки управленческих решений.
Synonyms: ХД - Хранилище Оперативных Данных
-
Хранилище Оперативных Данных (Operational Data Store, ODS) - набор интегрированных данных для тактического принятия решений. Не содержит истории и агрегированных данных.