База данных by waandeerer  - Ourboox.com
This free e-book was created with
Ourboox.com

Create your own amazing e-book!
It's simple and free.

Start now

База данных

  • Joined Feb 2018
  • Published Books 2

Базы данных

База данных  – набор сведений, хранящихся соответствующих процедур. Можно сравнить базу данных со шкафом, в котором хранятся документы. Иными словами, база данных – это хранилище данных. Сами по себе базы данных не представляли бы интересы, если бы не было систем управления базами данных (СУБД).

 

Система управления базами данных – это совокупность языковых и программных средств, которая осуществляет доступ к данным, позволяет их создавать, менять и удалять, обеспечивает безопасность данных и т.д. В общем СУБД – это система, позволяющая создавать базы данных и манипулировать сведениями из них. А осуществляет этот доступ к данным СУБД посредством специального языка – SQL.

SQL – язык структурированных запросов, основной задачей которого является предоставление простого способа считывания и записи информации в базу данных.

Итак, простейшая схема работы с базой данных выглядит примерно так:

По характеру использования СУБД делят на однопользовательские (намеревавшиеся для создания и использования БД на персональном компьютере) и многопользовательские (предназначенные для работы с единой БД нескольких компьютеров, объединенных в локальные сети). Вообще деление по характеру использования можно представить следующей схемой:

 Не вдаваясь далее в подробности, отметим, что на сегодняшний день число соответствующих СУБД исчисляется десятками. Наиболее известные однопользовательские СУБД – Microsoft Visual FoxPro и Access, многопользовательские – MS SQL Server, Oracle и MySQL.

 

1

Виды баз данных

Существует огромное количество разновидностей баз данных, отличающихся по различным критериям. Например, в «Энциклопедии технологий баз данных», по материалам, в которых написан данный раздел, напр свыше 50 видов БД.

Основные классификации ниже.

Классификация по модели данных

Примеры:

  • Иерархическая
  • Объектная и объектно-ориентированная
  • Объектно-реляционная
  • Реляционная
  • Сетевая
  • Функциональная.

Классификация по среде постоянного хранения

  • Во вторичной памяти, или традиционная (англ. conventional database): средой постоянного хранения является периферийная энергонезависимая память (вторичная память) — как правило жёсткий диск.
    В оперативную память СУБД помещает лишь кэш и данные для текущей обработки.
  • В оперативной памяти (англ. in-memory database, memory-resident database, main memory database): все данные на стадии исполнения находятся в оперативной памяти.
  • В третичной памяти (англ.  Третичная база данных ): средой постоянного хранения является отсоединяемое от сервера устройства массового хранения (третичная память), как правило на основе магнитных лент или оптических дисков.
    Во вторичной памяти сервера хранится только каталог данных третичной памяти, файловый кэш и данные для текущей обработки; загрузка же самих данных требует специальной процедуры.

Классификация по содержимому

Примеры:

  • Географическая
  • Историческая
  • Научная
  • Мультимедийная
  • Клиентская.

Классификация по степени распределённости

  • Централизованная, или сосредоточенная (англ.  Централизованная база данных ): БД, полностью поддерживаемая на одном компьютере.
  • Распределённая БД (англ.  Распределенная база данных ) – составные части, которые размещаются в различных узлах компьютерной сети в соответствии с каким-либо критерием.
    • Неоднородная (англ.  Гетерогенная распределенная база данных ): фрагменты распределённой БД в разных узлах сети поддерживаются средствами более одной СУБД.
    • Однородная (англ.,  Однородная распределенная база данных ): фрагменты распределённой БД в разных узлах сети поддерживаются из одной и той же СУБД.
    • Фрагментированная, или секционированная (англ. Секционированная  база данных ): метод распределения данных является фрагментированием (партиционирование, секционирование), вертикальное или горизонтальное.
    • Тиражированная (англо-  реплицированная база данных ): методом распределения данных является тиражирование (репликация).

Другие виды БД

  • Пространственная (англ.  Пространственная база данных ): БД, в которой поддерживаются пространственные свойства сущностей предметной области. Такие БД широко используются в геоинформационных системах.
  • Временная, или темпоральная (англ.  Временная база данных ): БД, в которой поддерживается какой-либо  аспект времени , не считая времени, определяемым пользователем.
  • Пространственно-временная (англ.  Пространственно-временная база данных ) БД: БД, в которой одновременно поддерживается одно или более измерений в пространстве, как пространстве, так и времени.
  • Циклическая (англ.  Round-robin database ): БД, объём хранимых данных, которые не меняется со временем, поскольку в процессе сохранения новых данных они заменяют более старые данные. Одни и те же ячейки для данных используются циклически.
2

Проблемы определения

В литературе предлагается множество определений понятия «база данных», отражающих скорее субъективное мнение тех или иных авторов, однако общепризнанная единая формулировка отсутствует.

Определения из международных стандартов:

  • База данных  – совокупность данных, хранимых в соответствии со схемой данных, манипулирование которыми выполняется в соответствии с правилами средств моделирования данных.
  • База данных — совокупность данных, организованных в соответствии с концептуальной структурой, описывающей характеристики этих данных и взаимоотношения между ними, причём такое собрание данных, которое поддерживает одну или более областей применения.

Определения из авторитетных монографий:

  • База данных — организованная в соответствии с определёнными правилами и поддерживаемая в памяти компьютера совокупность данных, характеризующая актуальное состояние некоторой предметной области и используемая для удовлетворения информационных потребностей пользователей.
  • База данных — некоторый набор перманентных (постоянно хранимых) данных, используемых прикладными программными системами какого-либо предприятия.
  • База данных  – объединенный набор логически связанных данных (и описание данных), предназначенный для удовлетворения информационных потребностей организаций.

В определениях наиболее часто (явно или неявно) присутствуют следующие отличительные признаки:

  1. БД хранится и обрабатывается в вычислительной системе .
    Таким образом, любые внекомпьютерные хранилища информации (архивы, библиотеки, картотеки и т. П.) Базами данных не являются.
  2. Данные в БД логически структурированы (систематированы)  с гарантией их эффективного поиска и обработки в вычислительной системе.
    Структурированность подразумевает явное выделение составных частей (элементов), связей между ними, а также типизацию элементов и связей, при которых с типом элемента (связи) соотносится определённая семантика и допустимые операции.
  3. БД включает схему, или метаданные , описывающие логическую структуру БД в формальном виде (в соответствии с помощью метамоделью).
    В соответствии с  ГОСТ Р ИСО МЭК ТО 10032-2007 , «постоянные данные в среде базы данных». Схема включает в себя описания содержания, структуры и ограничения целостности, используемые для создания и поддержки базы данных. База данных включает в себя набор постоянных данных, определённых с помощью схем. Система управления данными в системах доступа и управления доступом к данным в базе данных ».

Из более чем один признак, который может быть использован в разных вариантах. Можно только установить определенную степень соответствия требованиям к БД.

В такой ситуации не последнюю роль играет общепринятая практика. В соответствии с ней, например, не называются базами данных  файловых архивовИнтернет-порталы  или  электронные таблицы БД. Принято считать, что эта степень в большинстве случаев недостаточна (хотя могут быть исключения).

3

                                          История

История возникновения и развития технологий баз данных, как в широком, так и в узком пространстве.

В  широком смысле  понятие истории, основывается на истории любых средств, с помощью которых человечество хранило и обрабатывало данные. В таком контексте упоминание, например, средства учёта царской казны и налогов в древнем Шумере (4000 г. до н. Э.), Узелковая письменность инков – кипу, клинописи, содержащие документы Ассирийского царства и т. п. Для помнить, что недостаток этого подхода является размыванием понятия «база данных» и фактическим его слияние с понятиями «архив» и даже «письменность».

История баз данных в  традиционном  (современном) понимании. Эта история начинается с 1955 года, когда появилось программируемое оборудование обработки записей. Программное обеспечение этого времени поддерживало модель обработки записей на основе файлов. Для хранения данных использовались перфокарты.

Оперативные сетевые базы данных появились в середине 1960-х. Операции над оперативными базами данных в интерактивном режиме с использованием терминалов. Простые индексно-последовательные организации записей быстро развились до более мощной модели записей, ориентированной на наборы. За руководство работой База данных базы данных (DBTG), разработанный стандартный язык описания данных и манипулирования данными, Чарльз Бахман получил Тьюринговскую премию.

В это же время в сообществе баз данных Кобол была проработана концепция схем баз данных и концепция независимости данных.

Следующий важный этап связан с появлением в начале 1970-х реляционной модели данных, благодаря работам Эдгара Кодда. Работы Кодда открыли путь к тесной связи прикладной технологии баз данных с математикой и логикой. За свой вклад в теорию и практику Эдгар Ф. Кодд также получил премию Тьюринга.

Сам термин база данных (англ. database) появился в начале 1960-х годов, и был введён в употребление на симпозиумах, организованных компанией SDC в 1964 и 1965 годах, хотя понимался сначала в довольно узком смысле, в контексте систем искусственного интеллекта. В широкое употребление в современном понимании термин вошёл лишь в 1970-е годы.

4

Сверхбольшие базы данных

Сверхбольшая база данных (англ. Very Large Database, VLDB) — это база данных, которая занимает чрезвычайно большой объём на устройстве физического хранения. Термин подразумевает максимально возможные объёмы БД, которые определяются последними достижениями в технологиях физического хранения данных и в технологиях программного оперирования данными.

Количественное определение понятия «чрезвычайно большой объём» меняется во времени. Так, в 1997 году самый большой в мире была текстовая база данных DIALOG Knight Ridder объёмом 7 терабайт. В 2001 году самая большая считалась база данных объёмом 10,5 терабайт, в 2003 году – объёмом 25 терабайт. В 2005 году самые крупные в мире считались базы данных с объёмом хранилища порядка сотни терабайт .  В 2006 году поисковая машина Google использовала базу данных объёмом 850 терабайт.

К 2010 году считалось, что объём сверхбольшой базы данных должен измеряться по мере мере петабайтами.

К 2014 году по косвенным исследованиям Google хранила на своих серверах до 10-15 эксабайт данных в совокупности.

По некоторым оценкам, к 2025 году генетики будут располагать данные о геномах от 100 миллионов до 2 миллиардов человек, и для хранения и объёма данных от 2 до 40 эксабайт.

Специалисты отмечают необходимость особых подходов к проектированию сверхбольших БД. Для их создания нередко выполняются специальные проекты с целью поиска таких системотехнических решений, которые позволили бы хоть как-то работать с такими большими объёмами данных. Как правило, необходимые специальные решения для дисковой подсистемы, специальные версии операционной среды и специальные механизмы обращения СУБД к данным.

Исследования в области хранения и обработки сверхбольших баз данных  VLDB  всегда находятся на острие теории и практики баз данных. В частности, с 1975 года проходит ежегодная конференция  Международная конференция по очень крупным  базам данных («Международная конференция по сверхбольшим базам данных»). Большинство исследований проводится под эгидой некоммерческой организации  VLDB Endowment  (Фонд целевого капитала «VLDB»), который обеспечивает продвижение научных работ и обмена информацией в области сверхбольших БД и смежных областей.

5

Хранилище данных

Хранилище данных  (англ.  Data Warehouse ) – предметно-ориентированная информационная база данных, специально разработанная и предназначенная для подготовки отчётов и бизнес-анализа с целью поддержки принятия решений в организации. Строится на базе систем управления базами данных и систем поддержки принятия решений. Данные, поступающие в хранилище данных, как правило, доступ только для чтения.

Данные из OLTP-систем копируются в хранилище данных таким образом, чтобы при построении отчётов и  OLAP -анализе не использовались ресурсы транзакционной системы и не нарушалась ее стабильности. Есть два варианта обновления данных в хранилище:

  • полное обновление данных в хранилище. Сначала старые данные удаляются, потом происходит загрузка новых данных. Процесс происходит с определённой периодичностью, при этом актуальность данных может несколько отставать от OLTP-системы;
  • инкрементальное обновление – обновляются только те данные, которые изменились в OLTP-системе.

Принципы организации хранилища

  • Проблемно-предметная ориентация . Данные объединяются в категории и хранятся в соответствии с областями, которые они описывают, а не с приложениями, которые они используют.
  • Интегрированность . Данные объединены так, чтобы они удовлетворяли всем требованиям предприятия в целом, а не единственной функции бизнеса.
  • Некорректируемость. Данные в хранилище данных не создаются: то есть поступают из внешних источников, не корректируются и не удаляются.
  • Зависимость от времени. Данные в хранилище точны и корректны только в том случае, когда они привязаны к некоторому промежутку или моменту времени.

Дизайн хранилищ данных

Существуют два архитектурных направления — нормализованные хранилища данных и хранилища с измерениями.

В нормализованных хранилищах, данные находятся в предметно ориентированных таблицах третьей нормальной формы. Нормализованные хранилища характеризуются как простые в создании и управлении, недостатки нормализованных хранилищ — большое количество таблиц как следствие нормализации, из-за чего для получения какой-либо информации нужно делать выборку из многих таблиц одновременно, что приводит к ухудшению производительности системы. Для решения этой проблемы используются денормализованные таблицы — витрины данных, на основе которых уже выводятся отчетные формы. При громадных объемах данных могут использовать несколько уровней «витрин»/«хранилищ».

Хранилища с измерениями используют схему «звезда» или схему «снежинка». При этом в центре «звезды» находятся данные (таблица фактов), а измерения образуют лучи звезды. Различные таблицы фактов совместно используют таблицы измерений, что значительно облегчает операции объединения данных из нескольких предметных таблиц фактов (пример — факты продаж и поставок товара). Таблицы данных и соответствующие измерения образуют архитектуру «шина». Измерения часто создаются в третьей нормальной форме, в том числе, для протоколирования изменения в измерениях. Основным достоинством хранилищ с измерениями является простота и понятность для разработчиков и пользователей, также, благодаря более эффективному хранению данных и формализованным измерениям, облегчается и ускоряется доступ к данным, особенно при сложных анализах. Основным недостатком является более сложные процедуры подготовки и загрузки данных, а также управление и изменение измерений данных.

При достаточно большом объеме данных схемы «звезда» и «снежинка» также дают снижение производительности при соединениях с измерениями.

6

Процессы работы с данным

Источниками данных могут быть:

  1. Традиционные системы регистрации операций
  2. Отдельные документы
  3. Наборы данных

Операции с данными:

  1. Извлечение – перемещение информации от источников данных в отдельную БД, приведение их к единому формату.
  2. Преобразование – подготовка информации к хранению в оптимальной форме для реализации запроса, разрешение для принятия решений.
  3. Загрузка – помещение данных в хранилище, принятие атомарно, путём добавления новых фактов или корректировкой.
  4. Анализ – OLAP, Data Mining, сводные отчёты.
  5. Представление результатов анализа.

Вся эта информация используется в запросе метаданных. В словарь метаданных автоматически включаются словари источников данных. Здесь же форма форматы данных для их последующего согласования, периодичность пополнения данных, согласованность во времени.Задача словаря метаданных состоит из того, чтобы освободить разработчика от необходимости стандартизировать источники данных.Создание хранилищ данных не должно противоречить действующим системам сбора и обработки информации.Специальные компоненты словарей должно обеспечить своевременное извлечение данных из них и обеспечить преобразование данных к единому формату на основе словаря метаданных.

Логическая структура данных хранения данных. Для разработки эффективного процесса преобразования необходима хорошо проработанная модель, в которой можно проводить измерения времени, цены или географического региона.

Кроме того, из результатов данных из БД, для принятия решений важен процесс извлечения знаний, в соответствии с информационными потребностями пользователя. С точки зрения присутствия в процессе извлечения знаний из БД должны решаться следующие преобразования: данные → информация → знания → полученные решения.

7
This free e-book was created with
Ourboox.com

Create your own amazing e-book!
It's simple and free.

Start now

Ad Remove Ads [X]