рефераты конспекты курсовые дипломные лекции шпоры

Раздел Программирование
/
Файловые структуры, используемые для хранения данных в БД

Реферат Курсовая Конспект

Выберите учебное заведение

Файловые структуры, используемые для хранения данных в БД

Файловые структуры, используемые для хранения данных в БД - раздел Программирование, База данных На Устройствах Последовательного Доступа (Магнитофоны, Стримеры) Могут Быть О...

На устройствах последовательного доступа (магнитофоны, стримеры) могут быть организованы файлы только последовательного доступа. Файлы с переменной длиной записи также всегда являются файлами последовательного доступа и могут быть организованы двумя способами:

конец записи отмечается специальным маркером;
в начале каждой записи записывается ее длина.

Файлы с постоянной длиной записи, расположенные на устройствах прямого доступа (магнитные, оптические диски), являются файлами прямого доступа. В этих файлах физический адрес расположения нужной записи может быть вычислен по номеру записи (NZ).

Для файлов с постоянной длиной записи адрес размещения записи с номером NZ может быть вычислен по формуле:

BA+( NZ -1)*LZ+1,

где BA – базовый адрес, LZ – длина записи.

Файлы прямого доступа обеспечивают наиболее быстрый доступ к произвольным записям, и их использование является наиболее перспективным в системах БД.

Однако чаще всего в БД необходим поиск по ключам, а не по номеру записи, и номер записи, необходимый для прямого доступа, в этом случае неизвестен. При организации файлов прямого доступа в некоторых случаях возможно построение функции, которая по значению ключа К однозначно вычисляет номер записи (номер записи файла) NZ=F(K).

Часто не удается построить взаимно-однозначное соответствие между значениями ключа и номерами записей, поэтому применяют различные методы хэширования; создают специальные хэш-функции.

Общей идеей методов хэширования является применение к значению ключа некоторой функции свертки (хэш-функции), вырабатывающей значение меньшего размера. Свертка значения ключа затем используется для доступа к записи.

В самом простом, классическом случае, свертка ключа используется как адрес в таблице, содержащей ключи и записи. Основным требованием к хэш-функции является равномерное распределение значений свертки. При возникновении коллизий (одна и та же свертка для нескольких значений ключа) образуются цепочки переполнения. Новая запись заносится в область переполнения на первое свободное место, а в записи-синониме (с тем же значением хэш-функции), которая находится в основной области, делается ссылка на адрес вновь размещенной записи в области переполнения. Главным ограничением этого метода является фиксированный размер таблицы. Если таблица заполнена слишком сильно или переполнена, но возникнет слишком много цепочек переполнения, и главное преимущество хэширования - доступ к записи почти всегда за одно обращение к таблице - будет утрачено. Расширение таблицы требует ее полной переделки на основе новой хэш-функции (со значением свертки большего размера).

В случае баз данных такие действия являются абсолютно неприемлемыми. Поэтому обычно вводят промежуточные таблицы-справочники, содержащие значения ключей и адреса записей, а сами записи хранятся отдельно. Тогда при переполнении справочника требуется только его переделка, что значительно проще.

Несмотря на высокую эффективность хэш-адресации, в файловых структурах не всегда удается найти соответствующую функцию, поэтому при организации доступа по первичному ключу широко используются индексные файлы. Индексные файлы можно представить как таблицы указателей к основному файлу с записями, причем для одного основного файла можно построить несколько индексных по различным ключам.

Различают два типа индексных файлов: с плотным индексом (индексно-прямые) и с неплотным индексом (индексно-последовательные) .

Структура файлов с плотным индексом имеет вид:

Значение ключа

Номер записи в основном файле

Записи в основном файле расположены в произвольном порядке. Такие файлы строятся для первичных ключей и в них не может быть двух записей, имеющих одинаковые значения первичного ключа. Все записи в индексном файле упорядочены по значению ключа, поэтому для поиска в индексном файле можно применить бинарный или двоичный поиск.

Файлы с неплотным индексом строятся для основных файлов, в которых записи упорядочены по ключу и структура индексных файлов имеет вид:

Значение ключа первой записи блока

Номер блока с этой записью в основном файле

В индексном файле ищется нужный блок по заданному значению первичного ключа. Так как все записи упорядочены, то значение первой записи блока позволяет быстро определить, в каком блоке находится искомая запись. Все остальные действия по поиску проходят в основном файле.

Наиболее популярным подходом к организации индексов в базах данных является использование техники B-деревьев. С точки зрения внешнего логического представления B-дерево - это сбалансированное дерево во внешней памяти. Сбалансированность означает, что длина пути от корня дерева к любому его листу одна и та же. Построение В-деревьев связано с простой идеей построения индекса над уже построенным индексом. Если построить файл с неплотным индексом, то, рассматривая его как основной файл, над которым надо снова построить файл с неплотным индексом, а потом снова над новым индексом строим следующий и так до того момента, пока не останется всего один индексный блок.

Если индексные файлы используются для ускорения доступа по первичному ключу, то для ускорения доступа по вторичному ключу используются структуры, называемые инвертированными списками. Вторичными ключами является атрибут или набор атрибутов, которому соответствует несколько искомых записей. Например, для таблицы «Книги» вторичным ключом может служить место издания, год издания. Множество книг могут быть изданы в одном месте, и множество книг могут быть изданы в одном году.

Инвертированный список в общем случае – это трехуровневая индексная структура. На первом уровне находится файл или часть файла, в которой упорядоченно расположены значения вторичных ключей. Каждая запись с вторичным ключом имеет ссылку на номер первого блока в цепочке блоков, содержащих номера записей с данным значением вторичного ключа. На втором уровне находится цепочка блоков, содержащих номера записей с одним и тем же значением вторичного ключа. При этом блоки второго уровня упорядочены по значениям вторичного ключа. На третьем уровне находится основной файл с записями. Представим механизм доступа к записям по вторичному ключу:

Шаг_1. В области первого уровня ищется заданное значение вторичного ключа;

Шаг_2.По ссылке считываются блоки второго уровня, содержащие номера записей с заданным значением вторичного ключа;

Шаг_3. В рабочую область пользователя прямым доступом загружается содержимое всех записей с заданным значением вторичного ключа.

Для одного основного файла может быть создано несколько инвертированных списков по разным вторичным ключам. Однако при модификации основного файла требуется внести изменения во все инвертированные списки. Поэтому можно утверждать, что построение инвертированных списков ускоряет процесс доступа только в том случае, если БД стабильна и ее содержимое не изменяется.

Для моделирования связей на файловых структурах используется принцип организации цепочек записей внутри файла и ссылки на номера записей для нескольких взаимосвязанных файлов. Цепочка – это совокупность записей, расположенных в разных местах и связанных последовательностью указателей. Структура файла с цепочкой может быть условно представлена в виде:

Ключ

Запись

Ссылка-указатель на следующую запись

Для моделирования отношения один-ко-многим связываются два файла, например F1 и F2, причем предполагается, что одна запись в файле F1 может быть связана с несколькими записями в файле F2. Структура файла F1 может быть условно представлена:

Ключ

Запись

Ссылка-указатель на первую запись в файле F2, с которой начинается цепочка записей файла, связанных с данной записью файла F1

Структура записи файла F2 имеет вид:

Указатель на следующую запись в цепочке

Содержимое записи

Развернуть

Открыть в широком формате

– Конец работы –

Эта тема принадлежит разделу:

База данных

На сайте allrefs.net читайте: "База данных"

Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ: Файловые структуры, используемые для хранения данных в БД

Что будем делать с полученным материалом:

Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:

Все темы данного раздела:

Данные и ЭВМ
Восприятие реального мира можно соотнести с последовательностью разных, хотя иногда и взаимосвязанных, явлений. С давних времен люди пытались описать эти явления (даже тогда, когда не могли их поня

Поколения СУБД и направления исследований
Принято выделять три поколения СУБД: I. Поколение. Сетевые и иерархические системы БД, широко распространенные в 70-е годы, получили название - системы БД первого поколени

Терминология в СУБД
В общеотраслевых руководящих материалах по созданию банков данных Государственного комитета по науке и технике, изданных в 1982 г., приводятся следующие определения основных понятий:

Инфологические Даталогические Физические
модель документальные фактографические основанные основанные сущность-связь (ER) на файловых на странично- структу

Структуры данных
База данных, организованная с помощью инвертированных списков, похожа на реляционную БД, но с тем отличием, что хранимые таблицы и пути доступа к ним видны пользователям. При этом: - строк

Манипулирование данными
Поддерживаются два класса операторов: Операторы, устанавливающие адрес записи, среди которых: прямые поисковые операторы (например, найти первую запись таблицы п

Иерархические структуры данных
Иерархическая модель данных (ИМД) свойственна многим реальным древовидным структурам (классификаторы, структуры управления и т. п.). Существуют графовая и табличная формы представления данны

Сетевые структуры данных
Сетевой подход к организации данных является расширением иерархического. В иерархических структурах запись-потомок должна иметь в точности одного предка; в сетевой структуре данных потомок может им

Манипулирование данными
Примерный набор операций может быть следующим: найти конкретную запись в наборе однотипных записей (инженера Сидорова); перейти от предка к первому потомку по некоторой свя

Ограничения целостности
В принципе их поддержание не требуется, но иногда требуют целостности по ссылкам (как в иерархической модели). Достоинства ранних СУБД: развитые средства упр

Физические модели организации баз данных
Физические модели определяет способ размещения данных в среде хранения и способы доступа к этим данным, которые поддерживаются на физическом уровне. Среди самых важных характеристик любой ба

Модели страничной организации данных в современных БД
Реляционные СУБД хранят следующие разновидности объектов во внешней памяти БД: строки таблиц - основная часть БД; управляющие структуры - индексы, создаваемые по инициативе

Этапы доступа к БД
Опишем последовательность действий при доступе к БД (см. рис. 2.7): Сначала в СУБД определяется искомая запись, а затем для ее извлечения запрашивается диспетчер файл

Вопросы и упражнения для самоконтроля к главе 2
Чем даталогические документальные модели отличаются от фактографических? Приведите примеры даталогических документальных моделей. Какие компоненты входят в структуру логичес

Базовые понятия реляционных баз данных
Реляционные (от английского слова relation – отношение) модели были разработаны Э. Коддом в начале 70-х годов. Основными понятиями реляционных баз данных являются тип данных, домен, атрибут, кортеж

Тип данных
Понятие тип данных в реляционной модели данных полностью адекватно понятию типа данных в языках программирования. Обычно в современных реляционных БД допускается хранение данных следующих ти

Кортеж, отношение, ключи
Кортеж, соответствующий данной схеме отношения, - это множество пар {имя атрибута - значение}, которое содержит одно вхождение каждого имени атрибута, принадлежащего схеме отношения. "З

Связи в реляционных базах данных
В реляционных БД связи позволяют избежать избыточности данных. Связь работает путем сопоставления данных ключевых столбцов. В большинстве случаев связь сопоставляет первичный ключ одной таблицы с в

Отсутствие кортежей-дубликатов
То свойство, что отношения не содержат кортежей-дубликатов, следует из определения отношения как множества кортежей. В классической теории множеств по определению каждое множество состоит из различ

Отсутствие упорядоченности кортежей
Свойство отсутствия упорядоченности кортежей отношения также является следствием определения отношения-экземпляра как множества кортежей. Отсутствие требования к поддержанию порядка на множестве ко

Отсутствие упорядоченности атрибутов
Атрибуты отношений не упорядочены, поскольку по определению схема отношения есть множество пар {имя атрибута – имя домена}. Для ссылки на значение атрибута в кортеже отношения всегда используется и

Атомарность значений атрибутов
Значения всех атрибутов являются атомарными. Это следует из определения домена как потенциального множества значений простого типа данных, т.е. среди значений домена не могут содержаться множества

Характеристика реляционной модели данных
Наиболее распространенная трактовка реляционной модели данных, по-видимому, принадлежит Дейту К., который воспроизводит ее (с различными уточнениями) практически во всех своих книгах. Согласно Дейт

Трехзначная логика (3VL)
В подходе 2 (п.3.3) использовано понятие «неопределенного» значения ключа. В реальном мире часто встречается ситуация, когда данные неизвестны или неполны. Для того чтобы обойти проблему неполных и

Реляционная алгебра
Вторая часть реляционной модели, манипуляционная часть, утверждает, что доступ к реляционным данным осуществляется при помощи реляционной алгебры или эквивалентного ему реляционного исчисления.

Особенности операций реляционной алгебры
Хотя в основе теоретико-множественной части реляционной алгебры лежит классическая теория множеств, соответствующие операции реляционной алгебры обладают некоторыми особенностями. Начнем с

Реляционное исчисление
Пример 3.11 Предположим, что мы работаем с базой данных, обладающей схемой СОТРУДНИКИ (СОТР_НОМ, СОТР_ИМЯ, СОТР_ЗАРП, ОТД_НОМ) и ОТДЕЛЫ (ОТД_НОМ, ОТД_КОЛ, ОТД_НАЧ), и хотим узнать име

Вопросы и упражнения для самоконтроля к главе 3
1. Чем отличается домен от типа данных? 2. Что такое степень отношения? 3. В чем отличие схемы отношения от отношения? 4. Можно ли считать любую прямоугольную таблицу дан

История языка SQL
Увеличение объема и структурной сложности хранимых данных, расширение круга пользователей информационных систем привели к широкому распространению наиболее удобных и сравнительно простых для понима

Структура языка SQL
Основу языка SQL составляют операторы, условно разбитые на несколько групп по выполняемым функциям. Можно выделить следующие группы операторов (перечислены не все операторы SQL):

Создание простых запросов
Оператор SELECT является фактически самым важным для пользователя и самым сложным оператором SQL. Он предназначен для выборки данных из таблиц, т.е. он, собственно, и реализует одно их основных наз

Агрегирование данных в запросах
В SQL существует ряд специальных стандартных функций (SQL-функций). Кроме специального случая COUNT(*) каждая из этих функций оперирует совокупностью значений столбца некоторой таблицы и создает ед

Формирование запросов на основе соединения таблиц
Очевидно, что с помощью соединения несложно сформировать запрос на обработку данных из нескольких таблиц. Кроме того, в такой запрос можно включить любые части предложения SELECT, рассмотренные ран

Формирование структур вложенных запросов
Следует отметить, что SQL обладает большой избыточностью в том смысле, что он часто предоставляет несколько различных способов формулировки одного и того же запроса. Очень удобным средство

Простые подзапросы
Рассмотрим простые подзапросы. Пример 4.27 Предположим, что известно имя продавца (Мотика), но неизвестно значение его поля snum, и необходимо извлечь все его порядки из таблицы

Объединение нескольких запросов в один
Напоминаем, что реляционная операция объединение позволяет получить отношение, состоящее из всех строк, входящих в одно или оба объединяемых отношений. Но при этом исходные отношения или их объедин

Проблемы параллельной работы транзакций
Современные многопользовательские системы допускают одновременную работу большого числа пользователей. При этом, если не предпринимать специальных мер, транзакции будут мешать друг другу. Этот эффе

Вопросы и упражнения для самоконтроля к главе 4
1. Сколько версий языка SQL было принято? 2. Используется ли в какой-либо СУБД язык SQL в том виде, как он описан в стандарте? 3. Что означает символ «*» в операторе SELECT?

Проектирование реляционных БД с использованием принципов нормализации
Сначала будет рассмотрен классический подход, при котором весь процесс проектирования производится в терминах реляционной модели данных методом последовательных приближений к удовлетворительному на

Применение семантических моделей при проектировании
Широкое распространение реляционных СУБД и их использование в самых разнообразных приложениях показывает, что реляционная модель данных достаточна для моделирования предметных областей. Однако прое

Практические рекомендации по проектированию БД
Только небольшие организации могут обобществить данные в одной полностью интегрированной базе данных. Чаще всего администратор баз данных (даже, если это группа лиц) практически не в состоянии охва

Вопросы и упражнения для самоконтроля к главе 5
Что является исходной информацией на первом шаге процесса проектирования классическим методом? Какие нормальные формы вы знаете? Приведение к какой нормальной форме считаетс

Непосредственное управление данными во внешней памяти
Эта функция включает обеспечение необходимых структур внешней памяти как для хранения данных, непосредственно входящих в БД, так и для служебных целей, например, для ускорения доступа к данным в не

Управление буферами оперативной памяти
СУБД обычно работают с БД значительного размера; этот размер чаще всего существенно больше доступного объема оперативной памяти. При обращении к любому элементу данных во время обмена с внешней пам

Управление транзакциями
Транзакция - это последовательность операций над БД, рассматриваемых СУБД как единое целое. Либо транзакция успешно выполняется, и СУБД фиксирует (COMMIT) изменения БД, произведенные этой транзакци

Журнализация
Одним из основных требований к СУБД является надежность хранения данных во внешней памяти. Под надежностью хранения понимается то, что СУБД должна быть в состоянии восстановить посл

Поддержка языков БД
Для работы с базами данных используются специальные языки, в целом называемые языками баз данных. В ранних СУБД поддерживалось несколько специализированных по своим функциям языков. Чаще все

OLTP-системы
Сильно нормализованные модели данных хорошо подходят для так называемых OLTP-приложений (On-Line Transaction Processing - оперативная обработка транзакций). Типичными примерами

OLAP -системы
Другим типом приложений являются OLAP-приложения (On-Line Analitical Processing - оперативная аналитическая обработка данных). Это обобщенный термин, характеризующий принципы п

Мониторы транзакций
С ростом сложности распределенных вычислительных систем возникают проблемы эффективного использования их ресурсов. Для решения этих проблем в состав распределенных OLTP-систем вводят дополнительный

Ответ запрос
Рисунок 6.1 Упрощенная схема работы монитора транзакций Клиентские приложения не знают, какой системе будут направлены их запросы, предлагается ли нужный се

Архитектура СУБД
Обычно современная СУБД содержит следующие компоненты (рис. 6.2): Рис

Пользователи БД
Централизованный характер управления данными вызывает необходимость администрирования базы данных как сложной системы. Поэтому особую роль играет администратор базы или банка данных (АБД). А

Вопросы и упражнения для самоконтроля по главе 6
1. Для чего СУБД использует журналы? 2. Какова последовательность действий по восстановлению БД при жестком сбое? 3. Что содержится в системных таблицах БД? 4. Какие треб

Клиент Сервер
Рисунок 7.1 Модель файлового сервера Технология: выделяется файл-сервер для хранения и обработки файлов других узлов сети, а в остальных узлах функционирует приложение, в кодах кото

Клиент Сервер
Рисунок 7.2 Модель доступа к удаленным данным Технология: клиентский запрос направляется на сервер, где ядро СУБД обрабатывает запрос и возвращает результат (набор данных) клиенту.

Клиент Сервер
Рисунок 7.3 Модель сервера баз данных Технология: компонент представления выполняется на компьютере-клиенте, а прикладной компонент и ядро СУБД на компьютере-сервере БД. Процедуры х

Распределенная обработка данных
По мере роста БД, использование их в территориально разнесенных организациях приводит к тому, что централизованная СУБД плохо справляется с ростом числа обрабатываемых транзакций. Это приводит к сн

Аспекты сетевого взаимодействия
Традиционной и наиболее популярной является модель доступа к удаленным данным (RDA-модель). Рассмотрим ее более подробно. Имеется компьютер-клиент, на котором запускаются программы переднего плана

Технология распределенной БД (технология STAR)
Системы распределенных БД состоят из набора узлов, связанных вместе коммуникационной сетью, в которой: 1) каждый узел обладает собственной системой БД; 2) узлы работают согласован

Технология тиражирования данных
Принципиальная характеристика тиражирования (репликации) данных (Data Replication - DR) заключается в отказе от физического распределения данных. Суть DR состоит в том, что любая база данных (как д

Концепция активного сервера в модели DBS
Профессиональные СУБД обладают мощным активным сервером БД. Идея активного интеллектуального сервера БД стала ответом на следующие задачи реальной жизни: · БД должна отражать реальное сост

Вопросы и упражнения для самоконтроля к главе 7
1) Какие факторы влияют на реализацию технологии «клиент-сервер»? 2) Какой спектр операций манипулирования данными используется в модели файлового сервера? 3) Что означает пассивн