« Поставить закладку » « Сделать стартовой »

« Форумы » « Блоги » « Статьи » « Новости » « Файлы » « Realcoding IRC » « Site map » « Поиск »


Главная Главная
Анонсы Анонсы
Форумы Форумы
Каталог Каталог
Поиск Поиск
Опросы Опросы
Книжный магазин Книжный магазин
Реклама на сайте
Публикации Публикации
Партнеры Партнеры
Карта Карта сайта
Рассылки Рассылки
RSS экспорт
Настройки Настройки
О нас пишут О нас пишут
Контакты Контакты
Гостевая книга Гостевая книга


ПнВтСрЧтПтСбВс
      1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31  
    Популярное
Управление классами

Функция AccessResource

Функция LocalFlags

Генерируем данные для метода setFBML в Facebook из ASP.NET

Работа с графикой, графические подсказки

Получение информации о схеме размещения данных в объекте DataTabie (Таблица данных)

Отладка программы

Функция ReleaseDC

CakePHP: Добавляем «каменты» в блог.

Файлы как Модули




    Архив файлов



    Сообщества

    Документация

    Кто на сайте
Вы не зарегистрированы.
Имя:

Пароль:

Запомнить

Регистрация позволит Вам пользоваться дополнительными сервисами.
Сейчас на сайте:
Гостей: 144
Пользователей: 0

Статьи:: Интернет технологии :: XML :: Управление данными XML: подходы к определению документов XML



отправить ссылку другу версия для печати  Обсудить на форуме

Управление данными XML: подходы к определению документов XML

Название файла XML не обязательно должно иметь расширение .xml. Более того, документ XML даже не всегда может быть файлом. Он может представлять собой запись базы данных, часть файла, транзитный поток байтов в памяти, который даже не записывается на диск, или комбинацию нескольких различных файлов. Но многие документы XML все же хранятся на дисках или других носителях. В таком случае необходимо иметь возможность быстро их различать. В статье представлены наиболее распространенные расширения файлов и типы электронной корреспонденции (MIME media types), используемые в документах XML.

Трехбуквенные расширения используются для идентификации типов файлов как минимум с конца 1960-х годов. Некоторые операционные системы используют четыре, две или даже одну букву вместо трех, но общая конструкция не меняется: имя файла - точка - расширение. При перемещении файлов между гетерогенными системами имя и расширение часто оказываются единственными метаданными, которые остаются с ними.

Если документы XML хранятся в виде файлов, то лучше использовать стандартные расширения. Это существенно облегчает поиск, распознавание и обработку файлов XML. На сегодня самым распространенным расширением является .xml, но для отдельных подмножеств XML используется и ряд других (табл. 1).

Таблица 1. Стандартные расширения файлов XML

Расширение Значение
.xml Общий документ XML
.ent Элемент документа, фрагмент документа
.dtd Определение типа документа
.rdf XML-синтаксис описания ресурсов
.atom Обеспечение синдикации атомарных данных
.owl Язык онтологии web
.xhtml Расширяемый язык разметки гипертекста
.xsd Язык схем XML (W3C XML Schema Language)
.xsl Преобразования расширяемого языка таблиц стилей (Extensible Stylesheet Language, сокр. XSL)
.fo Форматирование объектов XSL
.rng Синтаксис RELAX NG XML
.sch Схема языка Schematron
.svg Масштабируемая векторная графика
.rss Простая синдикация (Really Simple Syndication), формат Rich Site Summary или RDF Site Summary
.plist Формат списка свойств Apple

Ресурсы, обслуживаемые web-сервером, не обязательно могут быть файлами. Но если они являются документами XML, то их URL должны обязательно заканчиваться одним из выше названных расширений, соответствующих конкретному типу того или иного ресурса.

Типы электронной корреспонденции

При передаче файла web-сервер посылает не только его имя и содержание. Он также отправляет множество метаданных о файле в заголовке HTTP (см. листинг 1):

Листинг 1. Пример метаданных

HTTP/1.1 200 OK
Date: Sun, 23 Jan 2005 18:21:33 GMT
Server: Apache/2.0.52 (Unix) mod_ssl/2.0.52 OpenSSL/0.9.7d
Last-Modified: Sun, 10 Oct 2004 16:17:21 GMT
ETag: "3e06d-16a05-2dbc8640"
Accept-Ranges: bytes
Content-Length: 92677
Content-Type: application/xhtml+xml

Необходимо обратить внимание на заголовок Content-Type в последней строке. Его значение - application/xhtml+xml - это тип электронной корреспонденции (он может сопровождаться информацией о наборе символов документа). Web-браузеры и другие получатели используют эти метаданные для того, чтобы понять, как обрабатывать файл. Например, такие данные позволяют определить, может ли файл быть представлен в своем оригинальном виде или необходимо использовать вспомогательное приложение. Типы электронной корреспонденции используются и в других контекстах, в том числе в электронной почте, а также в некоторых экспериментальных операционных системах, например, BeOS. Linux и другие системы UNIXR также пользуются типами электронной корреспонденции, но делают это несколько по-другому. Они не присваивают файлам напрямую определенные типы электронной корреспонденции, а преобразуют ("мэппируют") расширения файлов в эти типы. Основная область практического использования типов электронной корреспонденции - это интернет.

Основной тип содержимого для типичного документа XML - application/xml. Тип text/xml также является зарегистрированным, но он подвергнулся осуждению из-за некоторых неудачных взаимодействий с другими частями протокола HTTP. (Использование text/xml указывает, что документ находится в кодировке ASCII, даже если декларация XML дает другую информацию). Ниже приведены еще несколько основных зарегистрированных типов электронной корреспонденции:

  • application/xml-dtd - используется для определения типа документа;
  • application/xml-external-parsed-entity - используется для фрагментов документов.

По существующему соглашению, для более специфических типов форматов XML используется тип application/foo+xml, где foo подразумевает употребление специального словаря XML. Например, application/rdf+xml для RDF, application/xhtml+xml для XHTML, application/svg+xml для SVG и т.д. При этом обычные процессоры XML могут распознать, что документ находится в формате XML, а процессоры для обработки тех или иных специальных форматов способны определить, в каком именно формате он создан. В таблице 2 перечислены некоторые наиболее распространенные типы электронной корреспонденции.

Таблица 2. Типы электронной корреспонденции XML


 
Типы корреспонденции Формат документа
image/svg+xml* Масштабируемая векторная графика
application/atom+xml* Синдикация атомарных данных
application/mathml+xml* Математический язык разметки
application/beep+xml Расширяемый протокол обмена блоков
application/cpl+xml Язык обработки запросов
application/soap+xml Сообщение SOAP
application/epp+xml Расширяемый протокол инициализации
application/rdf+xml XML-синтаксис описания ресурсов
application/xhtml+xml Расширяемый язык разметки гипертекста
application/xop+xml Бинарная оптимизированная организация пакетов XML
application/xslt+xml* Таблица стилей расширяемого языка преобразования таблиц стилей
application/xmpp+xml Расширяемый протокол обмена сообщениями и присутствия
application/voicexml+xml* Голосовой расширяемый язык разметки

* Находится в процессе регистрации

Невозможно создавать новые типы электронной корреспонденции для каждого вновь появляющегося формата. Новые типы должны публиковаться в виде формальной спецификации (часто это так называемые "Запросы на комментарии" (Request for Comments) Проблемной группы проектирования Internet (Internet Engineering Task Force, сокр. IETF)) и регистрироваться в Агентстве по выделению имен и уникальных параметров протоколов Internet (Internet Assigned Numbers Authority - IANA). Но экспериментальные подтипы могут определяться и без регистрации. Они должны начинаться с символов х-. Например, тип корреспонденции для авторского языка разметки номенклатуры телевизоров, придуманного автором в качестве примера для его книги "Библия XML 1.1" (XML 1.1 Bible), может быть назван application/x-tvml+xml. Тип application указывает процессорам, что данный файл должен обрабатываться не как данные ASCII. Выражение +xml в конце названия подтипа информирует, что это файл XML, х- говорит о том, что это не зарегистрированный тип, а tvml несет информацию о виде данных.

Эвристические процедуры

Самый простой способ определить, является ли тот или иной файл документом XML - открыть его и посмотреть. Это не самый быстрый способ, кроме того, он не подходит для больших наборов документов XML. Но иногда такой путь является единственным, чтобы точно понять, что содержит элементы XML - файл или поток данных. Можно проверить файл или поток с помощью парсера, но это достаточно трудоемкое решение. Несколько простых эвристических процедур, основанных на первых байтах файла, способны дать информацию о том, может ли файл или поток оказаться документом XML и, соответственно, стоит ли проверять его с помощью парсера. Например, каждый корректно созданный документ XML должен начинаться со знака <, который может предваряться пробелом. На практике в начале документов XML обычно можно увидеть одну из следующих конструкций:

  • <?xml
  • <!DOCTYPE
  • <foo, где foo - любое имя XML

Проблемы с наборами символов несколько усложняют распознавание. Во всех трех случаях перед этими символами может присутствовать или отсутствовать порядковый знак в виде байта Unicode, причем в различных форматах: UTF-8, а также UTF-16 с прямым или обратным порядком байтов. Более того, могут использоваться числа из любых наборов символов помимо Unicode, в частности из ASCII, ISO-8859-1 (Latin-1) и EBCDIC. Но поскольку эти наборы во многом перекрываются в области символов, которые с наибольшей вероятностью могут оказаться в начале документа XML, все их разнообразие сводится к нескольким общим последовательностям байтов, показанным ниже в шестнадцатеричном формате:

  • FE FF 00 3C 00 3F
  • FF FE 3C 00 3F 00
  • 3C 3F 78 6D
  • EF BB BF 3C 3F
  • 4C 6F A7 94
  • 3C

Эти эвристические процедуры отнюдь не являются универсальными. Их наиболее характерная ошибка - идентификация неправильно оформленных документов HTML как возможных файлов XML. Работу этих процедур можно улучшить, если убрать начальные пробелы (знаки табуляции, символ возврата каретки или новой строки и собственно пробел) перед первым знаком < или убедиться, что первый знак после символа < - это ?, ! или одна из возможных первых букв имени XML. На практике, если документ не начинается с одной из выше названных последовательностей, он вряд ли окажется файлом XML. Если контролировать эти символы в первую очередь, то можно отбросить множество лишней информации и сэкономить время за счет того, что парсеры будут проверять только документы, которые с наибольшей вероятностью являются файлами XML.

Заключение

Еще один способ определить, какие файлы представляют собой документы XML, - просто помнить, где они находятся. Но если этот метод подходит для личных приложений пользователя, то в случае других приложений, которым нужен доступ к тем же данным, но которые не знакомы с системой наименования файлов, принятой пользователем, могут возникнуть проблемы. Поэтому, если пользователь следует стандартным соглашениям относительно наименований файлов и типов электронной корреспонденции (или хотя бы не отклоняется от них беспричинно), его документы становятся более доступными для всех. Это также способствует расширению возможностей XML по обмену данными между гетерогенными системами.

Ресурсы
Об авторе
Эллиотт Расти Хэролд (Elliotte Rusty Harold) - адъюнкт-профессор в области теории вычислительных машин и систем Политехнического университета в Бруклине. Он преподает технологию Java и объектно-ориентированное программирование. Он также поддерживает два сайта: Cafe au Lait - один из наиболее популярных независимых сайтов по Java и Cafe con Leche - один из наиболее популярных сайтов по XML. Эллиотт - автор нескольких книг: "Эффективная работа с XML" (Effective XML), "Обработка документов XML с помощью Java" (Processing XML with Java), "Сетевое программирование на Java" (Java Network Programming) и "Библия XML 1.1" (The XML 1.1 Bible). В настоящее время он работает над XOM API для обработки документов XML, а также над инструментами формирования запросов XQuisitor GUI. С автором статьи можно связаться по адресу elharo@metalab.unc.edu.

Эллиотт Расти Хэролд (Elliotte Rusty Harold)
Перевод: Intersoft Lab
Оригинал: Managing XML data: Identify XML documents




Рубрика: XML




HTML 5: пять вещей вызывающих особый интер....

Html

HTML 5 — это грядущее обновление гипертекстового языка разметки, основного способа создания контента для размещения его во всемирной паутине. Разработка HTML остановилась в 1999 году, на версии HTML 4.01 и с тех пор web-содержимое изменилось так, что текущие спецификации HTML перестали соответствовать сегодняшним требованиям. HTML 5 нацелен на то, чтобы увеличить функциональную совместимость HTML и соответствовать растущим требованиям разнообразного и смешанного web-контента. HTML 5 так же нацелен на устранение недостатков четвертой версии. В этой статье мы взглянем на 5 новых интересных вещей в HTML 5.


Подробнее... | Рубрика: Html | Добавлено: 22.12.2008

asp.net: ListView с разных сторон.

.NET компоненты

Элемент управления ListView был представлен в .Net Framework 3.5 как замена устаревшему GridView. Новый элемент имеет более расширенный функционал, чем его предшественник, но в тоже время лишен некоторых внутренних механизмов, что впрочем целиком следствие из расширенной универсальности ListView. Среди отличий ListView и GridView можно назвать и гибкую настройку разметки, что позволяет выводить данные не только в табличном виде, но и вообще в любом каком пожелает программист. Благодаря шаблонам ItemTemplate, EditItemTemplate, InsertItemTeplate можно настроить внешний вид при любом из состояний ListView: редактировании или выборе элемента.


Подробнее... | Рубрика: .NET компоненты | Добавлено: 22.12.2008

Создание кросс-таб отчета в Stimulsoft Rep....

.NET компоненты

Компания Стимулсофт предоставляет для разработчиков мощный набор инструментов для создания отчетов для Microsoft Visual Studio .Net 2005 и 2008; эти инструменты доступны как для Windows Forms, так и для Web Forms. Это генератор отчетов Stimulsoft Reports.Net. Генератор отчетов Stimulsoft Reports.Net имеет ряд особенностей: простая работа с дизайнером отчетов, полная поддержка экспорта в PDF, Word, Excel и многие другие форматы. Crystal Report и Microsoft Reporting Service – очень хорошие программные продукты для повседневной работы, но, если Вам необходимо создать отчеты с поддержкой кросс-табов, drill down, Ajax, штрих-кодов и возможностью подключения одновременно более одного источника данных, то Stimulsoft Reports.Net поможет Вам сэкономить массу времени. Также, данный генератор отчетов позволяет пользователям создавать свои собственные отчеты любой сложности. И все эти особенности делают Stimulsoft Reports.Net хорошим выбором в сфере программных продуктов для Business Intelligence.


Подробнее... | Рубрика: .NET компоненты | Добавлено: 22.12.2008

Остальные статьи:

VivaMP - инструмент для OpenMP
Создаем контекстно-зависимое WPF-приложени...
Windows Vista SP2: что внутри и что важно?
Вышел MySQL 5.1.30, первый стабильный рели...
Тестирование параллельных программ
Архитектура AMD64 (EM64T)
Платформа 2009. Определяя будущее
Windows Vista Bridge Sample Library - упра...
Оптимизация 64-битных программ
Подгрузка через AJAX HTML-кода, содержащег...
Обзор нового релиза самой мощной Ajax библ...
Firebug 1.3 и 1.4 alpha — что нового и инт...
Релиз Microsoft Silverlight 2.0. Что новог...
XML документация в C#
Курсоры в MySQL 5
Microsoft опубликовала подробности о сесси...
Microsoft делится подробностями о том, что...
Тестируем новый javascript от нового брауз...
MySQL Query Cache
Использование провайдеров компиляции в As...


Цитата дня (все,добавить):

Портал фрилансеров

работа на дому


    Рубрикатор

Программирование

C/С++
Обучение
Windows API
XAML
Моделирование
Паттерны
Visual Basic 7 .NET
WxWidgets
Функции WinApi
Функции С++
Разработка под Mac OS
Eiffel
Visual Studio 2008
UI дизайн
Алгоритмы
Конкурсные статьи
Turbo Pascal
Visual Studio
CASE-средства
Visual Studio 2005
Без VCL
Delphi
Тех. документация
Тестирование
Software Testing
ООП
TCP/IP
Google Android
Windows Installer
.NET Framework
Драйвера
C# C Sharp
Справка
Проектирование
Информ. системы
Visual Basic
Assembler
Оптимизация кода
Gtk+
Компоненты
Реинжиниринг
Управление проектами
Extreeme programming
Lotus Notes
Алгебраическое проектирование


Интернет технологии

PHP
Perl
ASP
WAP
Cookies
SSI
CGI
Web Servers
VB Script
DNS
CSS
XML
Html
Java Script
Java2ME
Firewall
Flash
.htaccess
Apache
VRML
Протоколы
Поисковые системы
Технология JAVA
Учебник по PHP
Учебник по JavaScript
Учебник по XML
Java Q&A
AJAX
DHTML
XHTML
Dreamweaver
Web 2.0
Python
Вебмастеру
Cisco
Ruby on Rails
Silverlight

Базы данных

Access
InterBase
MySQL
Oracle
ADO .NET
Основы SQL
Учебник по Access 2002
MS
Microsoft FoxPro
Доступ к данным
XML в MS SQL Server 2000
ODBC и MyODBC
Обучение
Caché
DB2
PostgresSQL
Sybase
Теория
Хранилища данных
Безопасность
Реляционные данные
MySQL и mSQL

Остальное:

Разное
Обзоры книг
Безопасность
Графика и дизайн
Юмор
Linux
Фракталы
Microsoft Axapta
Многоядерность
Сети
Microsoft Office
Работа
MS-DOS
Криптография
Графика и игроделание
Новости SDK
Системы защиты
Учебник по AutoCad
CVS
Windows XP
Windows Server 2003
Windows Vista
Windows 7
Мероприятия