Форматы электронных книг
Единого и однозначного формата, который мог бы применяться при создании электронных книг (е-книг) не только не придумали, но и в ближайшие годы подобный стандарт по отношению форматов даже невозможно представить. Как говорится, на вкус и цвет товарищей нет. Каждый постарается выбрать, что ему удобнее, или просто больше нравится. Поэтому в электронных изданиях ныне находят применение различные форматы, из которых самыми распространенными считаются DOC, TXT, PDF, EXE, CHM, DJVU, FB2 и, наверное, сюда можно также причислить некоторые другие.
Сразу следует пояснить, что в данной статье рассказывать о двоичных форматах, которые представляют интерес разве что для опытных программистов, мы не собираемся. Эта обзорная статья предназначается лишь для обыкновенных чайников или по-другому неопытных пользователей интернета, которые имеют довольно слабое представление о текстовых файлах (или, такое тоже вероятно, не имеют вовсе) и может помочь этим пользователям разобраться, что собой представляет каждый из них. Классификация форматов, предлагаемая вашему вниманию, вовсе не является официальной и общепринятой, её я принял для удобства представления. Если у кого-то по этому поводу возникнут возражения или захочется выразить протест, я не только согласен выслушать этого человека, но и привести данную классификацию к общему знаменателю, если, конечно, аргументы будут предельно чёткими.
Исходя из вышесказанного, можно условно поделить форматы электронных книг на несколько групп: текстовые форматы, веб-форматы, автономные форматы и специальные форматы, а если по-другому, форматы, предназначенные для применения в специальных программах и аппаратах. При этом некоторые форматы могут иметь признаки «гибридных», и их можно будет относить к различным группам.
К типично текстовым форматам, применяемым для создания электронных книг отнесём файлы с расширениями RTF, DOC, и TXT. К группе текстовых форматов иногда ещё причисляют документы, которые получены при помощи OCR (Optical Character Recognition), но это несомненно, ошибка. Ведь, OCR - это вовсе не формат, это система оптического распознавания графических и текстовых знаков, для автоматического ввода документов в компьютер.
*.RTF (Rich Text Format - формат обогащённого текста; в переводе с английского rich - богатый) - этот формат является межплатформенным форматом хранения размеченных текстовых документов, который предложили компания Microsoft. Это довольно широко распространенный стандарт, в котором представлены графические и текстовые данные и который подерживают практически все текстовые редакторы, работающие на различных типах процессоров и ОС. RTF-файл, который создан на PC-совместимом компьютере под управлением Windows, можно спокойно читать также и на Apple Macintosh под MacOS.
Структура стандартного RTF-файла представляет из себя последовательность секций данных, заключённых в специальные метки (тэги), которые указывают программе-обработчику начало или конец секции. Данные, о которых здесь идёт речь, могут быть различных типов: текстовые блоки, графические объекты, таблицы, а также выполняемые файлы и пр.
При запуске RTF-файла обработчик просматривает его содержимое и автоматически выполняет все известные ему секции, проопуская незнакомые. Структура RTF также подразумевает возможность безболезненного ввода новых видов секций, которые необходимы пользователю для выполнения специфических задач. Причём эти новые секции не будут влиять на общую работоспособность программы в других приложениях.
Большинство текстовых редакторов в своих опциях имеют возможность реализации импорта/экспорта в формат RTF, благодаря чему данный формат достаточно часто применяется в качестве «общего» для передачи текста из одной программы в другую. Преимущественно документ состоит из команд управления настройки программы чтения файлов в RTF-формате. Эти команды можно разделять на управляющие слова (control words) и управляющие символы (control symbols).
*.DOC (формат, также разрабатывался компанией Microsoft специально для офисного приложения Word, и на сегодня является наиболее популярным из всех используемых текстовых процессоров, что утверждает бинарный формат документа, как стандарт де-факто, в связи с чем большинство конкурирующих программ имеют поддержку совместимости с данным форматом. Расширение .doc на платформе IBM PC является синонимом двоичного формата Word 97—2000. Фильтры экспорта и импорта в описываемый формат реализованы в большинстве текстовых процессоров. Формат документа различных версий Word меняется, и различия бывают достаточно тонкими. Форматирование, которое нормально выглядит в последней версии, в старых версиях приложения скорее всего не отобразится, но есть ограниченная возможность сохранения документа с потерей части форматирования для применения в старых версиях программы. Последней версией MS Word 2007 «по умолчанию» используется формат, который основан на XML - Microsoft Office Open XML. Спецификация форматов файлов Word 97-2007 была опубликована Microsoft в 2008 году.
*.ODF (OpenDocument Format - OASIS Open Document Format for Office Application — открытый формат документов для офисных приложений) - представляет из себя открытый формат файлов документов, используемый для хранения и обмена редактируемыми офисными приложениями, в числе которых текстовые документы (такими как заметки, отчёты и книги), электронными таблицами, рисунками, базами данных, презентациями. Этот формат открывает доступ к содержанию документов независимо от вида и версии приложения, в котором они создавались.
Стандарт разработало индустриальное сообщество OASIS и основан он на XML-формате, изначально созданном компанией OpenOffice.
*.TXT – формат, с которым многим из вас с большой долей вероятности приходилось сталкиваться при использовании стандартного блокнота Windows. Возможности данного формата в качестве е-книжного стандарта сложно однозначно оценивать. С одной стороны, данный формат не поддерживает оформления текста, что безусловно уменьшает его возможности, с другой же стороны — нет такой платформы, на которой txt-файл невозможно было бы открыть. И это его основной плюс. Формат используется большинством сетевых библиотек для изготовления е-книг исходя из простоты издания. Стоит скопировать текст в текстовый файл и все, больше никаких манипуляций делать не надо. Хотя, книжкой это назвать как-то язык не поворачивается, но имеются программы для удобного чтения в данном формате, что несколько сглаживает отрицательный эффект.
Пожалуй, на этом закончу описание данной группы форматов, общим для которой будет их всеобщая доступность и широкое распространение среди пользователей. Можно принять, что в этой группе представлены удобные форматы для черновой работы над книгами и не совсем удобные, для представления конечного результата этой работы. В другой группе представим веб-форматы. К типичным веб-форматам, используемым для электронных изданий можно отнести форматы html, xhtml, sml, oeb.
*.HTML (Hypertext Markup Language — язык разметки гипертекста) — является стандартным языком разметки документов в сети интернет. Большинство веб-страниц создаются именно, опираясь на этот формат. По открытости, индексируемости, конвертируемости и читаемости на любой платформе к данному формату невозмождно предъявить какие-либо претензии. Другое дело, когда его применяют для издания полноценных книг с иллюстрациями. Такие книги будут состоять из нескольких файлов, что не совсем удобно. К тому же, если файл правильно создан и оптимизирован, нет возможности применить сжатие. Впрочем, стоит сказать, что для конвертации в некоторые популярные форматы, без HTML обойтись не удастся. Возможностями HTML пользуются также основанные на нем многие форматы, такие, как например, iSilo.
*.XHTML Основное различие между HTML и XHTML состоит в том, что в XHTML применен синтаксис XML, предназначенный для помощи в разработке синтаксически корректных и правильных документов XML. XHTML представляет собой словарь XML, в то время как HTML — это лишь предшествующий XHTML язык разметки. Большинство содержимого интернета, написанного на XHTML выдаётся в виде “text/html”, иными словами браузеры проводят разбор страницы в виде набора обычных тэгов, а не как XML. Одна из причин вышеуказанного подхода кроется в довольно жестком механизме обработки ошибок в XML. Разбор XML-документа остановится на первой же ошибке. Это значит, что страница с даже с единственной ошибкой будет полностью недоступна пользователю. Неправильное построение XML документа может показать только детали ошибки, но не её содержание. Риск допустить ошибку даже в правильно построенном и сформированном XML-документе имеется всегда. Часто с таким явлением можно столкнуться на страницах, где содержание не контролируется XML-инструментами с хорошей обработкой различных кодировок. Например ошибки появляются там, где посетители оставляют комментарий или запись, или где содержание появляется из внешних источников, таких как обратная связь, рекламные сервисы или какое-либо расширение к программе или к веб-приложению. Всё это довольно часто приводит к возникновению ошибок.
Факт, что Internet Explorer не поддерживает XHTML в виде XML, и проблемы, создаваемые XML в случаях, если не все инструменты разработчика являются именно XML-инструментами, отбивает желание использовать XML во всемирной сети.
*.SML (Structured Modeling Language - язык структурного моделирования ) - текстовый язык, подобный файлу языка определений SQL, является специальным типом текстового файла, предназначенным для хранения информации, относящейся к модели «сущность-связь», в текстовом формате. Использование SML дает возможность легко переносить модели из одного CASE-средства в другое, при условии, что оба средства поддерживают данный формат.
Особенностью спецификации SML является то, что она позволяет давать унифицированные определения самым разнообразным сервисам, процессам и прочим элементам сетевой инфраструктуры. При этом предполагается использование стандартных блоков, описывающих те или иные функции, особенности объектов и т.д. Над разработкой спецификации SML работали компании Microsoft, IBM, BEA Systems, BMC Software, CA, Cisco Systems, Dell, EMC, Hewlett-Packard, Intel и Sun Microsystems. При этом каждый из участников данной инициативы предоставил для нужд проекта свою интеллектуальную собственность.
*.OEB Открытый формат, основанный на XHTML (XML) и созданный в свое время консорциумом компаний под предводительством Microsoft. В сущности, OEB-книга является ZIP-архивом xhtml- (xml-) графических файлов и файла с информацией о документе в целом. В своем текущем состоянии формат практически умер, однако OpenReader Consortium все-таки строит грандиозные планы по расширению возможностей OEB и его превращению в по-настоящему универсальный формат.
Наиболее удобными для применения в качестве электронных книг, или по-другому, e-book’ов являются группа автономных форматов. Именно, данные форматы имеют самое полное право считаться «е-книжными», и считаются ими абсолютным большинством пользователей.
*.PDF (Portable Document Format) - переносный платформонезависимый портативный формат электронных документов. Данные в него могут импортироваться из большинства современных форматов текстовых документов, а также векторных и растровых графических форматов. Для просмотра PDF-файла пользователю не нужно ничего, кроме самого файла и бесплатной программы, подобной Adobe Reader. Этот формат прост в использовании и его отличает довольно удобная навигация, которая позволяет быстро найти нужную страницу. Также имеется возможность шифрования файла для коммерческого использования. PDF-формат имеет множество достоинств, хотя, при этом не исключены и недостатки: даже при заметном сокращении объема, файлы PDF остаются невероятно громоздкими, к тому же, защита, применяемая для кодирования файла, если не применять специальных для этого программ – знающие программисты преодолевают в несколько секунд. Несмотря на это, именно в этом формате распространяется большинство технической документации и не только. Множество коммерческих изданий за рубежом также издаются в этом формате. Лидером среди публикаций в PDF-формате является всем известный Adobe Acrobat. Но для создания и чтения применяются также иные программы, как, например, Foxit Reader, eXPert PDF Reader, PDF-XChange Viewer, PDF Reader (не поддерживает русские кодировки) и некоторые другие менее известные программы.
*.Exe. Достаточно популярным при создании е-книг является формат самоисполняемых файлов с расширением *.exe. Если не рассматривать того, что некоторые антивирусы недоверчиво относятся к exe-файлам, он также весьма удобен для пользователя. Из чего, собственно, состоит файл *.exe? Первой его составляющей является управляющая информация для загрузчика и загрузочного модуля. Информация для загрузчика расположена в начале файла и образует так называемый заголовок. Следом идет вторая составляющая - тело загрузочного модуля, начинающееся на границе блока и представляющее собой копию образа памяти задачи, построенной компоновщиком. Е-Книга в этом формате может содержать текст, рисунки, анимацию, навигационный гипертекст, поиск по содержимому, живые линки на веб-страницы, Java Applets и JavaScripts, что естественно увеличивает ее визуальные демонстрационные возможности. Большинство таких программ в качестве исходников применяют HTML, GIF, JPEG и стандартные плагины. Имеется также возможность применения парольной защиты всей е-книги, и даже отдельных ее страниц, запрет на печать и копирование, что делает именно данный формат возможным для коммерческого распространения. Конечно, у него также имеются свои ограничения: книги Exe работают только на WINDOWS-платформе. Однако, легкость и быстрота изготовления макета, позволяет создавать е-книги не только профессиональным издателям, но также самиздату. Самоисполняемость файла обеспечивает работу без дополнительного программного обеспечения. Внешний вид книги максимально приближен к типографской форме, и потому создает довольно комфортное ощущение чтения обычной книги, или на выбор, к браузеру компьютера, что также удобно.
*.ExeBook. Хотя, он и относится к формату Exe, все же его можно назвать особым форматом. Данный формат разработан Яковом Судейкиным специально для книгоиздания. В этом формате реализован визуальный эффект «живой» книги, что создает для пользователя возможность комфортного чтения. Неплохо также реализована и защита для коммерческого распространения е-книги. И, как водится, существуют у этого формата также серьезные недостатки. Прежде всего это касается оформительских возможностей формата, и некоторых шрифтовых ограничений. А так, если вы используете ОС Windows в своем компьютере, лучшего формата для издания книги на сегодняшний день вы не найдете.
*.DjVu (дежа-вю от фран. déjà vu — уже виденное) - это технология сжатия изображений, разработанная специально для распространения сканированных документов — книг, прежде всего математических, журналов и пр. Впрочем, ассортимент изданных книг вышеперечисленными категориями не ограничивается – в этом формате можно отсканировать и сжать любую книгу. Иногда формат DjVu называют «тексто-графическим» форматом. Он оптимизирован для передачи по сети таким образом, что страницу можно просматривать ещё до завершения скачивания. DjVu-файл может содержать текстовый (OCR) слой, что позволяет осуществлять полнотекстовый поиск по файлу. Кроме того, в DjVu-файле может быть предусмотрено встроенное интерактивное оглавление и активные области — ссылки, что позволит реализовывать удобную навигацию в DjVu книгах. Размер файла отсканированной книги оказывается в пределах нескольких мегабайт, что также вполне приемлемо. DjVu обеспечивает для файлов с черно-белыми монохромными изображениями сжатие порядка 500:1. Выигрыш в размере файла по сравнению с форматом GIF составляет в среднем 20 раз. Суть технологии DjVu заключается в автоматическом разбиении изображения на несколько участков (например, текст, логотип фирмы и растровая фотография), для каждого из которых выбирается оптимальный для данного графического образа алгоритм сжатия. Для чтения в этом формате существуют довольно удобные программы.
*.CHM (Compiled HTML). Изначально формат CHM создавался для формирования удобной и функциональной справочной системы для программ Windows. Данный формат часто применяется не только для создания хелп-систем к ПО, но также для создания книг в электронном виде. Самой сильной стороной рассматриваемого формата является наличие в CHM файлах полнотекстового поиска. Вкратце файл CHM — это набор скомпилированных HTML-файлов, иначе, нечто вроде архива из Web-страниц. И действует CHM-файл по принципу архива, сжимает данные, хранящиеся в нем, но не все, а только текстовые или содержащие текст, сформатированный при помощи тегов HTML (HTML, TXT, CSS и файлы других форматов).
*.XPS (XML Paper Specification) фактически является подмножеством формата XAML (Extensible Application Markup Language), который позиционируется Microsoft в качестве нового стандарта для языков разметки и широко используется в WPF (Windows Presentation Foundation) для создания пользовательских интерфейсов и одновременно является компонентом платформы WPF. По утверждению многих экспертов ожидается, что данный формат станет идеальным средством хранения, отображения и публикации данных WPF приложений. XPS преследует те же цели, что и PDF: отображение документа предполагается именно в том виде, в каком он создавался, независимо от ПО, установленного на компьютере. Данный формат не требует дополнительных компонентов системы, в частности, шрифтов, и в то же время дает разработчику уверенность, что документы у клиента будут отображены именно так, как задумано, к тому же, копирование или изменение данных клиентом невозможно.
И напоследок познакомьтесь с многочисленной группой специальных форматов, созданных для корректной работы конкретных программ и оборудования
*.LIT. Закрытый формат от Microsoft, основанный на OEB. Индексации не поддается, воспринимается исключительно «родной» программой MS Reader. Microsoft LIT имеет ряд инструментов, которые делают его очень похожим на Adobe PDF: в частности, доступны закладки, аннотации и масштабирование. Степень сжатия текста — 50-60%.
*.iSilo (Pаlm Os Platform /pdb - Palm Pilot Database format) - довольно-таки популярный формат базы данных, применяемый для карманных устройств. Используется для сохранения записей в базе данных во всех 3Com PalmPilot, IBM Workpad и Macintosh/PC. Одно из главных его достоинств — высокая степень сжатия текста. Поддерживается множество шрифтов, формат корректно работает с графикой, дает возможность вставлять в книги гиперссылки. Размер одной записи может превышать 64кб, имеются биты BackUp и т.д. Через вьювер от iSilo книги в формате PDB выглядят, как в формате CHM. Особенных достоинств у этого формата не заметно, однако встречаются довольно интересные книги скомпилированные в PDB.
*.PalmDOC (он же — PDB и AportisDoc). Еще один популярный Palm-формат. Его правильно воспринимает большинство программ для чтения электронных книг. При этом степень сжатия гораздо ниже, чем это реализовано у iSilo.PDB, и отсутствует поддержка графики.
*.FB2. (FictionBook 2.0) - открытый формат, основанный на XML, что (теоретически) позволяет создавать программы для чтения на любой платформе. Поддержка Unicode совершенно решает проблему корректного отображения текстов на разных языках. Поддерживается графика. Для Windows и Pocket PC выпущено множество инструментов для чтения книг в этом формате и для конвертации в него текстов из других форматов, существуют библиотеки, поддерживающие FB2 и экспорт из него в различные форматы. Однако, читалок FB2 под другие платформы, пока не существует.
*.RB. Формат разработан специально под устройства для чтения электронных книг Rocket Book и в данный момент постепенно умирает вместе с устройством, для которого создавался.
*.zTXT. - закрытый формат, напоминающий PalmDOC, только с гораздо более высокой степенью компрессии (до 45%). В этом формате допускается возможность вставки закладок, поддерживаются гиперссылки. Применяется на Palm OS.
*.TR (ToRaTRPW). - формат программы Tome Raider. Этот формат отличается одной из наиболее высоких степеней сжатия. А благодаря возможности индексации текста его можно использовать при составлении каталогов электронных книг.
*.DataPlkr. - открытый формат Plucker — специальной программы, предназначенной для просмотра веб-документов на устройствах Palm. Он корректно отображает рисунки, гиперссылки и различные шрифты. А конвертирование в этот формат вовсе не требует запуска внешних приложений — после установки соответствующего ПО его можно производить при помощи контекстного меню.
*.FBR. - защищенный формат данных, доступный для чтения программой Franklin Reader.
*.PRC. Palm-формат, поддерживаемый программой Mobi Pocket.
Конечно можно перечислять в этом обзоре еще не один десяток форматов. Но это, пожалуй, будет интересно либо, опытным специалистам, либо пользователям не слишком распространенных, чтобы их рассматривать в этом обзоре, диковинных аппаратов или программ.
Исходя из вышесказанного, можно условно поделить форматы электронных книг на несколько групп: текстовые форматы, веб-форматы, автономные форматы и специальные форматы, а если по-другому, форматы, предназначенные для применения в специальных программах и аппаратах. При этом некоторые форматы могут иметь признаки «гибридных», и их можно будет относить к различным группам.
К типично текстовым форматам, применяемым для создания электронных книг отнесём файлы с расширениями RTF, DOC, и TXT. К группе текстовых форматов иногда ещё причисляют документы, которые получены при помощи OCR (Optical Character Recognition), но это несомненно, ошибка. Ведь, OCR - это вовсе не формат, это система оптического распознавания графических и текстовых знаков, для автоматического ввода документов в компьютер.
*.RTF (Rich Text Format - формат обогащённого текста; в переводе с английского rich - богатый) - этот формат является межплатформенным форматом хранения размеченных текстовых документов, который предложили компания Microsoft. Это довольно широко распространенный стандарт, в котором представлены графические и текстовые данные и который подерживают практически все текстовые редакторы, работающие на различных типах процессоров и ОС. RTF-файл, который создан на PC-совместимом компьютере под управлением Windows, можно спокойно читать также и на Apple Macintosh под MacOS.
Структура стандартного RTF-файла представляет из себя последовательность секций данных, заключённых в специальные метки (тэги), которые указывают программе-обработчику начало или конец секции. Данные, о которых здесь идёт речь, могут быть различных типов: текстовые блоки, графические объекты, таблицы, а также выполняемые файлы и пр.
При запуске RTF-файла обработчик просматривает его содержимое и автоматически выполняет все известные ему секции, проопуская незнакомые. Структура RTF также подразумевает возможность безболезненного ввода новых видов секций, которые необходимы пользователю для выполнения специфических задач. Причём эти новые секции не будут влиять на общую работоспособность программы в других приложениях.
Большинство текстовых редакторов в своих опциях имеют возможность реализации импорта/экспорта в формат RTF, благодаря чему данный формат достаточно часто применяется в качестве «общего» для передачи текста из одной программы в другую. Преимущественно документ состоит из команд управления настройки программы чтения файлов в RTF-формате. Эти команды можно разделять на управляющие слова (control words) и управляющие символы (control symbols).
*.DOC (формат, также разрабатывался компанией Microsoft специально для офисного приложения Word, и на сегодня является наиболее популярным из всех используемых текстовых процессоров, что утверждает бинарный формат документа, как стандарт де-факто, в связи с чем большинство конкурирующих программ имеют поддержку совместимости с данным форматом. Расширение .doc на платформе IBM PC является синонимом двоичного формата Word 97—2000. Фильтры экспорта и импорта в описываемый формат реализованы в большинстве текстовых процессоров. Формат документа различных версий Word меняется, и различия бывают достаточно тонкими. Форматирование, которое нормально выглядит в последней версии, в старых версиях приложения скорее всего не отобразится, но есть ограниченная возможность сохранения документа с потерей части форматирования для применения в старых версиях программы. Последней версией MS Word 2007 «по умолчанию» используется формат, который основан на XML - Microsoft Office Open XML. Спецификация форматов файлов Word 97-2007 была опубликована Microsoft в 2008 году.
*.ODF (OpenDocument Format - OASIS Open Document Format for Office Application — открытый формат документов для офисных приложений) - представляет из себя открытый формат файлов документов, используемый для хранения и обмена редактируемыми офисными приложениями, в числе которых текстовые документы (такими как заметки, отчёты и книги), электронными таблицами, рисунками, базами данных, презентациями. Этот формат открывает доступ к содержанию документов независимо от вида и версии приложения, в котором они создавались.
Стандарт разработало индустриальное сообщество OASIS и основан он на XML-формате, изначально созданном компанией OpenOffice.
*.TXT – формат, с которым многим из вас с большой долей вероятности приходилось сталкиваться при использовании стандартного блокнота Windows. Возможности данного формата в качестве е-книжного стандарта сложно однозначно оценивать. С одной стороны, данный формат не поддерживает оформления текста, что безусловно уменьшает его возможности, с другой же стороны — нет такой платформы, на которой txt-файл невозможно было бы открыть. И это его основной плюс. Формат используется большинством сетевых библиотек для изготовления е-книг исходя из простоты издания. Стоит скопировать текст в текстовый файл и все, больше никаких манипуляций делать не надо. Хотя, книжкой это назвать как-то язык не поворачивается, но имеются программы для удобного чтения в данном формате, что несколько сглаживает отрицательный эффект.
Пожалуй, на этом закончу описание данной группы форматов, общим для которой будет их всеобщая доступность и широкое распространение среди пользователей. Можно принять, что в этой группе представлены удобные форматы для черновой работы над книгами и не совсем удобные, для представления конечного результата этой работы. В другой группе представим веб-форматы. К типичным веб-форматам, используемым для электронных изданий можно отнести форматы html, xhtml, sml, oeb.
*.HTML (Hypertext Markup Language — язык разметки гипертекста) — является стандартным языком разметки документов в сети интернет. Большинство веб-страниц создаются именно, опираясь на этот формат. По открытости, индексируемости, конвертируемости и читаемости на любой платформе к данному формату невозмождно предъявить какие-либо претензии. Другое дело, когда его применяют для издания полноценных книг с иллюстрациями. Такие книги будут состоять из нескольких файлов, что не совсем удобно. К тому же, если файл правильно создан и оптимизирован, нет возможности применить сжатие. Впрочем, стоит сказать, что для конвертации в некоторые популярные форматы, без HTML обойтись не удастся. Возможностями HTML пользуются также основанные на нем многие форматы, такие, как например, iSilo.
*.XHTML Основное различие между HTML и XHTML состоит в том, что в XHTML применен синтаксис XML, предназначенный для помощи в разработке синтаксически корректных и правильных документов XML. XHTML представляет собой словарь XML, в то время как HTML — это лишь предшествующий XHTML язык разметки. Большинство содержимого интернета, написанного на XHTML выдаётся в виде “text/html”, иными словами браузеры проводят разбор страницы в виде набора обычных тэгов, а не как XML. Одна из причин вышеуказанного подхода кроется в довольно жестком механизме обработки ошибок в XML. Разбор XML-документа остановится на первой же ошибке. Это значит, что страница с даже с единственной ошибкой будет полностью недоступна пользователю. Неправильное построение XML документа может показать только детали ошибки, но не её содержание. Риск допустить ошибку даже в правильно построенном и сформированном XML-документе имеется всегда. Часто с таким явлением можно столкнуться на страницах, где содержание не контролируется XML-инструментами с хорошей обработкой различных кодировок. Например ошибки появляются там, где посетители оставляют комментарий или запись, или где содержание появляется из внешних источников, таких как обратная связь, рекламные сервисы или какое-либо расширение к программе или к веб-приложению. Всё это довольно часто приводит к возникновению ошибок.
Факт, что Internet Explorer не поддерживает XHTML в виде XML, и проблемы, создаваемые XML в случаях, если не все инструменты разработчика являются именно XML-инструментами, отбивает желание использовать XML во всемирной сети.
*.SML (Structured Modeling Language - язык структурного моделирования ) - текстовый язык, подобный файлу языка определений SQL, является специальным типом текстового файла, предназначенным для хранения информации, относящейся к модели «сущность-связь», в текстовом формате. Использование SML дает возможность легко переносить модели из одного CASE-средства в другое, при условии, что оба средства поддерживают данный формат.
Особенностью спецификации SML является то, что она позволяет давать унифицированные определения самым разнообразным сервисам, процессам и прочим элементам сетевой инфраструктуры. При этом предполагается использование стандартных блоков, описывающих те или иные функции, особенности объектов и т.д. Над разработкой спецификации SML работали компании Microsoft, IBM, BEA Systems, BMC Software, CA, Cisco Systems, Dell, EMC, Hewlett-Packard, Intel и Sun Microsystems. При этом каждый из участников данной инициативы предоставил для нужд проекта свою интеллектуальную собственность.
*.OEB Открытый формат, основанный на XHTML (XML) и созданный в свое время консорциумом компаний под предводительством Microsoft. В сущности, OEB-книга является ZIP-архивом xhtml- (xml-) графических файлов и файла с информацией о документе в целом. В своем текущем состоянии формат практически умер, однако OpenReader Consortium все-таки строит грандиозные планы по расширению возможностей OEB и его превращению в по-настоящему универсальный формат.
Наиболее удобными для применения в качестве электронных книг, или по-другому, e-book’ов являются группа автономных форматов. Именно, данные форматы имеют самое полное право считаться «е-книжными», и считаются ими абсолютным большинством пользователей.
*.PDF (Portable Document Format) - переносный платформонезависимый портативный формат электронных документов. Данные в него могут импортироваться из большинства современных форматов текстовых документов, а также векторных и растровых графических форматов. Для просмотра PDF-файла пользователю не нужно ничего, кроме самого файла и бесплатной программы, подобной Adobe Reader. Этот формат прост в использовании и его отличает довольно удобная навигация, которая позволяет быстро найти нужную страницу. Также имеется возможность шифрования файла для коммерческого использования. PDF-формат имеет множество достоинств, хотя, при этом не исключены и недостатки: даже при заметном сокращении объема, файлы PDF остаются невероятно громоздкими, к тому же, защита, применяемая для кодирования файла, если не применять специальных для этого программ – знающие программисты преодолевают в несколько секунд. Несмотря на это, именно в этом формате распространяется большинство технической документации и не только. Множество коммерческих изданий за рубежом также издаются в этом формате. Лидером среди публикаций в PDF-формате является всем известный Adobe Acrobat. Но для создания и чтения применяются также иные программы, как, например, Foxit Reader, eXPert PDF Reader, PDF-XChange Viewer, PDF Reader (не поддерживает русские кодировки) и некоторые другие менее известные программы.
*.Exe. Достаточно популярным при создании е-книг является формат самоисполняемых файлов с расширением *.exe. Если не рассматривать того, что некоторые антивирусы недоверчиво относятся к exe-файлам, он также весьма удобен для пользователя. Из чего, собственно, состоит файл *.exe? Первой его составляющей является управляющая информация для загрузчика и загрузочного модуля. Информация для загрузчика расположена в начале файла и образует так называемый заголовок. Следом идет вторая составляющая - тело загрузочного модуля, начинающееся на границе блока и представляющее собой копию образа памяти задачи, построенной компоновщиком. Е-Книга в этом формате может содержать текст, рисунки, анимацию, навигационный гипертекст, поиск по содержимому, живые линки на веб-страницы, Java Applets и JavaScripts, что естественно увеличивает ее визуальные демонстрационные возможности. Большинство таких программ в качестве исходников применяют HTML, GIF, JPEG и стандартные плагины. Имеется также возможность применения парольной защиты всей е-книги, и даже отдельных ее страниц, запрет на печать и копирование, что делает именно данный формат возможным для коммерческого распространения. Конечно, у него также имеются свои ограничения: книги Exe работают только на WINDOWS-платформе. Однако, легкость и быстрота изготовления макета, позволяет создавать е-книги не только профессиональным издателям, но также самиздату. Самоисполняемость файла обеспечивает работу без дополнительного программного обеспечения. Внешний вид книги максимально приближен к типографской форме, и потому создает довольно комфортное ощущение чтения обычной книги, или на выбор, к браузеру компьютера, что также удобно.
*.ExeBook. Хотя, он и относится к формату Exe, все же его можно назвать особым форматом. Данный формат разработан Яковом Судейкиным специально для книгоиздания. В этом формате реализован визуальный эффект «живой» книги, что создает для пользователя возможность комфортного чтения. Неплохо также реализована и защита для коммерческого распространения е-книги. И, как водится, существуют у этого формата также серьезные недостатки. Прежде всего это касается оформительских возможностей формата, и некоторых шрифтовых ограничений. А так, если вы используете ОС Windows в своем компьютере, лучшего формата для издания книги на сегодняшний день вы не найдете.
*.DjVu (дежа-вю от фран. déjà vu — уже виденное) - это технология сжатия изображений, разработанная специально для распространения сканированных документов — книг, прежде всего математических, журналов и пр. Впрочем, ассортимент изданных книг вышеперечисленными категориями не ограничивается – в этом формате можно отсканировать и сжать любую книгу. Иногда формат DjVu называют «тексто-графическим» форматом. Он оптимизирован для передачи по сети таким образом, что страницу можно просматривать ещё до завершения скачивания. DjVu-файл может содержать текстовый (OCR) слой, что позволяет осуществлять полнотекстовый поиск по файлу. Кроме того, в DjVu-файле может быть предусмотрено встроенное интерактивное оглавление и активные области — ссылки, что позволит реализовывать удобную навигацию в DjVu книгах. Размер файла отсканированной книги оказывается в пределах нескольких мегабайт, что также вполне приемлемо. DjVu обеспечивает для файлов с черно-белыми монохромными изображениями сжатие порядка 500:1. Выигрыш в размере файла по сравнению с форматом GIF составляет в среднем 20 раз. Суть технологии DjVu заключается в автоматическом разбиении изображения на несколько участков (например, текст, логотип фирмы и растровая фотография), для каждого из которых выбирается оптимальный для данного графического образа алгоритм сжатия. Для чтения в этом формате существуют довольно удобные программы.
*.CHM (Compiled HTML). Изначально формат CHM создавался для формирования удобной и функциональной справочной системы для программ Windows. Данный формат часто применяется не только для создания хелп-систем к ПО, но также для создания книг в электронном виде. Самой сильной стороной рассматриваемого формата является наличие в CHM файлах полнотекстового поиска. Вкратце файл CHM — это набор скомпилированных HTML-файлов, иначе, нечто вроде архива из Web-страниц. И действует CHM-файл по принципу архива, сжимает данные, хранящиеся в нем, но не все, а только текстовые или содержащие текст, сформатированный при помощи тегов HTML (HTML, TXT, CSS и файлы других форматов).
*.XPS (XML Paper Specification) фактически является подмножеством формата XAML (Extensible Application Markup Language), который позиционируется Microsoft в качестве нового стандарта для языков разметки и широко используется в WPF (Windows Presentation Foundation) для создания пользовательских интерфейсов и одновременно является компонентом платформы WPF. По утверждению многих экспертов ожидается, что данный формат станет идеальным средством хранения, отображения и публикации данных WPF приложений. XPS преследует те же цели, что и PDF: отображение документа предполагается именно в том виде, в каком он создавался, независимо от ПО, установленного на компьютере. Данный формат не требует дополнительных компонентов системы, в частности, шрифтов, и в то же время дает разработчику уверенность, что документы у клиента будут отображены именно так, как задумано, к тому же, копирование или изменение данных клиентом невозможно.
И напоследок познакомьтесь с многочисленной группой специальных форматов, созданных для корректной работы конкретных программ и оборудования
*.LIT. Закрытый формат от Microsoft, основанный на OEB. Индексации не поддается, воспринимается исключительно «родной» программой MS Reader. Microsoft LIT имеет ряд инструментов, которые делают его очень похожим на Adobe PDF: в частности, доступны закладки, аннотации и масштабирование. Степень сжатия текста — 50-60%.
*.iSilo (Pаlm Os Platform /pdb - Palm Pilot Database format) - довольно-таки популярный формат базы данных, применяемый для карманных устройств. Используется для сохранения записей в базе данных во всех 3Com PalmPilot, IBM Workpad и Macintosh/PC. Одно из главных его достоинств — высокая степень сжатия текста. Поддерживается множество шрифтов, формат корректно работает с графикой, дает возможность вставлять в книги гиперссылки. Размер одной записи может превышать 64кб, имеются биты BackUp и т.д. Через вьювер от iSilo книги в формате PDB выглядят, как в формате CHM. Особенных достоинств у этого формата не заметно, однако встречаются довольно интересные книги скомпилированные в PDB.
*.PalmDOC (он же — PDB и AportisDoc). Еще один популярный Palm-формат. Его правильно воспринимает большинство программ для чтения электронных книг. При этом степень сжатия гораздо ниже, чем это реализовано у iSilo.PDB, и отсутствует поддержка графики.
*.FB2. (FictionBook 2.0) - открытый формат, основанный на XML, что (теоретически) позволяет создавать программы для чтения на любой платформе. Поддержка Unicode совершенно решает проблему корректного отображения текстов на разных языках. Поддерживается графика. Для Windows и Pocket PC выпущено множество инструментов для чтения книг в этом формате и для конвертации в него текстов из других форматов, существуют библиотеки, поддерживающие FB2 и экспорт из него в различные форматы. Однако, читалок FB2 под другие платформы, пока не существует.
*.RB. Формат разработан специально под устройства для чтения электронных книг Rocket Book и в данный момент постепенно умирает вместе с устройством, для которого создавался.
*.zTXT. - закрытый формат, напоминающий PalmDOC, только с гораздо более высокой степенью компрессии (до 45%). В этом формате допускается возможность вставки закладок, поддерживаются гиперссылки. Применяется на Palm OS.
*.TR (ToRaTRPW). - формат программы Tome Raider. Этот формат отличается одной из наиболее высоких степеней сжатия. А благодаря возможности индексации текста его можно использовать при составлении каталогов электронных книг.
*.DataPlkr. - открытый формат Plucker — специальной программы, предназначенной для просмотра веб-документов на устройствах Palm. Он корректно отображает рисунки, гиперссылки и различные шрифты. А конвертирование в этот формат вовсе не требует запуска внешних приложений — после установки соответствующего ПО его можно производить при помощи контекстного меню.
*.FBR. - защищенный формат данных, доступный для чтения программой Franklin Reader.
*.PRC. Palm-формат, поддерживаемый программой Mobi Pocket.
Конечно можно перечислять в этом обзоре еще не один десяток форматов. Но это, пожалуй, будет интересно либо, опытным специалистам, либо пользователям не слишком распространенных, чтобы их рассматривать в этом обзоре, диковинных аппаратов или программ.
Владимир Филиппов PARROSLAB GROUP