Единого стандарта для создания электронных книг (е-книг) не существует
и в ближайшее время такой стандарт трудно себе представить. На вкус и
цвет, как говорится, товарищей нет. Каждый выбирает то, что ему
удобнее, или просто больше нравится. Применяются различные форматы,
среди которых наиболее распространенными являются пожалуй DOC, TXT,
PDF, EXE, CHM, DJVU и некоторые другие.
Сразу уясним себе, что в данной статье мы не будем
касаться двоичных форматов, которые представляют интерес разве что для
опытных программистов. Эта статья предназначена для обычных
интернавтов, имеющих лишь общее представление о текстовых файлах в
интернете и должна помочь им понять, что из себя представляет каждый из
них. Классификация форматов, которую я представляю вашему вниманию, не
является общепринятой, а принята мной для удобства представления. Если
по этому поводу возникнут какие-то возражения у кого бы то ни было, я
готов выслушать их и доработать представленную классификацию.
Исходя из вышесказанного, все форматы электронных книг условно разделим
на несколько групп: текстовые форматы, веб-форматы, автономные форматы
и специальные форматы, т.е. предназначенные для применения в конкретных
программах и аппаратах. Причем некоторые форматы можно отнести к
различным группам.
Среди типично текстовых форматов, используемых для создания
электронных книг можно назвать файлы с расширениями RTF, DOC, и TXT.
Были попытки отнести к группе текстовых форматов и документы,
полученные при помощи OCR (Optical Character Recognition), но это
ошибочно. OCR – это система оптического распознавания графических и
текстовых знаков, для автоматического ввода документов в компьютер.*.RTF
(Rich Text Format - формат обогащённого текста; rich с английского —
богатый) — является межплатформенным форматом хранения размеченных
текстовых документов, предложенный фирмой Microsoft. Он является
распространенным стандартом представления графических и текстовых
данных и поддерживается практически всеми текстовыми редакторами,
работающими на разнообразных типах процессоров и ОС. RTF-файл,
созданный на PC-совместимом компьютере под управлением Windows, можно
без труда прочитать на Apple Macintosh под MacOS.
Структура стандартного RTF-файла представляет собой последовательность
секций данных, заключенных в специальные метки (тэги), которые
указывают программе-обработчику начало или конец секции. Данные могут
быть разных типов: текстовые блоки, графические объекты, таблицы и даже
выполняемые файлы и др.
При запуске RTF-файла обработчик просматривает его содержимое и
автоматически выполняет все известные ему секции и пропускает
незнакомые. Более того, структура RTF подразумевает возможность
безболезненного введения новых видов секций, необходимых пользователю
для выполнения специфических задач. Причем эти новые секции не будут
влиять на общую работоспособность программы в других приложениях.
Большинство текстовых редакторов реализуют импорт/экспорт в формат RTF,
благодаря чему этот формат часто используется как «общий», для передачи
текста из одной программы в другую. Документ состоит преимущественно из
команд управления настройки программы чтения файлов в RTF-формате. Эти
команды можно разделить на управляющие слова (control words) и
управляющие символы (control symbols).
*.DOC
(формат, разработанный фирмой Microsoft Word, который является наиболее
популярным из используемых в данный момент текстовых процессоров, что
сделало его бинарный формат документа стандартом де-факто, и многие
конкурирующие программы имеют поддержку совместимости с данным
форматом. Расширение .doc на платформе IBM PC стало синонимом двоичного
формата Word 97—2000. Фильтры экспорта и импорта в данный формат
присутствуют в большинстве текстовых процессоров.Формат документа
разных версий Word меняется, различия бывают довольно тонкими.
Форматирование, нормально выглядящее в последней версии, может не
отображаться в старых версиях программы, однако есть ограниченная
возможность сохранения документа с потерей части форматирования для
открытия в старых версиях продукта. Последняя версия MS Word 2007
«использует по умолчанию» формат, основанный на XML - Microsoft Office
Open XML. Спецификация форматов файлов Word 97-2007 была опубликована
Microsoft в 2008 году.
*.ODF
(OpenDocument Format - OASIS Open Document Format for Office
Application — открытый формат документов для офисных приложений) —
открытый формат файлов документов для хранения и обмена редактируемыми
офисными документами, в том числе текстовыми документами (такими как
заметки, отчёты и книги), электронными таблицами, рисунками, базами
данных, презентациями. Он дает доступ к содержанию документов
независимо от вида и версии приложения, в котором они были созданы.
Стандарт был разработан индустриальным сообществом OASIS и основан на XML-формате, изначально созданном OpenOffice.org.
*.TXT
– формат, с которым многие из вас вероятно сталкивались при
использовании стандартного блокнота Windows. Его возможности в качестве
е-книжного стандарта трудно однозначно оценить. С одной стороны, он не
поддерживает оформление текста, что несомненно обедняет его
возможности, но с другой стороны — нет такой платформы, на которой
txt-файл нельзя было бы прочесть. И это его главный плюс. Этот формат
используется многими сетевыми библиотеками для изготовления е-книг
исходя из простоты издания. Скопировал текст в текстовый файл и все,
больше никаких манипуляций делать не надо. Хотя, книжкой это назвать
как-то язык не поворачивается.
Пожалуй, на этом закончу описание этой группы форматов, общим для
которой является их всеобщая доступность и распространенность. Мое
мнение, удобные форматы для черновой работы над книгой и не совсем, для
представления конечного результата работы. К типичным веб-форматам,
используемым для электронных изданий я бы отнес форматы html, xhtml,
sml, oeb.*.HTML
(Hypertext Markup Language — язык разметки гипертекста) — это
стандартный язык разметки документов во Всемирной паутине. Большинство
веб-страниц создаются при помощи этого формата. По открытости,
индексируемости, конвертируемости и читаемости на любой платформе к
формату нет никаких претензий. Иное дело, что полноценная книга с
иллюстрациями будет состоять из нескольких файлов, а это не слишком
удобно. К тому же отсутствует сжатие. Возможностями HTML пользуются
многие форматы, основанные на нем, такие, например, как iSilo.
*.XHTML
Основное различие между HTML и XHTML состоит в том, что в XHTML
применяется синтаксис XML, который предназначен для помощи в разработке
синтаксически корректных и правильных документов XML. XHTML
представляет собой словарь XML, в то время как HTML — это лишь
предшествующий XHTML язык разметки. Большинство содержимого всемирной
сети, написанного на XHTML выдаётся в виде “text/html”, другими словами
браузеры проводят разбор страницы в виде набора обычных тэгов, а не как
XML. Одна из причин такого подхода кроется в очень жестком механизме
обработки ошибок в XML. Разбор XML-документа остановится на самой
первой ошибке. Это означает, что страница будет полностью недоступна в
том случае, если существует хотя бы одна ошибка. Неправильное
построение XML документа покажет только детали ошибки, но не её
содержание. Всегда есть риск допустить ошибку даже в правильно
построенном и сформированном XML-документе. Зачастую с этим можно
столкнуться на страницах, где содержание не контролируется
XML-инструментами с хорошей обработкой различных кодировок. Например
ошибки появляются там, где посетители оставляют комментарий или запись,
или где содержание появляется из внешних источников, таких как обратная
связь, рекламные сервисы или какое-нибудь расширение к программе или к
веб-приложению. Всё это часто приводит к появлению ошибок.
Тот факт, что Internet Explorer не поддерживает XHTML в виде XML, и те
проблемы, которые создаёт XML в случае, если не все инструменты
разработчика являются именно XML-инструментами, все это снижает стимул
использовать XML во всемирной сети.
*.SML
(Structured Modeling Language - язык структурного моделирования ) -
текстовый язык, который подобен файлу языка определений SQL, -
специальный тип текстового файла, предназначенный для хранения
информации, относящейся к модели «сущность-связь», в текстовом формате.
Использование SML позволяет легко переносить модели из одного
CASE-средства в другое, при условии, что оба поддерживают этот формат.
Спецификация SML позволяет давать унифицированные определения самым
разнообразным сервисам, процессам и прочим элементам сетевой
инфраструктуры. При этом предполагается использование стандартных
блоков, описывающих те или иные функции, особенности объектов и пр.
Разработчиками спецификации SML являются компании Microsoft, IBM, BEA
Systems, BMC Software, CA, Cisco Systems, Dell, EMC, Hewlett-Packard,
Intel и Sun Microsystems. Причем каждый из участников инициативы
предоставил на нужды проекта свою интеллектуальную собственность.
*.OEB Открытый формат, основанный на XHTML (XML) и созданный в
свое время консорциумом компаний под предводительством Microsoft. По
сути, OEB-книга представляет собой ZIP-архив xhtml- (xml-) графических
файлов и файла с информацией о документе в целом. В своем текущем
состоянии формат практически мертв, однако сейчас OpenReader Consortium
строит грандиозные планы по расширению возможностей OEB и его
превращению в действительно универсальный формат.
Наиболее удобными для применения в качестве электронных книг
e-book’ов являются группа автономных форматов. Собственно, эти форматы
имеют наибольшее право считаться «е-книжными».*.PDF
(Portable Document Format) - это переносимый платформонезависимый
портативный формат электронных документов. Данные импортируются из
большинства современных форматов текстовых документов, векторных и
растровых графических форматов. Для просмотра PDF-файла не нужно
ничего, кроме самого файла и бесплатной программы, такой, как Acrobat
Reader. Этот формат отличает удобная навигация, позволяющая быстро
найти нужную страницу и простота пользования. Имеется также возможность
шифрования файла для коммерческого использования. У PDF-формата много
достоинств, хотя, он не лишен и недостатков: даже при заметном
сокращении объема, файлы PDF однако невероятно громоздки, к тому же,
защита, которую применяют для кодирования файла, если не применять
специальных для этого программ – знающим программистом преодолевается
за несколько секунд. Несмотря на это, именно в этом формате
распространяется огромное количество технической документации и не
только. Большинство коммерческих изданий за рубежом издаются в этом
формате. Лидером среди публикаций в PDF-формате является всем известный
Adobe Acrobat. Но применяются также такие программы, как Foxit Reader,
eXPert PDF Reader, PDF-XChange Viewer, PDF Reader (не поддерживает
русские кодировки) и некоторые другие менее известные программы.
*.Exe. Большой популярностью при создании е-книг пользуется
формат самоисполняемых файлов с расширением *.exe. Он также удобен для
пользователя. Рассмотрим из чего состоит файл *.exe. Первой
составляющей является управляющая информация для загрузчика и,
собственно, загрузочного модуля. Информация для загрузчика расположена
в начале файла и образует так называемый заголовок. Сразу за ним
следует вторая составляющая - тело загрузочного модуля, которое
начинается на границе блока и представляет собой копию образа памяти
задачи, которую построил компоновщик. Е-Книга в этом формате может
содержать текст, рисунки, анимацию, навигационный гипертекст, поиск в
е-книге, живые линки на вебстороны, Java Applets и JavaScripts, что
увеличивает ее демонстрационные возможности. Большинство программ в
качестве исходников применяют HTML, GIF, JPEG и стандартные плагины.
Имеется возможность применения парольной защиты всей е-книги, а также
отдельных страниц, запрет на печать и копирование, что позволяет
активно использовать при коммерческом распространении именно этот
формат. Конечно, у него есть также свои ограничения: книги Exe работают
только на WINDOWS-платформе. Однако, легкость и быстрота изготовления
макета, позволяет изготовлять е-книги не только профессиональным
издателям, но и самиздату. Самоисполняемость файла обеспечивает работу
без дополнительного программного обеспечения. Внешний вид книги
максимально приближен к типографской форме и потому создает достаточно
комфортное ощущение чтения обычной книги.
*.ExeBook. Хотя, он и относится к формату Exe, его все же можно
назвать особым форматом. Этот формат разработан специально для
книгоиздания Яковом Судейкиным. В нем реализован визуальный эффект
«живой» книги, что дает пользователю возможность комфортного чтения. На
мой взгляд неплохо сделана и защита для коммерческого распространения
е-книги. Есть у этого формата также серьезные недостатки. Прежде всего
они касаются оформительских возможностей, имеются некоторые шрифтовые
ограничения. А так, если вы пользуетесь ОС Windows, по-моему лучшего
формата для издания своей книги, вы не найдете.
*.DjVu (дежа-вю от фран. déjà vu — уже виденное) - это
технология сжатия изображений, разработанная специально для
распространения сканированных документов — книг, прежде всего
математических, журналов и пр. Хотя, ассортимент изданных книг
вышеперечисленным не ограничивается – можно отсканировать и сжать в
этом формате любую книгу. DjVu иногда называют «тексто-графическим»
форматом. Формат оптимизирован для передачи по сети таким образом, что
страницу можно просматривать ещё до завершения скачивания. DjVu-файл
может содержать текстовый (OCR) слой, что позволяет осуществлять
полнотекстовый поиск по файлу. Кроме того, DjVu-файл может содержать
встроенное интерактивное оглавление и активные области — ссылки, что
позволяет реализовывать удобную навигацию в DjVu книгах. Размер файла
отсканированной книги оказывается в пределах нескольких мегабайт, что
вполне приемлемо. DjVu обеспечивает для файлов с черно-белыми
монохромными изображениями сжатие порядка 500:1. Выигрыш в размере
файла по сравнению с форматом GIF составляет в среднем 20 раз. Суть
технологии DjVu заключается в автоматическом разбиении изображения на
несколько участков (например, текст, логотип фирмы и растровая
фотография), для каждого из которых выбирается оптимальный для данного
графического образа алгоритм сжатия. Для чтения в этом формате
существуют удобные программы.
*.CHM
(Compiled HTML). Изначально формат CHM был создан для формирования
удобной и функциональной справочной системы к программам Windows. Этот
формат часто используется не только для создания хелп-систем к ПО, но и
для издания книг в электронном виде. Самой сильной стороной этого
формата является наличие в CHM файлах полнотекстового поиска. Вкратце
файл CHM — это набор скомпилированных HTML-файлов, т. е., другим
языком, что-то вроде архива из Web-страниц. И действует CHM-файл по
принципу архива, сжимает данные, хранящиеся в нем, но не все, а только
текстовые или содержащие текст, отформатированный с помощью тегов HTML
(HTML, TXT, CSS и файлы других форматов).
*.XPS
(XML Paper Specification) фактически является подмножеством формата
XAML (Extensible Application Markup Language), который позиционируется
Microsoft как новый стандарт для языков разметки и широко используется
в WPF (Windows Presentation Foundation) для создания пользовательских
интерфейсов и одновременно является компонентом платформы WPF. По
утверждению многих экспертов ожидается, что этот формат станет
идеальным средством хранения, отображения и публикации данных WPF
приложений. XPS преследует те же цели, что и PDF: отображение документа
именно в том виде, в каком он был создан, независимо от ПО,
установленного на компьютере. Данный формат не требует дополнительных
компонентов системы, в частности, шрифтов, и в то же время дает
разработчику уверенность в том, что документы отобразятся у клиента
именно так, как было задумано, и, к тому же, копирование или изменение
данных клиентом невозможно.
И напоследок опишем многочисленную группу специальных форматов,
которые были созданы для корректной работы конкретных программ и
оборудования*.LIT. Закрытый формат от Microsoft, основанный на OEB.
Индексации не поддается, воспринимается только «родной» программой MS
Reader. Microsoft LIT включает ряд инструментов, которые делают его
очень похожим на Adobe PDF: в частности, доступны закладки, аннотации и
масштабирование. Степень сжатия текста — 50-60%.
*.iSilo (Pаlm Os Platform /pdb - Palm Pilot Database format) -
очень популярный формат базы данных для карманных устройств.
Используется во всех 3Com PalmPilot, IBM Workpad и Macintosh/PC для
сохранения записей в базе данных. Одно из главных достоинств — высокая
степень сжатия текста. Поддерживает множество шрифтов, корректно
работает с графикой, позволяет вставлять в книги гиперссылки. Размер
одной записи может превышать 64кб, имеются биты BackUp и т.д. Через
вьювер от iSilo книги в формате PDB выглядят как в формате CHM.
Особенных достоинств у этого формата не наблюдается, однако встречаются
весьма интересные книги скомпилированные в PDB.
*.PalmDOC (он же —
PDB и
AportisDoc). Еще один
популярный Palm-формат. Его нормально воспринимает большинство программ
для чтения электронных книг. Но при этом степень сжатия гораздо ниже,
чем у iSilo.PDB, а графика не поддерживается вовсе.
*.FB2. (FictionBook 2.0) - это открытый формат, основанный на
XML, что (теоретически) позволяет создать программы для чтения на любой
платформе. Поддержка Unicode полностью решает проблему корректного
отображения текстов на разных языках. Поддерживается графика. Для
Windows и Pocket PC выпущено множество инструментов для чтения книг в
этом формате и для конвертации в него текстов из других форматов,
существуют библиотеки, поддерживающие FB2 и экспорт из него в различные
форматы. Однако, пока нет читалок FB2 под другие платформы.
*.RB. Был разработан специально под устройства для чтения электронных книг Rocket Book и сейчас постепенно умирает.
*.zTXT. - закрытый формат, очень похожий на PalmDOC, но с
гораздо более высокой степенью компрессии (до 45%). Допускает
возможность вставки закладок, поддерживает гиперссылки. Доступен на
Palm OS.
*.TR (ToRaTRPW). - формат программы Tome Raider. Отличается
одной из наиболее высоких степеней сжатия. А благодаря возможности
индексации текста этот формат можно использовать при составлении
каталогов электронных книг.
*.DataPlkr.
- открытый формат Plucker — специальной программы, предназначенной для
просмотра веб-документов на Palm. Корректно отображает рисунки,
гиперссылки, разные шрифты. А конвертирование в этот формат даже не
требует запуска внешних приложений — после установки соответствующего
ПО его можно производить с помощью контекстного меню.
*.FBR. - защищенный формат данных, доступных для чтения программой Franklin Reader.
*.PRC. Palm-формат. Поддерживается программой Mobi Pocket.
Наверное можно было бы перечислять еще не один десяток форматов. Но
пожалуй, это будет интересно либо, для опытных специалистов, либо для
пользователей диковинных аппаратов или программ, не слишком
распространенных, чтобы их рассматривать в этом обзоре.