Как я разбирал docx с помощью xslt

Краткая история формата DOC

Microsoft Word начал использовать формат DOC и соответствующее расширение файла более 30 лет назад в самом первом выпуске Word для MS-DOS. Word исполнял роль проприетарного процессора документов, формат также был проприетарным: Word был единственной программой, официально поддерживающей файлы DOC, до тех пор, пока Microsoft не откроет спецификацию в 2006 году, после чего она была перепроектирована.

Как я разбирал docx с помощью xslt

В 90-х и начале 2000-х годов различные конкурирующие продукты могли работать с файлами DOC, хотя некоторые из более экзотических форматов и опций Word не поддерживались в других текстовых процессорах. Поскольку Office и Word были де-факто стандартами для офисных наборов, соответственно, закрытый характер формата файла, несомненно, помог Microsoft сохранить свое господство над такими продуктами, как Corel WordPerfect.

С 2008 года Microsoft несколько раз выпускала и обновляла спецификацию формата DOC для использования в других программах, хотя не все расширенные функции Word поддерживаются открытой документацией.

После 2008 года формат DOC был интегрирован в платные и бесплатные программы обработки текстов многих поставщиков. Это значительно упростило работу с более старыми форматами текстовых процессоров, и многие пользователи по-прежнему предпочитают сохранять документы в старом стандарте DOC.

Современные форматы «вордовских» документов

Даже бесплатные современные редакторы документов умеют корректно работать с DOCX

Кроме того, сложности могут возникнуть даже при использовании разных версий офисного пакета Майкрософт. Дело в том, что начиная с версии Word 2007 года документ по умолчанию сохраняется с расширением не doc, а docx. Поэтому если установлен пакет офиса, выпущенный ранее, то необходима конвертация для устаревших версий. Конверторы для обеспечения совместимости предлагаются самой компанией Майкрософт (Microsoft Office Compatibility Pack), так что обычно при открытии docx, например, в версии Ворд 2003, сложностей не возникает, но при этом может потеряться часть данных форматирования и возможностей редактирования.

Компания Майкрософт была вынуждена пойти на изменение формата Word под давлением международных организаций, которые требовали подвести его под какие-либо стандарты. Был выбран вариант, основанный на языке разметки XML, который часто используется в документах интернет. Документ с расширением docx имеет некоторые преимущества перед устаревшим форматом, в частности, меньший вес, что имеет значение при передаче документа через интернет. Поэтому при ограниченных скоростях передачи данных пользователям имеет смысл использовать более современный формат Word.

В чём разница между Doc и Docx

Как я разбирал docx с помощью xslt

Формат DOC появился в начале 1990-х годов одновременно с релизом текстового процессора Microsoft Word. Изначально он был проприетарным и использовался исключительно этим технологическим гигантом. Компания Microsoft применяла его вплоть до 2007 года, когда выпустила редактор Word 2007.

Word 2007 перешёл на новый формат – DOCX, который стал контейнерным. По сути, файлы с этим расширением – это ZIP-архивы, в которых хранится информация о разметке, тексте, встроенных изображениях, таблицах и сценариях (аналог макроса, только с меньшими возможностями).

Одновременно с этим Microsoft сняла «клеймо» проприетарности с DOC. Он стал открытым для использования в некоммерческих целях, то есть разработчики сторонних «опенсорсных» редакторов вроде OpenOffice могли добавить его нативную поддержку в свои приложения.

DOCX используется и по сей день. Он является стандартным для текстовых процессоров «Майкрософт» 2019 года, включая облачный вариант Office 365. Кроме того, множество сторонних редакторов также и открывают, и сохраняют документы в нём.

Использование контейнерного способа хранения не только позволило сделать документы более красивыми и интерактивными. Он отличается ещё несколькими преимуществами:

  1. Архивирование по стандарту ZIP позволяет значительно уменьшить размер файла. Например, эта статья, сохранённая в DOCX, занимает 16 килобайт на жёстком диске. В предыдущем типе – 40 килобайт, а в RTF – 76 килобайт.

  2. Создание отдельного листа сведений для управления содержимым в общем контейнере обеспечивает одинаковую видимость текста и графики на разных версиях офисных приложений «Майкрософт» и сторонних редакторов.

Таким образом, в большинстве случаев лучше использовать DOCX. Кроме того, DOC обладает множеством недостатков:

  1. Разное отображение содержимого в разных редакторах, в том числе разных версиях офисных приложений «Майкрософт»;

  2. Плохая совместимость со сторонними редакторами.

  1. DOCX от этих недостатков избавлен

Работа с DOC-файлами на смартфоне

Для просмотра DOC-файлов подойдет почти любое приложение-читалка, представленное в Google Play (смартфоны на OS Android) или App Store (гаджеты под управлением iOS). Внимательно прочтите описание на странице приложения и подберите то, которое поддерживает все нужные Вам форматы, например, DOC, DOCX, RTF, TXT, PDF, FB2, EPUB. Хорошим выбором будет кроссплатформенный eBoox, скачать который можно здесь https://trashbox.ru/link/eboox-android. Вот скриншот его интерфейса:

Как я разбирал docx с помощью xsltИнтерфейс «Приложения-читалки»

Возможность создания новых DOC-файлов и редактирования существующих хорошо реализована только в официальных и, к счастью, бесплатных приложениях от Microsoft и Apple. Для смартфонов и планшетов на Android версии 4.1 и старше подойдет мобильная версия программы Word.

Как я разбирал docx с помощью xsltМобильная версия программы Word

Владельцам iPhone и iPad следует обратить внимание на приложение Pages. Единственной достойной альтернативой официальному ПО, правда, со слегка урезанным функционалом, будет программа WPS Office

Как я разбирал docx с помощью xsltПрограмма WPS Office имеет урезанный функционал

Для планшетов и нетбуков под управлением ОС Windows подойдут те же программы, что и для настольных ПК.

Способ 3: OpenOffice

Конкурентом LibreOffice считается OpenOffice. В нем также имеется собственный текстовый процессор, который тоже называется Writer. Только в отличие от двух ранее описанных вариантов, с его помощью можно просматривать и изменять содержимое DOCX, но сохранение придется выполнять в другом формате.

  1. Запустите стартовую оболочку пакета. Щелкните по наименованию «Открыть…», располагающемуся в центральной области.

    Можете проделать процедуру открытия и через верхнее меню. Для этого щелкните в нем по наименованию «Файл». Далее перейдите по «Открыть…».

    Можно для запуска инструмента открытия объекта воспользоваться привычной комбинацией Ctrl+O.

  2. Какое бы действие из вышеописанных вы не избрали, оно приведет к активации инструмента запуска объекта. Переместитесь в этом окне в ту директорию, где помещен DOCX. Обозначьте объект и щелкайте «Открыть».

Как я разбирал docx с помощью xslt

Документ будет отображен в ОупенОфис Writer.

Как я разбирал docx с помощью xslt

Как и при использовании предыдущего приложения, вы можете перетянуть в стартовую оболочку OpenOffice нужный объект из Проводника.

Как я разбирал docx с помощью xslt

Запуск объекта, имеющего расширение DOCX, также можно произвести вслед за запуском Writer.

  1. Для активации окна запуска объекта щелкните по значку «Открыть». Он имеет форму папки и расположен на панели с инструментами.

    Для указанной цели можно воспользоваться и меню. Сделайте щелчок по «Файл», а затем перейдите по «Открыть…».

    Как вариант используйте сочетание Ctrl+O.

  2. Любое из трех указанных действий инициирует активацию инструмента запуска объекта. Операции в нем нужно выполнять по тому же алгоритму, который был описан для способа с запуском документа через стартовую оболочку.

Как я разбирал docx с помощью xslt

В целом нужно отметить, что из всех изученных тут текстовых процессоров, OpenOffice Writer менее всего подходит для работы с DOCX, так как не умеет создавать документы с таким расширением.

.DOCX вариант №

Файл DOCX — это документ, созданный Microsoft Word или другой программой обработки текстов, такой как OpenOffice Writer или Apple Pages. Он содержит форматированный текст, но может также включать в себя изображения, нарисованные объекты и другие элементы документа. Файлы DOCX широко используются в домашних, учебных и бизнес-средах для составления писем, резюме, приглашений, информационных бюллетеней и других документов.

Больше информации

Файл DOCX открыт в Microsoft Word 2016

В отличие от файлов .DOC , которые хранят данные документа в одном двоичном файле, файлы DOCX создаются с использованием формата Open XML, который хранит документы в виде набора отдельных файлов и папок в сжатом пакете zip. В файле DOCX находятся файлы XML и три папки, docProps, Word и _rels, которые содержат свойства документа, контент и отношения между файлами. Эта структура предназначена для того, чтобы сделать содержимое документа более доступным. Например, текст документа сохраняется в текстовых файлах, а изображения документов хранятся в виде отдельных файлов изображений в файле DOCX. Эти файлы могут также включать в себя информацию о форматировании страницы, авторские данные и заметки о просмотре документа.

Файлы DOCX могут быть открыты Word 2007 или новее для Windows или Word 2008 или более поздней версии для Mac OS X. Они могут также можно открыть с более ранними версиями Word для Mac и Windows через поддержку документов Open XML.

ПРИМЕЧАНИЕ. Чтобы вручную изучить содержимое файла DOCX, переименуйте расширение «.docx» в «.zip» и затем распакуйте полученный файл с помощью любой утилиты для распаковки zip.

Common DOCX Filenames

Document1.docx — имя файла по умолчанию, которое Microsoft Word предоставляет новым документам.

Программы, которые открывают DOCX файлы

Microsoft WordPad

Adobe Illustrator

ACD Systems Canvas

Nuance OmniPage

CorelDRAW

Google Drive

Corel WordPerfect

Microsoft Word

SoftMaker Office

LibreOffice

Adobe Acrobat

IMSI TurboPDF

Nuance PDF Converter Professional

AbiSource AbiWord

Google Drive

SoftMaker Office

LibreOffice

Adobe Acrobat

AbiSource AbiWord

Calibre

The MathWorks MATLAB

Calligra Suite

Google Drive for Android

MobiSystems OfficeSuite Pro

Kingsoft WPS Office for Android

Microsoft Word for Android

SoftMaker Office TextMaker Mobile

Infraware Polaris Office for Android

Apowersoft Phone Manager

Adobe Illustrator

Apple Preview

Google Drive

Apple TextEdit

Microsoft Word for Mac

LibreOffice

Apple Pages

Planamesa NeoOffice

Adobe Acrobat

Adobe InDesign

Crick Software Clicker

Calibre

The MathWorks MATLAB

CS Odessa ConceptDraw MINDMAP

MatchWare MindView for Mac

Google Drive for iOS

MobiSystems OfficeSuite Pro

Infraware Polaris Office for iOS

Microsoft Word for iOS

Apple Pages for iOS

Good.iWare GoodReader for iOS

WordPad

WordPad – это встроенный в операционную систему Windows текстовый редактор. Его часто называют неким промежуточным звеном между Блокнотом и Вордом, так как у него больше возможностей, чем у первого редактора, но меньше, чем у второго. Но с форматом «.docx» он работать умеет, и если вы хотите открыть с его помощью файл, то делайте всё как в инструкции:

  1. Так как WordPad включен в перечень стандартных программ Windows, его можно открыть через меню «Пуск». Сначала откройте это меню, затем выберите «Все программы».

  2. Откройте папку «Стандартные», затем кликните мышкой по программе WordPad.

  3. Когда программа запустится, кликните по специальной иконке, расположенной слева от вкладки «Главная», чтобы открыть контекстное меню взаимодействия с файлами.

  4. Выберите пункт «Открыть».

  5. Откроется привычное меню-проводник. Делайте всё так, как было описано прежде.

  6. После этого файл будет открыт в среде WordPad.

Устранение неполадок при открытии файлов DOCX

Общие проблемы с открытием файлов DOCX

LibreOffice не установлен

Дважды щелкнув по файлу DOCX вы можете увидеть системное диалоговое окно, в котором сообщается «Не удается открыть этот тип файла». В этом случае обычно это связано с тем, что на вашем компьютере не установлено LibreOffice для %%os%%. Так как ваша операционная система не знает, что делать с этим файлом, вы не сможете открыть его дважды щелкнув на него.

Совет: Если вам извстна другая программа, которая может открыть файл DOCX, вы можете попробовать открыть данный файл, выбрав это приложение из списка возможных программ.

Установлена неправильная версия LibreOffice

В некоторых случаях у вас может быть более новая (или более старая) версия файла Microsoft Word Open XML Document, не поддерживаемая установленной версией приложения. При отсутствии правильной версии ПО LibreOffice (или любой из других программ, перечисленных выше), может потребоваться загрузить другую версию ПО или одного из других прикладных программных средств, перечисленных выше. Такая проблема чаще всего возникает при работе в более старой версии прикладного программного средства с файлом, созданным в более новой версии, который старая версия не может распознать.

Совет: Иногда вы можете получить общее представление о версии файла DOCX, щелкнув правой кнопкой мыши на файл, а затем выбрав «Свойства» (Windows) или «Получить информацию» (Mac OSX).

Резюме: В любом случае, большинство проблем, возникающих во время открытия файлов DOCX, связаны с отсутствием на вашем компьютере установленного правильного прикладного программного средства.

Даже если на вашем компьютере уже установлено LibreOffice или другое программное обеспечение, связанное с DOCX, вы все равно можете столкнуться с проблемами во время открытия файлов Microsoft Word Open XML Document. Если проблемы открытия файлов DOCX до сих пор не устранены, возможно, причина кроется в других проблемах, не позволяющих открыть эти файлы. Такие проблемы включают (представлены в порядке от наиболее до наименее распространенных):

Как DOC попал в каждый офис

Можно ли заставить мир пользоваться только одним единственным комплектом
офисных приложений? Да, и очень просто: достаточно создать закрытый бинарный
формат файлов для документооборота, ни с чем не совместимый, кроме
текстового процессора
Word . Тогда, хочешь или нет, а купишь эту программу (в пакете Microsoft
Office), никуда не денешься, ведь без неё ни одной фирме не прожить.

Так формат DOC попал в каждую (без преувеличения) контору, в каждую
бухгалтерию, школу, университет, техникум и курсы обучения вышиванию крестиком.
И как ни старались разработчики
освободить народонаселение от жёсткой привязки к Microsoft Office, что-то
получаться начало только с появлением LibreOffice, да и то пока лишь для
документов с несложной компоновкой.

Суть в том, что формат DOC — бинарный и закрытый. Поди разбери, каким именно
образом документ кодируется в последовательности нулей и единиц и как потом
декодируется обратно. Разработчикам, стремившимся постичь суть формата,
доводилось действовать, как говорится, по наитию. Потому в ранних версиях
OpenOffice.org
(предшественника LibreOffice) сложные *doc (с таблицами, рисунками и прочими
объектами) нередко отображались довольно криво.

Двадцатого февраля 2008-го года планету облетела новость: международный
комитет стандартизации (он же ISO) вынудил Microsoft открыть спецификации
форматов Microsoft Office 2007. Однако радость оказалась преждевременной:
открыли далеко не всё, оставив множество «белых пятен».

Способ 2: LibreOffice

В офисном продукте LibreOffice также есть приложение, умеющее работать с изучаемым форматом. Имя ему — Writer.

  1. Перейдя в стартовую оболочку пакета, сделайте щелчок по «Открыть файл». Эта надпись расположена в боковом меню.

    Если вы привыкли пользоваться горизонтальным меню, то последовательно щелкните по наименованиям «Файл» и «Открыть…».

    Для любителей использовать горячие клавиши тоже имеется свой вариант: наберите Ctrl+O.

  2. Все три названных действия приведут к открытию инструмента запуска документа. В окне произведите перемещение в ту область винчестера, в которой помещен искомый файл. Обозначьте этот объект и сделайте щелчок по «Открыть».

Как я разбирал docx с помощью xslt

Содержимое документа предстанет перед пользователем через оболочку Writer.

Как я разбирал docx с помощью xslt

Запустить файловый элемент с изучаемым расширением можно, перетянув объект из Проводника в стартовую оболочку LibreOffice. Данную манипуляцию следует производить с зажатой левой кнопкой мыши.

Как я разбирал docx с помощью xslt

В случае, если вы уже запустили Writer, то можно выполнить процесс открытия и через внутреннюю оболочку данной программы.

  1. Сделайте щелчок по пиктограмме «Открыть», которая имеет форму папки и размещена на панели с инструментами.

    Если вы привыкли выполнять операции через горизонтальное меню, то вам подойдет последовательное нажатие пунктов «Файл» и «Открыть».

    Можно применить также Ctrl+O.

  2. Данные манипуляции приведут к открытию инструмента запуска объекта, дальнейшие операции в котором были уже описаны ранее при рассмотрении вариантов запуска через стартовую оболочку ЛибреОфис.

Как я разбирал docx с помощью xslt

Зачем такая путаница между файлами doc и docx?

Разработчиком офисной программы Word является компания Microsoft. В свое время эта компания анонсировала появление нового расширения .docx для файлов, которые занимают намного меньше места на жестком диске компьютера по сравнению с файлами со старым расширением .doc.

Кстати, особенно это заметно на «тяжелых» вордовских файлах с многочисленными картинками и таблицами. Файлы .docx с большим количеством картинок, таблиц, занимают на жестком диске компьютера значительно меньше места, чем такой же файл, но с расширением .doc.

Аналогично эксельные (Excel) таблицы с новым расширением .xlsx также существенно экономят место на жестком диске ПК по сравнению с таблицами со «старым» расширением .xls.

Другой плюс такого перехода с формата .doc на .docx состоит в том, что Word 2007 (и более поздние версии) имеют более широкий функционал, чем Word 97-2003.

Именно поэтому, если файл со «старым» расширением .doc открыть с помощью Word 2007 (или более поздней версии), то неожиданно сверху можно увидеть надпись «Режим ограниченной функциональности» (рис. 1). Он потому и ограниченный, что для файлов со «старым» расширением .doc нельзя использовать неограниченные возможности нового Word 2007.

Рис. 1 Файл с расширением .doc открывается в Word 2007 в режиме ограниченной функциональности

Чтобы убрать надпись «Режим ограниченной функциональности» и работать с документом в обычном режиме без ограничений, надо сохранить файл .doc в новом формате .docx, об этом подробнее ниже.

Итак, вордовские файлы могут иметь такие расширения:

  • .doc (созданы в редакторе Word 2003), либо
  • .docx (созданы в Word 2007 и позднее).

На первый взгляд, разница небольшая: всего лишь одна «лишняя» буква «х». Однако если периодически пользоваться то компьютером с Windows XP, то компьютером с Windows 7, то рано или поздно сталкиваешься с такой ситуацией. Создан файл в Word 2007, значит, он имеет расширение .docx. Если перенести файл .docx на Windows XP и попытаться открыть его там, то он может не открыться.

Как я писала выше, проблема в том, что старый Word 2003 (тот, который производит файлы с расширением .doc) не понимает, не открывает и не дружит с новыми файлами из Word 2007, у которых расширение .docx.

Как решить проблему? Во-первых, обращать внимание на то расширение, которое появляется у файла при его первом сохранении в Word. Во-вторых, файл с расширением .docx можно сохранить в Word 2007 с другим расширением — .doc

Тогда у Вас будет один и тот же файл, сохраненный с разными расширениями. Например, в Word 2007 один и тот же файл можно сохранить так:

Во-вторых, файл с расширением .docx можно сохранить в Word 2007 с другим расширением — .doc. Тогда у Вас будет один и тот же файл, сохраненный с разными расширениями. Например, в Word 2007 один и тот же файл можно сохранить так:

  • test.doc,
  • test.docx.

Тогда файл test.doc будет открываться в Word 2003 и в Word 2007 (правда, здесь в режиме ограниченной функциональности).

Как конвертировать docx в doc или doc в docx в Word 2007

Word 2003 года сохраняет и открывает документы с расширением .doc. А Word 2007 г. (и позднее) сохраняет и открывает документы с расширением .docx. Однако в Word 2007 есть возможность открыть документ .docx и сохранить его как .doc. Либо можно сделать наоборот: файл .doc сохранить как .docx.

Рис. 2 Как файл со «старым» расширением .doc сохранить с «новым» расширением .docx или наоборот сохранить .docx в .doc

Для этого в Word 2007 (или более поздняя версия Word)

  • откройте документ,
  • нажмите кнопку Office (цифра 1 на рис. 2),
  • в этом меню кликните по опции «Сохранить как»,
  • выберите папку или место для хранения файла (цифра 2 на рис. 2),
  • откройте выпадающий список «Тип файлов» (цифра 3 на рис. 2) — появится окно, как на рис. 3.

Рис. 3 Нужно кликнуть по Типу файла – Документ Word (*.docx)

Как видно на рис. 3, нужно кликнуть по Типу файла – Документ Word (*.docx) – цифра 2 на рис. 3. После этого автоматически у файла появится «новое» расширение .docx. Остается щелкнуть по кнопке «Сохранить» (рис. 2).

Если нужно обратная процедура, то есть, из .docx сделать .doc, то на рис. 3 нужно кликнуть по типу файла «Документ  Word 97-2003 (*.doc)», после чего нажать на кнопку «Сохранить».

Как перевести doc v docx и обратно в Word 2007

К этой статье отлично подходит:

Распечатать статью

Получайте актуальные статьи по компьютерной грамотности прямо на ваш почтовый ящик. Уже более 3.000 подписчиков

.

Важно: необходимо подтвердить свою подписку! В своей почте откройте письмо для активации и кликните по указанной там ссылке. Если письма нет, проверьте папку Спам

Чем открывают расширения doc и docx

А какими еще приложениями можно открывать документы с расширениями doc и docx? Список достаточно большой, но есть некоторые нюансы при их использовании. Корпорация Microsoft традиционно закрывает свои разработки
от свободного использования, поэтому сторонние разработчики часто имеют проблемы с совместимостью.

Как я разбирал docx с помощью xslt

А вот primer.docx с аналогичным содержимым понес некоторые потери – текстовая надпись внизу исчезла

В целом Writer из OpenOffice.org для работы с вордовскими текстами следует применять очень осторожно

Как я разбирал docx с помощью xsltКак я разбирал docx с помощью xslt

Текстовая надпись потерялась. При попытке редактирования сервис предупреждает
, что результат будет сохранен как docx.

“Скачать файл в формате.doc”, “скачать файл в формате.docx”, “сохранить в…”, “открыть с помощью…”. Разница в одну букву порой способна доставить много головной боли, если интернет-сервис принимает только определенный формат текстового файла или создается он на одном компьютере, а открывается на другом. Сегодня актуальны и файлы с именем с расширением.doc, и файлы с расширением имени.docx, однако ввиду постепенного обновления ПО первых становится все меньше.

1.1 Контейнер

XML-формат, используемый в Microsoft Office 2007, представляет собой ZIP-архив — контейнер, который называется package и в котором помещаются различные компоненты документа, называемые частями (part) и элементами (item). Части являются фрагментами документа и отвечают за его содержимое, элементы представляют собой метаданные, описывающие то, каким образом части должны быть собраны вместе и отображены. Элементы можно разделить на два типа: реляционные (relationship items), описывающие взаимоотношения между частями и типизованные (content-type items), задача которых — дать описание содержимого каждой части документа. Реляционные элементы, в свою очередь, подразделяются на элементы, описывающие взаимоотношения контейнеров, и элементы, задающие взаимоотношения между частями документа.