Есть множество различных причин, почему вам нужно конвертировать PDF файл в редактируемый текстовый файл, мы здесь не будем обсуждать причины, но обсудим способ как это можно осуществить в Linux. Возможно, вам нужно посмотреть(изменить) старый документ, но у вас есть лишь PDF версия. Преобразовать PDF файл в Windows, очень легко, но что делать, если вы используете Linux? Думаю этим вопросом задавались многие.

Конвертируем PDFв TXT файл

Не стоит беспокоиться. Мы покажем вам, как очень быстро и легко конвертировать PDF файлы в редактируемый текст с помощью инструмента командной строки(терминал) с помощью пакета под названием pdftotext, что является частью утилиты "Poppler-Utils". Этот инструмент может быть уже установлен по умолчанию в системе. Чтобы проверить, установлен ли в вашей системе pdftotext, нажмите "Ctrl + Alt + T", чтобы открыть окно терминала. Введите следующую команду в командной строке и нажмите клавишу "Enter".

dpkg -s poppler-utils

Если пакет установлен, хотя должен быть установлен так как проверив в версии Ubuntu 14.04 LTS мы видим следующий текст который нам сообщает, что пакет уже установлен в системе:

Package: poppler-utils
Status: install ok installed
Priority: optional
Section: utils
Installed-Size: 432
Maintainer: Ubuntu Developers <ubuntu-devel-discuss@lists.ubuntu.com>
Architecture: i386
Multi-Arch: foreign
Source: poppler
Version: 0.24.5-2ubuntu4
Replaces: pdftohtml, xpdf-reader, xpdf-utils (<< 3.02-2~)
Provides: pdftohtml, xpdf-utils
Depends: libc6 (>= 2.4), libcairo2 (>= 1.12.0), libfreetype6 (>= 2.2.1), libgcc1 (>= 1:4.1.1), liblcms2-2 (>= 2.2+git20110628), libpoppler44 (>= 0.24.5), libstdc++6 (>= 4.1.1)
Breaks: xpdf-utils (<< 3.02-2~)
Conflicts: pdftohtml
Description: PDF utilities (based on Poppler)
 Poppler is a PDF rendering library based on Xpdf PDF viewer.
 .
 This package contains command line utilities (based on Poppler) for getting
 information of PDF documents, convert them to other formats, or manipulate
 them:
  * pdfdetach -- lists or extracts embedded files (attachments)
  * pdffonts -- font analyzer
  * pdfimages -- image extractor
  * pdfinfo -- document information
  * pdfseparate -- page extraction tool
  * pdftocairo -- PDF to PNG/JPEG/PDF/PS/EPS/SVG converter using Cairo
  * pdftohtml -- PDF to HTML converter
  * pdftoppm -- PDF to PPM/PNG/JPEG image converter
  * pdftops -- PDF to PostScript (PS) converter
  * pdftotext -- text extraction
  * pdfunite -- document merging tool
Homepage: http://poppler.freedesktop.org/
Original-Maintainer: Loic Minier <lool@dooz.org>

1. В том случае если оказалось, что в вашей версии дистрибутива пакет pdftotext не установлен, введите следующую команду в командной строке и нажмите клавишу "Enter".

sudo apt-get install poppler-utils
  • В утилите Poppler-Utils есть несколько инструментов, которые позволяют конвертировать PDF в другие форматы, манипулируя PDF файлами, и извлекая информацию из файлов.

2. Для примера, давайте представим, что у нас в домашней директории имеется файл с названием Book.pdf, какую команду в нашем случае нужно выполнить чтобы преобразовать данный файл в файл текстового формата для чтения и редактирования например с помощью текстового редактора Gedit или любого другого.

  • Ниже приводится пример основной команды которая используется для преобразования PDF-файла в редактируемый текстовый файл. Нажмите "Ctrl + Alt + T", чтобы открыть окно терминала, далее введите следующую команду в командной строке и нажмите клавишу "Enter".
pdftotext /home/linux/Документы/Book.pdf /home/linux/Документы/Book.txt

В нашем случае linux это моя учетная запись, вы изменяйте на вашу, далее файл Book.pdf с которым мы и проводим опыты, далее через пробел мы так же прописываем путь в ту же директорию где нам создать готовый текстовый файл с результатом конвертации.

В моем случае я забросил в папку документы простенький документ почти на 3 метра, справочник по HTML, далее выполняю команду:

pdftotext CSS\ Manual.pdf CSS\ Manual.txt

Результаты конвертирования файла pdf в txt

  • Мы имеем готовый текстовый файл результат конвертирования с формата pdf. Конечно очень важно в вашем случае прописать полный и правильный путь к файлу который необходимо конвертировать, чтобы соответствовать расположению и имени вашего оригинального PDF файла и где вы хотите сохранить полученный текстовый файл. Так же не забываем о волшебной клавише под названием Tab при вводе пути и названия файла, убережет ваше время и автоматически подберется тот путь и то название файла которое нужно.

3. Конечно готовый преобразованный текст может иметь разрывы строк которых вы возможно и не хотите как и я. Разрывы строк вставляются после каждой строки текста в файле PDF. Чтобы убрать разрывы и лишнюю табуляцию, мы можем сохранить макет нашего pdf документа (заголовки и многое другого) от оригинального PDF файла в текстовом файле преобразовав с помощью специального флага "-layout".

В итоге готовая команда уже будет иметь следующий вид:

pdftotext -layout /home/linux/Документы/Book.pdf /home/linux/Документы/Book.txt

проверив результаты конвертации, скажу честно, уже все намного в более порядочном виде, но все же имеется много мелочей которые необходимо отредактировать.

4. Вам нужно преобразовать не целый документ, а определенный диапазон страниц от и до, например с 10 по 100, как будет смотреться готовая команда для конвертации спросите вы. Нажмите "Ctrl + Alt + T", чтобы открыть окно терминала, далее введите следующую команду в командной строке и нажмите клавишу "Enter".

pdftotext -f 10 -l 100 /home/linux/Документы/Book.pdf /home/linux/Документы/Book.txt

5. Как преобразовать PDF файл который зашифрован паролем от владельца спросите вы? Решение данного вопроса так же имеется и имеет следующую готовую комбинацию:

pdftotext -0pw 'пароль' /home/linux/Документы/Book.pdf /home/linux/Документы/Book.txt
  • Чтобы вы не попутали при возможном выполнении команды выше, в атрибуте 0pw используется не буква О, а цифра ноль.

6. Как преобразовать файл который защищен паролем, не зашифрован как в варианте выше, так же имеется простое решение, в терминале выполняем готовую комбинацию, пример:

pdftotext -upw 'пароль' /home/linux/Документы/Book.pdf /home/linux/Документы/Book.txt

7. Вы можете также указать Тип конца строки, символ, который добавляется в преобразованный текст. Это особенно полезно, если вы планируете использовать файл в разных операционных системах, таких как Windows или Mac. Чтобы сделать это, используйте флаг "-eol" (символ в середине флага является строчной буквой "o", не ноль), затем пробел и указываем окончания для строк который вы хотите использовать ("Unix", "Dos", или "Mac"). 

  • Готовая команда будет иметь следующий вид, Нажмите "Ctrl + Alt + T", чтобы открыть окно терминала, далее введите следующую команду в командной строке и нажмите клавишу "Enter".
pdftotext -eol unix /home/linux/Документы/Book.pdf /home/linux/Документы/Book.txt

Если вам мало информации по возможности преобразования pdf документов в разнообразные форматы, вы всегда можете прочесть справку, выполнив в терминале команду - man pdftotext. На этом пожалуй материал завершен, если у вас будут вопросы, пожалуйста, спрашивайте в комментариях к материалу ниже, всем удачи.

Понравилась статья?
Есть множество различных причин, почему вам нужно конвертировать PDF файл в редактируемый текстовый файл, мы здесь не будем обсуждать причины, но обсудим способ как это можно осуществить в Linux. Возможно, вам нужно посмотреть(изменить) старый докуме...
Терминал
1943
Рейтинг: 5/8
При перепечатке материалов указание ссылки на linuxsoid.com обязательно.

Подпишитесь на рассылку

Смотрите также:
    Переменные окружения linux Переменные окружения linux

    Работая с консолью, мы вводим много разного рода команд для достижения тех или иных целей, которые мы поставили перед собой. Сегодня я хочу обсудить тему, которая должна облегчить или уменьшить тот объем текста, который вы печатаете в консоли, это "Переменные окружения". Если вы не понимаете, что такое "Переменные окружения", объясню кратко. Ранее не зная, что такое переменные окружения, вы в терминале для перехода в домашнюю директорию конкретного пользователя вводили команду...

    Ускоряем Ubuntu уменьшая количество используемой памяти Ускоряем Ubuntu уменьшая количество используемой памяти

    Если сейчас сравнить новые версии десктоп дистрибутива Ubuntu например с версией 14.04, вы должны были бы увидеть, что дистрибутивы Linux стали более «прожорливыми», да новые версии получили проблему в виде Unity которая жрет оперативку как слон и если у вас оперативной памяти меньше 2гб, будет не сладко. В сегодняшнем материале мы обсудим несколько способов более оптимального решения возникшей проблемы которые бы позволили уменьшить апетиты в использовании оперативной памяти. Первый, конечно же - это выбор легкого дистрибутива (Xubuntu или же Lubuntu и прочих). Второй способ, в данном случае мы постараемся уменьшить потребления памяти без ограничения в функциональности работы дистрибутива, для опытов мы выбрали Ubuntu 16.04 LTS.

    Подборка shell-скриптов на все случаи жизни Подборка shell-скриптов на все случаи жизни

    Консоль Linux - это тот инструмент который позволяет выполнять такие манипуляции, которые не позволяет творить командная строка в Windows, консоль Linux, это визитная карточка UNIX. Сегодня материал не о том как писать скрипты, нет, я вас не буду учить как, что и для чего. Мы рассмотрим небольшую подборку полезных скриптов, которые вы сможешь применять ежедневно для решения задач разного рода, например посмотреть погоду на несколько дней вперед, скрипты для веб-сервера в одну строку, написание бота для твиттера и скриптом для автоматического запуска любого торрент-клиента.

    Этот материал написан, не чтобы вы занимались шаманизмом, ни в коем случае я вас не призываю сидеть в консоли и печатать сотни символов, чтобы выполнить некоторые действия, которые вы можете выполнить в графическом интерфейсе лишь наведя мышку на необходимый вам элемент. Но есть одно но, не всегда графический интерфейс является лучшим решением, часто для решения многих задач консоль и скрипты справляются с поставленной задачей намного лучше чем приложения с графическим интерфейсом, в связи с чем о скриптах забывать нельзя так как много рутинной работы они решают лучше графических инструментов. Стоит так же добавить, что любая DE позвoляет вам создать для ваших скриптов иконку, нажав на которую, вы сможете их легко запустить не открывая консоль.

    Установка FTP-клиента gFTP в Linux Установка FTP-клиента gFTP в Linux

    Foxit Reader — это легковесная, быстродействующая и многофункциональная программа для чтения PDF, которая позволяет создавать (бесплатное создание PDF-документов), открывать, просматривать, подписывать и распечатывать любые PDF-файлы. Foxit Reader создан на базе самого быстрого и точного (с высокой точностью отображения) в отрасли инструмента визуализации PDF, дающего пользователям лучшие возможности для просмотра и печати PDF-документов. Доступны версии продукта на английском, нидерландском, французском, немецком, итальянском, португальском, русском и испанском языках.

    Установка менеджера закачки JDownloader в Linux Установка менеджера закачки JDownloader в Linux

    JDownloader - свободный менеджер закачек, написанный на языке программирования Java, который позволяет скачивать файлы с файлообменников. Программа поддерживает автоматическую распаковку архивов RAR, разбитых на несколько частей, объединение файлов, разбитых на части. К особенностям программы относится автоматическая загрузка с RapidShare, включающая учёт времени ожидания и распознавание CAPTCHA без вмешательства пользователя. В программе присутствует закрытый исходный код, что противоречит требованиям лицензии GNU GPL, поэтому разработчики объявили о возможной смене лицензии, оставляя при этом большую часть кода открытой.

    Установка менеджера закачки FlareGet в Ubuntu Linux Установка менеджера закачки FlareGet в Ubuntu Linux

    FlareGet - Отличная программа для загрузки файлов в Ubuntu Linux, чем-то схожа на Download Master, аналог виндовс приложения. После установки, при запуске у вас запросится установка расширений для браузеров(Firefox, Chrome и Opera), это расширения которые помогут автоматизировать синхронизацию между браузером и приложением для удобной загрузки файлов не перебивая друг друга.

Здравствуй Гость, как Вы видите еще никто не оставил свой комментарий, будьте первым, поделитесь мнением о материале выше.

avatar