Есть множество различных причин, почему вам нужно конвертировать PDF файл в редактируемый текстовый файл, мы здесь не будем обсуждать причины, но обсудим способ как это можно осуществить в Linux. Возможно, вам нужно посмотреть(изменить) старый документ, но у вас есть лишь PDF версия. Преобразовать PDF файл в Windows, очень легко, но что делать, если вы используете Linux? Думаю этим вопросом задавались многие.

Конвертируем PDFв TXT файл

Не стоит беспокоиться. Мы покажем вам, как очень быстро и легко конвертировать PDF файлы в редактируемый текст с помощью инструмента командной строки(терминал) с помощью пакета под названием pdftotext, что является частью утилиты "Poppler-Utils". Этот инструмент может быть уже установлен по умолчанию в системе. Чтобы проверить, установлен ли в вашей системе pdftotext, нажмите "Ctrl + Alt + T", чтобы открыть окно терминала. Введите следующую команду в командной строке и нажмите клавишу "Enter".

dpkg -s poppler-utils

Если пакет установлен, хотя должен быть установлен так как проверив в версии Ubuntu 14.04 LTS мы видим следующий текст который нам сообщает, что пакет уже установлен в системе:

Package: poppler-utils
Status: install ok installed
Priority: optional
Section: utils
Installed-Size: 432
Maintainer: Ubuntu Developers <ubuntu-devel-discuss@lists.ubuntu.com>
Architecture: i386
Multi-Arch: foreign
Source: poppler
Version: 0.24.5-2ubuntu4
Replaces: pdftohtml, xpdf-reader, xpdf-utils (<< 3.02-2~)
Provides: pdftohtml, xpdf-utils
Depends: libc6 (>= 2.4), libcairo2 (>= 1.12.0), libfreetype6 (>= 2.2.1), libgcc1 (>= 1:4.1.1), liblcms2-2 (>= 2.2+git20110628), libpoppler44 (>= 0.24.5), libstdc++6 (>= 4.1.1)
Breaks: xpdf-utils (<< 3.02-2~)
Conflicts: pdftohtml
Description: PDF utilities (based on Poppler)
 Poppler is a PDF rendering library based on Xpdf PDF viewer.
 .
 This package contains command line utilities (based on Poppler) for getting
 information of PDF documents, convert them to other formats, or manipulate
 them:
  * pdfdetach -- lists or extracts embedded files (attachments)
  * pdffonts -- font analyzer
  * pdfimages -- image extractor
  * pdfinfo -- document information
  * pdfseparate -- page extraction tool
  * pdftocairo -- PDF to PNG/JPEG/PDF/PS/EPS/SVG converter using Cairo
  * pdftohtml -- PDF to HTML converter
  * pdftoppm -- PDF to PPM/PNG/JPEG image converter
  * pdftops -- PDF to PostScript (PS) converter
  * pdftotext -- text extraction
  * pdfunite -- document merging tool
Homepage: http://poppler.freedesktop.org/
Original-Maintainer: Loic Minier <lool@dooz.org>

1. В том случае если оказалось, что в вашей версии дистрибутива пакет pdftotext не установлен, введите следующую команду в командной строке и нажмите клавишу "Enter".

sudo apt-get install poppler-utils
  • В утилите Poppler-Utils есть несколько инструментов, которые позволяют конвертировать PDF в другие форматы, манипулируя PDF файлами, и извлекая информацию из файлов.

2. Для примера, давайте представим, что у нас в домашней директории имеется файл с названием Book.pdf, какую команду в нашем случае нужно выполнить чтобы преобразовать данный файл в файл текстового формата для чтения и редактирования например с помощью текстового редактора Gedit или любого другого.

  • Ниже приводится пример основной команды которая используется для преобразования PDF-файла в редактируемый текстовый файл. Нажмите "Ctrl + Alt + T", чтобы открыть окно терминала, далее введите следующую команду в командной строке и нажмите клавишу "Enter".
pdftotext /home/linux/Документы/Book.pdf /home/linux/Документы/Book.txt

В нашем случае linux это моя учетная запись, вы изменяйте на вашу, далее файл Book.pdf с которым мы и проводим опыты, далее через пробел мы так же прописываем путь в ту же директорию где нам создать готовый текстовый файл с результатом конвертации.

В моем случае я забросил в папку документы простенький документ почти на 3 метра, справочник по HTML, далее выполняю команду:

pdftotext CSS\ Manual.pdf CSS\ Manual.txt

Результаты конвертирования файла pdf в txt

  • Мы имеем готовый текстовый файл результат конвертирования с формата pdf. Конечно очень важно в вашем случае прописать полный и правильный путь к файлу который необходимо конвертировать, чтобы соответствовать расположению и имени вашего оригинального PDF файла и где вы хотите сохранить полученный текстовый файл. Так же не забываем о волшебной клавише под названием Tab при вводе пути и названия файла, убережет ваше время и автоматически подберется тот путь и то название файла которое нужно.

3. Конечно готовый преобразованный текст может иметь разрывы строк которых вы возможно и не хотите как и я. Разрывы строк вставляются после каждой строки текста в файле PDF. Чтобы убрать разрывы и лишнюю табуляцию, мы можем сохранить макет нашего pdf документа (заголовки и многое другого) от оригинального PDF файла в текстовом файле преобразовав с помощью специального флага "-layout".

В итоге готовая команда уже будет иметь следующий вид:

pdftotext -layout /home/linux/Документы/Book.pdf /home/linux/Документы/Book.txt

проверив результаты конвертации, скажу честно, уже все намного в более порядочном виде, но все же имеется много мелочей которые необходимо отредактировать.

4. Вам нужно преобразовать не целый документ, а определенный диапазон страниц от и до, например с 10 по 100, как будет смотреться готовая команда для конвертации спросите вы. Нажмите "Ctrl + Alt + T", чтобы открыть окно терминала, далее введите следующую команду в командной строке и нажмите клавишу "Enter".

pdftotext -f 10 -l 100 /home/linux/Документы/Book.pdf /home/linux/Документы/Book.txt

5. Как преобразовать PDF файл который зашифрован паролем от владельца спросите вы? Решение данного вопроса так же имеется и имеет следующую готовую комбинацию:

pdftotext -0pw 'пароль' /home/linux/Документы/Book.pdf /home/linux/Документы/Book.txt
  • Чтобы вы не попутали при возможном выполнении команды выше, в атрибуте 0pw используется не буква О, а цифра ноль.

6. Как преобразовать файл который защищен паролем, не зашифрован как в варианте выше, так же имеется простое решение, в терминале выполняем готовую комбинацию, пример:

pdftotext -upw 'пароль' /home/linux/Документы/Book.pdf /home/linux/Документы/Book.txt

7. Вы можете также указать Тип конца строки, символ, который добавляется в преобразованный текст. Это особенно полезно, если вы планируете использовать файл в разных операционных системах, таких как Windows или Mac. Чтобы сделать это, используйте флаг "-eol" (символ в середине флага является строчной буквой "o", не ноль), затем пробел и указываем окончания для строк который вы хотите использовать ("Unix", "Dos", или "Mac"). 

  • Готовая команда будет иметь следующий вид, Нажмите "Ctrl + Alt + T", чтобы открыть окно терминала, далее введите следующую команду в командной строке и нажмите клавишу "Enter".
pdftotext -eol unix /home/linux/Документы/Book.pdf /home/linux/Документы/Book.txt

Если вам мало информации по возможности преобразования pdf документов в разнообразные форматы, вы всегда можете прочесть справку, выполнив в терминале команду - man pdftotext. На этом пожалуй материал завершен, если у вас будут вопросы, пожалуйста, спрашивайте в комментариях к материалу ниже, всем удачи.

Понравилась статья?
Есть множество различных причин, почему вам нужно конвертировать PDF файл в редактируемый текстовый файл, мы здесь не будем обсуждать причины, но обсудим способ как это можно осуществить в Linux. Возможно, вам нужно посмотреть(изменить) старый докуме...
Терминал
2090
Рейтинг: 5/8
При перепечатке материалов указание ссылки на linuxsoid.com обязательно.

Подпишитесь на рассылку

Смотрите также:
    ICQ Аська для Ubuntu Linux ICQ Аська для Ubuntu Linux

    И свершилось чудо, вышел официальный релиз ICQ для Linux, ранее вам приходилось пользоваться сторонними приложениями, но теперь в этом нет необходимости так как вышел официальный клиент.

    Выберите вашу архитектуру и загрузите архив, архив занимает 33 около 34 мб, скачаете, распакуйте, далее увидите файл формата run с названием "icq", нажмите по нему двойным кликом как и обычно когда вы запускаете приложения, сразу же увидите как автоматически извлеклись две директории (settings и fontconfig), настройки и прочие  конфигурационные файлы для работы приложения.

    Игра Teeworlds для Ubuntu Linux Игра Teeworlds для Ubuntu Linux

    Teeworlds - это многопользовательский 2D шутер который очень схож с такими играми как (Worms, Soldat и Counter-Strike 2D). В связи с особенностями физики имеет свой уникальный геймплей. Все игроки имеют возможность управления персонажем который очень похож на колобка, но этот колобок не простой так как умеет цепляться за стены используя крюк и на лету перемещаться по карте почти как "Тарзан" на лиане. Цель играющего зависит от режима игры: например, уничтожить противников, доставить вражеский флаг к себе на базу или добежать до конца карты.

    Игра Oh My Giraffe для Ubuntu Linux Игра Oh My Giraffe для Ubuntu Linux

    Очень веселая игра для ваших детей которые осваивают Linux. Игра предназначена именно для того, чтоб любой, кто установит ее, смог просто прекрасно отдохнуть и повеселить своих детей или же племянников. Эта игра поможет вам поднять настроение и приятно провести время с своими родными. Все что нужно делать в игре Oh My Giraffe, это есть вкусные фрукты и убегать от диких львов. 

    Ваш герой, это жираф который сражается с львами. В том случае если вы не сможете убежать от львов, это не конец игры, вы имеете преимущества в том, что вы можете использовать ваш рост и вес, вы можете упасть на львов которые гонятся за вами. В данном случае, вы вероятнее всего задавите кого-то ради своего спасения. Если сказать кратко, это веселая игра которой вы еще не встречали. 

    Переменные окружения linux Переменные окружения linux

    Работая с консолью, мы вводим много разного рода команд для достижения тех или иных целей, которые мы поставили перед собой. Сегодня я хочу обсудить тему, которая должна облегчить или уменьшить тот объем текста, который вы печатаете в консоли, это "Переменные окружения". Если вы не понимаете, что такое "Переменные окружения", объясню кратко. Ранее не зная, что такое переменные окружения, вы в терминале для перехода в домашнюю директорию конкретного пользователя вводили команду...

    Ускоряем Ubuntu уменьшая количество используемой памяти Ускоряем Ubuntu уменьшая количество используемой памяти

    Если сейчас сравнить новые версии десктоп дистрибутива Ubuntu например с версией 14.04, вы должны были бы увидеть, что дистрибутивы Linux стали более «прожорливыми», да новые версии получили проблему в виде Unity которая жрет оперативку как слон и если у вас оперативной памяти меньше 2гб, будет не сладко. В сегодняшнем материале мы обсудим несколько способов более оптимального решения возникшей проблемы которые бы позволили уменьшить апетиты в использовании оперативной памяти. Первый, конечно же - это выбор легкого дистрибутива (Xubuntu или же Lubuntu и прочих). Второй способ, в данном случае мы постараемся уменьшить потребления памяти без ограничения в функциональности работы дистрибутива, для опытов мы выбрали Ubuntu 16.04 LTS.

    Установка FTP-клиента gFTP в Linux Установка FTP-клиента gFTP в Linux

    Foxit Reader — это легковесная, быстродействующая и многофункциональная программа для чтения PDF, которая позволяет создавать (бесплатное создание PDF-документов), открывать, просматривать, подписывать и распечатывать любые PDF-файлы. Foxit Reader создан на базе самого быстрого и точного (с высокой точностью отображения) в отрасли инструмента визуализации PDF, дающего пользователям лучшие возможности для просмотра и печати PDF-документов. Доступны версии продукта на английском, нидерландском, французском, немецком, итальянском, португальском, русском и испанском языках.

Здравствуй Гость, как Вы видите еще никто не оставил свой комментарий, будьте первым, поделитесь мнением о материале выше.

avatar