Aard dictionary для android
Краткое описание:
Просмотр википедии и словарей на устройстве без интернета.
Описание:
На данный момент есть две версии программы:
- Первая версия программы (Aard dictionary): присутствует на Google Play, а также в варианте для Windows и Linux, поддерживает словари формата *.aar и на данный момент больше не развивается.
- Вторая версия программы (Aard 2): Google play, поддерживает словари формата *.slob.
Что нового и измененного в Aard 2:
— Новый формат словаря, допускающий большую степень сжатия, а также возможность хранить произвольные типы содержимого.
— Новый интерфейс;
— Закладки и история;
— Пунктуация (точки, тире, пробелы и т.д.) теперь учитываются как наименее важный элемент, поэтому результаты поиска несколько отличаются.
— Изменение приоритета словарей.
— Минимальная версия Android — 4.0.3.
Словари можно хранить и на карте памяти, программа выполняет их поиск при нажатии на кнопку «Обновить» в одном из меню.
Готовые словари в формате SLOB можно скачать на официальной странице и с помощью торрента .
Готовые словари в формате AARD (устаревший формат) можно скачать на официальной странице .
При невозможности скачать словари по вышеприведенным ссылкам писать запрос в теме, зеркало будет по возможности приведено.
Некоторые дополнительные словари, конвертированные из свободных словарей Stardict, можно скачать по ссылке (благодарности Ildar Mulyukov).
Все пожелания и вопросы (желательно на английском языке) по развитию программы можно оставить на форуме программы или на Github-е.
Процесс создания wiki-словаря для Aard 2 делится на два этапа:
- при помощи инструмента mwscrape обработанные статьи с сайтов на основе MediaWiki скачиваются через web API и сохраняются в базе данных CouchDB для того, чтобы обеспечить возможность дальнейшей автономной обработки.
- при помощи инструмента mwscrape2slob из базы данных CouchDB, полученной на первом этапе, создается словарь формата slob, который затем используется в приложении.
Все эти операции выполняются под операционной системой (ОС) Linux. Рекомендуемый дистрибутив — Ubuntu 18.04.
Поэтому прежде всего необходимо скачать и установить данную ОС. Для простоты и безопасности работы пользователям, прежде не имевшим дело, с Linux, рекомендую все операции выполнять под виртуальной машиной (например, VirtualBox). Один из примеров установки можно посмотреть здесь.
Кроме того, можно использовать разворачиваемый образ виртуальной машины для программы VirtualBox с предустановленным Ubuntu Linux и набором инструментов для создания словарей (доступен по ссылке ниже). При данном варианте все, что нужно сделать, это установить программу VirtualBox, открыть скачанный образ и работать внутри виртуальной машины.
Все нижеуказанные команды выполняются в режиме командной строки (терминала). Для запуска приложения «Терминал» необходимо нажать на кнопку в верхнем левом углу рабочего стола и в открывшемся поле ввести слово «Терминал» (см. скриншот).
С целью дальнейшего удобства работы рекомендую значок терминала из данного окна поиска перенести на боковую панель рабочего стола, откуда затем его и запускать.
Все команды, запускаемые в терминале и начинающиеся с команды «sudo», требуют ввода пароля администратора компьютера как минимум на время терминального сеанса. Поэтому при новой установке операционной системы запомните данный пароль (или же узнайте его у администратора системы, на которой проводите операции).
Программа mwscrape готова к использованию.
Для сохранения википодобных сайтов в базу CouchDB необходимо использовать следующую команду (приведен пример, для удобства берется мобильная версия сайта, на которой в меньшей степени присутствует дополнительная разметка):
mwscrape -h
usage: mwscrape [-h] [—site-path SITE_PATH] [—site-ext SITE_EXT] [-c COUCH] [—db DB] [—titles TITLES [TITLES . ]] [—start START] [—changes-since CHANGES_SINCE] [—recent-days RECENT_DAYS] [—recent] [—timeout TIMEOUT] [-S] [-r [SESSION ID]] [—sessions-db-name SESSIONS_DB_NAME] [—desc] [—delete-not-found] [site]
позиционные аргументы (требуют строго нахождения на своем месте):
site сайт MediaWiki для сохранения (имя хоста), например, ru.m.wikipedia.org
опциональные (необязательные) аргументы:
-h, —help Показывает справочное сообщение, а затем завершает работу программы
—site-path SITE_PATH Путь к MediaWiki API на данном сайте. По умолчанию: /w/
—site-ext SITE_EXT Расширение у скрипта MediaWiki API на данном сайте. По умолчанию: .php
-c COUCH, —couch COUCH URL-адрес сервера CouchDB. По умолчанию: http://localhost:5984
—db DB Название базы данных CouchDB. Если не указано, название извлекается из имени хоста сайта Mediawiki.
—titles TITLES [TITLES . ] Загружать словарные статьи с данными названиями (заголовками). Если название начинается с символа @, то командой оно принимается за имя файла, содержащего заголовки, по-одному на строку, в кодировке utf8.
—start START Загружать все словарные статьи, начиная с данного названия
—changes-since CHANGES_SINCE Загружать все словарные статьи, изменившиеся с указанного времени. Формат временной отметки — yyyymmddhhmmss. См. также http://www.mediawiki.org/wiki/Timestamp. Часы, минуты и секунды могут не указываться.
—recent-days RECENT_DAYS Количество дней для учета последних изменений
—recent Загружать только изменившиеся недавно статьи
—timeout TIMEOUT Таймаут сетевых соединений. По умолчанию: 30.0 с
-S, —siteinfo-only Получение или обновление информации о сайте, а затем завершение работы программы
-r [SESSION ID], —resume [SESSION ID] Возобновить предыдущую сессию закачки. Зависит от статистики, сохраненной в базе данных mwscrape.
—sessions-db-name SESSIONS_DB_NAME
Название базы данных, в которой сохраняется информация о сессиях. По умолчанию: mwscrape
—-desc Запрашивать все страницы в порядке убывания
—delete-not-found Ключ указывает программе удалять из базы уже не существующие страницы
0.46 0.45 0.44 0.43 0.42 0.41 0.40 0.39 0.38 0.37 0.36 0.35 0.34 0.33 0.32 0.31 0.30 0.29 0.28 0.26 0.25 0.24 0.23 0.22 0.21 0.19 0.18 0.17 0.16 0.15 0.3 0.2 0.1 New dictionary file format offering better compression and ability to store arbitrary content types Aard 2 for Android is probably going to remain my primary focus for the next few months. I think it’s almost feature complete and will probably be ready for the Play store soon. After Aard 2 for Android becomes stable I plan to give more attention to converters — port existing code for xdxf and WordNet, maybe add dedicated converters for freely distributable content such as GCIDE, jargon file, freedict.org databases, also maybe add a generic converter to create slob from html directory, which in combination with tools like wget could be used for creating offline website archives. One aspect of converting Wikipedia projects I still need to investigate in more detail is offline images. However, from what I’ve seen so far offline images are probably not going to happen: they simply take up too much space. For example, enwiki for Kiwix with images is 50Gb zipped. Remote media archive for simplewiki (which is tiny) is 43Gb. There are other issues as well (getting all the images for a given wikipedia project, license/copyright is not clear for many images). Building up available content is an ongoing effort. We have some great user contributions in this area, keep it coming 🙂 Most Wikipedias with largest user bases are already available. I plan to add a few more, however don’t expect all Wikipedia projects in all languages. It’s too much, not all of it is interesting enough and not all it is of sufficiently good quality. Some features I consider to add later (Aard 2 for Android): Some upcoming improvements for mwscrape2slob:
java -Dslobber.browse=true -jar aard2-web-0.7 .jar d:\slob\ *.slob (можно также создать командный файл с данной командой). Не забыть поменять имя файла программы aard2-web (выделено синим . Пока актуально, но в будущем может измениться) и путь к папке со словарями SLOB (выделен красным ). |