Как сделать копию википедии

Обновлено: 05.07.2024

Один раз при запросе в гугл выдал такой ссылочку

Это что получается backup википедии можно скачать?а зачем они это выкладывают в паблик?

Цитата

Это что получается backup википедии можно скачать?а зачем они это выкладывают в паблик?

А разве википедия какой-то закрытый источник? Если каждый может свободно редактировать ее то что такого в том что ее можно скачать?

Гм, не пойму вас, гугл и яндекс это поисковики со своими интернет сервисами, а вики это энциклопедия вы и так вручную можете сохранять страницы, что такого сделать бэкап всего материала? Вы же не спрашиваете зачем онлайн библиотеки дают скачивать книги?

Дамп БД у википедии.

Цитата (Эли4ка @ 4.11.2011 - 07:01)

ведь гугл,яндекс не делают этого..

У гугла и яндекса нету базы данных, такой же, как у Википедии. У них оперативный поиск. И пусть у них есть некий кэш, но это не то же самое, что у Википедии.
Да и зачем мне на компе полная Википедия. (задумался, ушел осмыслять - а вдруг надо на самом деле?

Данная статья описывает загрузку базы данных (дампа) статей Википедии в уже установленную MediaWiki. То есть предполагается, что вы уже установили программное обеспечение MediaWiki на свой компьютер в соответствии с руководством Установка MediaWiki.

При написании обновлённой инструкции все шаги были проверены на машине с процессором Athlon XP 2600+ и установленной системой Windows Server 2003.

Настройка базы данных Википедии

Понадобятся следующие дампы

pages-articles.xml.bz2 — Основной дамп содержимого всех статей, списка статей и их ревизий

SQL — скрипты таблиц базы данных

category.sql.gz — список категорий
categorylinks.sql.gz — связи страниц с категориями
redirect.sql.gz — список страниц редиректов
pagelinks.sql.gz — связи вида страница-на-страницу
templatelinks.sql.gz — связи с шаблонами
image.sql.gz — список изображений
imagelinks.sql.gz — связи с изображениями
interwiki.sql.gz — для корректного отображения, а точнее для не отображения интервик с Википедии(отсутствует в дампе 20160601)

Замечание: Сохраните все это в одну директорию, например, P:\LocalWiki\RunDump (pages-articles.xml.bz2 разархивировать не нужно, разархивация произойдет автоматически при импорте данных, остальные sql-скрипты нужно разархивировать).

Щелкаем на ruwiki. Открывается список успешных дампов (Dump complete). Выбираем один из дампов, например pages-meta-current.xml.bz2 или pages-articles.xml.bz2.

Обратите внимание на размер файлов!

Например, файл ruwiki-20080614-pages-meta-current.xml.bz2 имеет размер 449 Мб, а при его разархивации создается файл размером 2.9 Гб (Файл ruwiki-20081019-pages-meta-current.xml.bz2 размер 152 КБ при разархивации создается файл размером 808 КБ).

Загружаем выбранный архив.

Для сервера STPServer

Распакуйте архив, например, в папку C:\TEMP. Обратите внимание, у вас, наверно, будет другая дата в имени файла.

Перейдите в каталог T:\usr\local\mysql5\bin и выполните команду:

Это необходимо для корректного отображения ссылок на другие языковые разделы.

Перейдите в каталог T:\home\virtual\prime\maintenance и выполните команду:

Это собственно сами страницы. Обратите внимание, у вас, наверно, будет другая дата в имени файла.

После того, как база импортирована, для комфортной работы лучше создать индекс для поиска и список соответствия страниц своим категориям.

Сначала нужно отредактировать один файл, необходимый для запуска скрипта rebuildall.php.

Перейдите в каталог T:\home\virtual\prime, переименуйте файл LocalSettings.sample в LocalSettings.php и в нем замените строки:

$wgDBadminuser = 'Ваш логин к БД';

$wgDBadminpassword = 'Ваш пароль к БД';

Теперь перейдите в каталог T:\home\virtual\prime\maintenance и запустите полную переиндексацию:

По окончании процесса переиндексации идём на [prime prime] и наслаждаемся собственной Википедией.

Для сервера XAMPP

Распакуйте архив, например, в папку C:\Program files\xampp\. Обратите внимание, у вас, наверно, будет другая дата в имени файла.

Перейдите в каталог C:\Program files\xampp\mysql\bin и выполните команду:

Это необходимо для корректного отображения ссылок на другие языковые разделы.

Перейдите в каталог C:\Program files\xampp\htdocs\wikipedia\maintenance и выполните команду:

Это собственно сами страницы. Обратите внимание, у вас, наверно, будет другая дата в имени файла.

Сначала нужно отредактировать один файл, необходимый для запуска скрипта rebuildall.php. Перейдите в каталог C:\Program files\xampp\htdocs\wikipedia\, переименуйте файл LocalSettings.sample в LocalSettings.php и в нем замените строки:

$wgDBadminpassword = '';

Теперь перейдем в каталог C:\Program files\xampp\htdocs\wikipedia\maintenance и запускаем полную переиндексацию:

и идем пить кофе … на компьютере с процессором Celeron 2600 выполнение этого шага заняло около двух часов.

По окончании процесса переиндексации идём на свою собственную Википедию (localhost/wikipedia/) и наслаждаемся.

Для Mac OS X

1. Установить приложение "Server" из AppStore,

2. Установить MySql,

3. Любым приложением для работы с Mysql:

5. Зайти по адресу localhost/папка_с_mediawiki/ и произвести настройку (введите ранее созданные данные: имя БД, логин, пароль)

7. Открыть приложение "Терминал",

8. В программе "Терминал" вводим команды:

php importDump.php Импорт дампов БД википедии для LAMP сервера на Ubuntu/Debian

Использование MWDumper

Конвертирование базы осуществляется достаточно просто:

где --format=sql:1.5 — формат SQL-схем MediaWiki версии 1.5 и выше (для версий 1.4 и ниже используйте --format=sql:1.4), а dump.xml — исходный распакованный XML-дамп Википедии. По окончании процесса вы должны получить готовый SQL-скрипт.

Импортирование скрипта лучше всего осуществлять через CLI-утилиту MySQL — mysql.exe:

rootpass — пароль для root-аккаунта MySQL
wikidb — ваша база данных для установленной MediaWiki
X:\путь\до\dump.sql — полный путь до сконвертированного SQL-файла

Процесс импортирования данных скрипта должен пройти достаточно быстро, даже для дампа с несколькими миллионами страниц. По окончании его вы получите копию содержимого всех страниц дампа. Если для вас этого достаточно — все, на этом процесс создания копии завершен. Ежели вам нужен рабочий полнотекстовый поиск, индексация, статистика, рубрикация и т. д. — необходимо запустить соответствующий скрипт rebuildall.php. Вы найдете его там же, где и importDump.php:

Процесс индексации займет очень долгое время (в зависимости от размера базы — от нескольких часов до нескольких дней; индексация current-дампа Википедии от 7 декабря 2009 займет не один день) и требует очень много свободного места на диске с БД MySQL (40Gb для вышеупомянутого дампа).

Решение проблем:

Обновление базы данных

Скачав новый, более свежий дамп базы проделываем шаги из пункта Настройка базы данных за исключением выполнения скрипта wikipedia-interwiki.sql

Заключение

Другое программное обеспечение, используемое для установки:

Дополнение: возможные проблемы и способы их решения

Сould not open input file: inportdump.php

Появилось при выполнении команды

Скажите как решить данную проблему

Может появиться при выполнении команды:

Этот SQL-запрос можно выполнить с помощью утилиты администрирования [admin/modules/mysql/phpmyadmin phpmyadmin].

Запустите панель и выберите базу данных wikidb. Далее нужно выбрать закладку SQL, нажать на кнопку Обзор и найти файл wikipedia-interwiki.sql

Может появиться при выполнении команды импорта базы:

В этом случае необходимо последовательно выполнить следующие действия, до устранения ошибки.

Шаг 1. Запустить следующую команду с указание пути к файлу php.ini (опция -c).

Шаг 2. Проверьте с помощью следующей команды список загружаемых модулей:

В списке должен быть модуль mysql. Если этого модуля в списке нет, то базу импортировать не удастся.

Шаг 3. Проверьте, что в файле php.ini разрешен запуск модуля php_mysql.dll:

Шаг 4. Проверьте содержимое папки, в которой хранятся динамически загружаемые расширения PHP (PECL). Размещение этой папки определено в файле php.ini:

Данная папка должна содержать файл php_mysql.dll

Шаг 5. Скопируйте файлы php_mysql.dll и libmysql.dll в папку C:\WINDOWS\SYSTEM32

Скопируйте файл php.ini в папку C:\WINDOWS.

Попробуйте еще раз выполнить команду импорта базы.

Если после описанных шагов так и не удалось импортировать базу, обратитесь к специалистам.

Отказ в соединении с базой данных

1. Проверьте, запущен ли у Вас MySQL. Для этого запустите из директории, куда вы установили xampp файл . \xampp\xampp-control.exe (ярлык должен быть на рабочем столе, если нет - найдите сам файл). Две верхние кнопки должны быть с надписью Stop, напротив слов Apache и MySql должны быть слова Running. Если это не так, запустите приложения кнопками Start.

2. При настройке Wiki в полях Database name, DB username и DB password должны быть установлены такие же значения, как и при создании нового пользователя и базы данных при настройке MySQL. Database name соответствует имени создаваемой в MySQL базе, Имя пользователя — DB user name, Пароль — DB password. Если у Вас не так — самое лёгкое: сотрите базу данных (в администраторе MySQL) и каталог с данными wikipedia (…\xampp\htdocs\wikipedia) и проделайте соответствующие шаги заново.

Если это не помогает (у меня не помогло, в чём дело — не знаю), сделайте следующее (это помогло):

Внимание! Не запускайте сервера Apache и MySQL без паролей при подключении к internet.

2. В файле …\xampp\htdocs\wikipedia\LocalSettings.php найдите строки вида

Напишите $wgDBpassword = "", тем самым обнулив пароль. Так как Вы работаете на ПК без подключения к internet, а не сервере, пароль всё равно не нужен.

Превышение max_allowed_packet

2. В командной строке переходим в каталог C:\Program files\xampp\mysql\bin.

3. Набираем команду:

Нажимаем Enter, далее, окно консоли можно закрыть. Число справа — максимальный размер пакета. Вы можете ввести и другое число (в примере — 128 Мб). По умолчанию размер пакета 1 Мб.

Неправильная заглавная страница

В отличие от всех других страниц, Заглавная страница содержит страницу по умолчанию, а не ожидаемую копию из Википедии. Это связано с тем, что страница в архиве старше страницы вновь установленной Википедии. Старую страницу можно найти в истории правок. Заодно можно поупражняться в редактировании и восстановить страницу.

На мой сайт есть входящие ссылки с Википедии. И в Вебмастере постоянно вижу, что появляются новые входящие ссылки с других доменов, которые по факту являются клонами Википедии. Вот например из последних:

Это только часть, а таких сайтов очень много!

Я вроде бы не первый день в SEO, но не могу понять, в чём выгода таких проектов? Ведь контент на сайте неуникальный и посещаемость нулевая, ни на рекламе, ни на ссылках заработать нельзя. Я понимаю, когда клонируют сайты соцсетей, например, чтобы собирать пароли. А здесь что? Объясните мне кто-нибудь, пожалуйста.

"Это только часть, а таких сайтов очень много! " Десятки. А потом они тоже массово исчезают и вместо них появляются другие сайты-подражатели. Если честно, я не обращаю на это внимание. Ссылки там неиндексируемые.

Вопрос был не про ссылки, а про цель создания этих клонов. Любой сайт создаётся с целью заработка. Мне интересно, на чём зарабатывают эти сайты.

"Любой сайт создаётся с целью заработка." не всегда. Есть компании, у которых есть клиенты, а сайт - для представительских целей, тоже есть. Я поняла, о чем вы спросили. Мое предположение: во-первых, несколько клонов явно создается одним человеком. Он попробовал, думал, что что-то получится. И не получилось задуманное. Потом другой решил пойти по тому же пути, наштамповав кучу викепедий, и тоже ничего не вышло в итоге.

Римское право: ищи, кому это выгодно.
"Вопрос был не про ссылки, а про цель создания этих клонов".

Ваша "выгода" вопроса в том, чтобы узнать, можно ли заработать на клонах Википедии. Вы вроде знаете, что нельзя, но кто-то ведь создает, и червь сомнения вас грызет. Возможно, можно заработать, но тот, кто это знает, информацию не раскроет.

Вспоминаем фразу: "урвать свой кусок из пирога"

поэтому, сейчас многие новые кино сайты стали подписываться "смотреть онлайн на киного", тоже пытаются урвать свой кусок, создав клон киного.

Каждые несколько месяцев мы видим Джимми Уэйлса на баннере в верхней части страницы Википедии, призывающего международное сообщество пожертвовать деньги. Каждый год Википедия просто не остается на плаву, она растет. Это одна маленькая часть истории Википедии. Вы можете прочитать о его рождении и происхождении

и как это случилось. Чтобы понять Википедию как нечто большее, чем открытое и совместное усилие, вы должны прочитать статью и мемуары Ларри Сэнгера, связанные через нее.

Сегодня, когда он появляется поверх почти каждого результата Google, мы воспринимаем его как должное. Иногда мы пытаемся опровергнуть это на три или три пункта из-за достоверности изложенных там фактов. Но его присутствие и использование в пантеоне замечательных сайтов-закладок гарантировано.

Но эта статья не о пении осан в крупнейшей в мире совместной энциклопедии. Это руководство о том, как вы можете перевести Википедию в автономный режим, загрузив страницы. Но сначала давайте ответим …

Что нужно для загрузки страниц Википедии, когда все это есть?

Но это было бы крайне недальновидно с моей стороны, поэтому давайте углубимся в некоторые сценарии того, почему вы должны знать о способах и способах загрузки Википедии … на всякий случай. Здесь я приведу пять основных причин и приглашаю вас рассказать мне больше в комментариях. Использование реального слова, о котором мы не знаем, было бы действительно ценным советом.

1. Вы находитесь на острове без подключения к Интернету

Наиболее вероятным сценарием является то, что вы находитесь в автономном режиме и у вас нет немедленного доступа к Википедии, но вам срочно нужно найти ее. Несколько концертов, занятых Википедией на вашем смартфоне или ноутбуке, в наши дни не имеют большого значения, и это может быть спасением.

2. Вы находитесь в горячей точке, которая стоит вам немалых центов

У вас есть Wi-Fi, но зачем тратить пропускную способность, когда у вас есть автономная копия Википедии? Глубоко вглядываясь в Википедию и отыскивая иголку в стоге сена, требуется некоторая пропускная способность

3. Возвращение СОПА

Помните СОПА? Википедия перешла в наступление с отключением электроэнергии 18 января. Как раз тогда, когда вы захотели взглянуть на практику выращивания гибискуса роза-синенсис. Википедия — это такое присутствие, что мы почти принимаем это как должное. Что, если произойдет еще одно отключение, или сайт просто рухнет под потоком всех, кто ищет методы выращивания гибискуса розового-синусисского? Ваша собственная автономная копия может быть спасением.

4. Вы являетесь исследователем

Вы, вероятно, один из тех парней, которые любят искать факты и информацию, находясь в пути. Перевод Википедии в автономный режим — это инструмент исследования, который всегда работает круглосуточно. Вам не нужно тратить время, если нет подключения к Интернету.

5. Вы информационный наркоман и любите выигрывать свои ставки на бар

6. Маленькие братья тоже имеют свое применение

Мне нравится держать Wikiquote и Wikitionary рядом. Будь то, чтобы понтифицировать мою жену с хорошей цитатой или освежиться большим списком цитат из фильмов. Давайте также не будем забывать, что Википедия и ее братья и сестры могут говорить на многих языках.

7. Или … если вам просто скучно и вам нечего делать

Я не буду защищать Википедию как серьезный инструмент исследования, но было довольно много раз, когда я просматривал бесцельно и случайно, только чтобы обнаружить большой кусок информации. Википедия — это не Reddit, но в конце дня интересный байт информации — это интересный байт.

Итак, теперь давайте перейдем к преследованию с …

10 инструментов для загрузки страниц из Википедии

WikiTaxi

WikiTaxi — это портативное приложение, которое считывает из оригинальных дампов базы данных Wikipedia. Вы должны вручную загрузить эти базы данных со страницы загрузок Викимедиа, и они импортируют их в WikiTaxi. Дампы базы данных Википедии — это резервные копии базы данных Википедии в форме SQL. Такое приложение, как WikiTaxi, представляет весь гаджет таким образом, что вы можете читать, искать и просматривать Википедию в автономном режиме.

Особенности отметить:

WikiTaxi загружает самую последнюю версию дампа Википедии.
WikiTaxi сохраняет базу данных сжатой. Помните, что только английская версия может иметь размер 3,5 ГБ.
WikiTaxi также работает с Wiktionary и WikiQuote. Таким образом, вы можете скачать, сохранить несколько вики с WikiTaxi и на всех доступных языках.
WikiTaxi полностью автономен в одном исполняемом файле. Носите его с собой на переносном диске.

Карманная Википедия

24000 изображений и 14 миллионов слов, содержащихся в Pocket Wikipedia, должны много читать. Pocket Wikipedia — это кураторская и сжатая форма Wikipedia, которая была специально скомпилирована в сжатый пакет загрузки объемом 180 МБ.

Особенности отметить:

Информация в Pocket Wikipedia выбрана, но она также равна размеру пятнадцатитомной энциклопедии.
Он основан на Википедии для школ, которая опять-таки представлена в виде DVD и содержит 34 000 изображений и 20 миллионов слов.
Pocket Wikipedia — это бесплатная программа для Windows и Linux.

Kiwix [больше не доступен]

Kiwix — это ПО с открытым исходным кодом объемом 29,7 МБ, которое работает как WikiTaxi. Вы должны сначала загрузить базу данных Википедии, а затем открыть ее с помощью программного обеспечения. Единственное отличие состоит в том, что в то время как для WikiTaxi вы должны загружать базу данных с сайта Wikipedia, в случае с Kiwix вам необходимо загрузить последнюю версию со своего собственного сайта, где она доступна в виде пакета .zim. В отличие от WikiTaxi, здесь нет конвертации.

Особенности отметить:

Kiwix доступен для Windows, Linux (и его дистрибутивов) и Mac OS X.
Программное обеспечение позволяет перетаскивать, а также имеет опцию Сохранить как PDF.
Вы можете искать статьи в Википедии, а также добавлять их в закладки.

Okawix

Okawix — еще один офлайн-ридер для Википедии. Это бесплатное программное обеспечение с открытым исходным кодом с версиями для платформ Windows, Mac, Linux и Android. Вы можете скачать и сохранить всю Википедию с картинками или без них. Вы также можете просматривать дочерние сайты Википедии, такие как Wikisource, Wiktionary, Wikiquote и Wikibooks. Он также поддерживает 253 языков в проектах.

Особенности отметить:

Вы можете выполнять поиск по этим статьям через поисковик Wikiwix.
Вы также можете скачать базу данных Википедии как торрент.

Примечание: по какой-то причине это программное обеспечение не работает для меня. Попробуйте, может быть, это будет работать для вас.

. Вы можете выбрать нужные страницы, а затем загрузить выбранные страницы в виде файла PDF с указателем. Это сэкономит вам много времени, но, конечно, вы получите только те страницы, которые вы выбрали для чтения, а не весь океан Википедии.

Особенности отметить:

Загрузите книги в формате PDF или ODF или закажите печатную книгу.
Создатель книги анализирует текущий набор страниц в вашем выборе и предлагает более релевантные страницы.
Вы можете создать свою электронную книгу, добавив целые категории одним щелчком мыши.

Надеюсь, это небольшое руководство по загрузке страниц из Википедии вам пригодится. Запустите с загруженной копией Википедии на неделю. Попробуйте, когда вы застряли где-то и вам больше нечего читать. Вернись и скажи нам, если это дало тебе какую-то ценность. Знания, как говорится, никогда не теряются. И сейчас кажется, что Википедия хранит в себе немало.

Используете ли вы загруженную автономную копию Википедии? Как ты это схватил? Что еще более важно, скажите нам, почему вы используете это?

Читайте также: