Полная база работ авторского коллектива ВП СССР (и сопутствующих)

Sirin · 01.12.2011, 19:09

Цитата:

Сообщение от Январь

1. Материалы ВП СССР можно объединить в секции, как новости на http://lenta.ru - там есть секция "Россия", секция "б.СССР", секция "Прогресс" и т.д.

Цитата:

Так как мою идею интегрировать кабзу ВКонтакт похоронили

Кто это сделал?!

Покажи мне на него пальцем!

Цитата:

я в принципе свободен

Ну и?
Если возьмёшься за это дело, давай хорошенько обдумаем чего да как.
С перспективой создания из этой базы отдельной программы.

Январь · 01.12.2011, 19:41

Цитата:

Кто это сделал?!

Покажи мне на него пальцем!

Так ты же сам сказал, что создавать еще один форум, пусть бы даже и ВКонтакте смысла в общем-то нет...

Цитата:

С перспективой создания из этой базы отдельной программы.

В смысле отдельной программы?

Цитата:

Если возьмёшься за это дело, давай хорошенько обдумаем чего да как.

Давай...

Опиши саму идею подробно...

Sirin · 01.12.2011, 20:09

Я не спец по базам данных но мысль такая.

В базе содержаться текстовые блоки (главы или абзацы?), + соответствующие им картинки, + ссылки на примечания (которые тоже - индексированные текстовые блоки).

Если проиндексировать абзацы, можно будет делать ссылки типа:

.../базакоб/книги/Вопросы_митрополиту/глава3/24

И там будет конкретный абзац с нужной цитатой.
Очень удобно для цитирования на ресурсах.

Почему не страницы? Потому, что, если мы делаем универсальную базу, то не знаем, на каком экране её будут смотреть - 120х120 или 1920х1680, соответственно, должна быть возможность формировать страницы динамически.

Грубо говоря - как библию разбили в своё время на нумерованные главы и стихи и сейчас ссылаются типа 2:18

Из этой же базы, насколько я понимаю, будет элементарно сделать сайт с представлением всех работ ВП в виде простого HTML - то, чего сейчас Миха руками делает.
Оттуда же и fb2 будет сделать нетрудно.

И всё это дело портировать, скажем, на PocketPC, Android, и пр. - база + микросервер + читалка в виде программы.
Причём, как я сильно подозреваю, всё это уже изобретено и существует - нужно подобрать подходящий вариант и создать базу.

Из плюшек - нормальный поиск СРАЗУ ПО ВСЕМ или выборочно по отдельным работам ВП.
На сегодня это не реализовано нигде.

Январь · 01.12.2011, 20:17

Цитата:

Почему не страницы? Потому, что, если мы делаем универсальную базу, то не знаем, на каком экране её будут смотреть - 120х120 или 1920х1680, соответственно, должна быть возможность формировать страницы динамически.

Только не ясно почему все таки не страницу - никаких проблем со страницами не будет.

А я тем не менее не за абзацы, а за главы. Таким образом при поиске будет выводиться целиком найденная глава - а в ней будет выделен найденный фрагмент...

Тут одна проблема - если сохранять тем или иным видом верству, ну например жирное выделение - то поиск будет весьма осложнен... Таким образом выделение будет иметь смысл ставить только на целиком законченные высказывания...

...

В остальном ясно...

Но я все равно за главы... Это просто меньшая нагрузка на сервер, а при показе главы юзера можно хоть автоматом отскролить на найденный фрагмент... + для индексации полезнее...

Хотя абзацы - аяты тоже прикольно...

Sirin · 01.12.2011, 20:41

Цитата:

Сообщение от Январь

Тут одна проблема - если сохранять тем или иным видом верству, ну например жирное выделение - то поиск будет весьма осложнен... Таким образом выделение будет иметь смысл ставить только на целиком законченные высказывания...

Цитата:

Сообщение от Sirin

Причём, как я сильно подозреваю, всё это уже изобретено и существует - нужно подобрать подходящий вариант и создать базу.

может fb2 поковырять?
или djvu?
или odt?

Январь · 01.12.2011, 20:52

Цитата:

Сообщение от Sirin

может fb2 поковырять?
или djvu?
или odt?

Не понял, ты же хочешь чтобы в хтмл выводить... Ну и надо тогда в мускуле хранить...

Просто строка:

Шуньке завта трицаган стукнет...

Не равна строке:

Шуньке завта [wow]трицаган[/wow] стукнет...

...

По идее при полнотекстовом поиске учитывается "вес" найденного фрагмента - но вес будет большим у того фрагмента, в котором присутствуют все слова, то есть вес у:

Шуньке завта [wow]трицаган[/wow] стукнет...

по идее будет такой же как вес у:

Кобеки, а знаетели вы что Шуньке то нашему завтра уже аж [wow]трицаган[/wow] по годам стукнет...

Тоже проблемка...

Как решение - можно хранить вариант с версткой и без, искать по без верстки, выводить с версткой...

Ну это первое что в головомоск приходит... Не очень конечно же изящно...

Январь · 01.12.2011, 21:01

И при выводе в ХТМЛ не совсем ясно как со сносками быть...

Михайло Суботич · 01.12.2011, 21:49

Согласен с Январем, поделюсь своим опытом. В текстах ВП используется много форматирования. Если вводить в базу голый текст, то он будет выводиться без форматирования - теряется некоторый смысл текстов. Если вводить в базу отформатированный в html текст (через tinymce), то в других форматах он будет не правильно отображаться, к тому же при конвертации tinymce получаются разные косяки с форматированием (не так как в исходных текстах + много лишних тегов), которые всё равно приходится устранять руками. Либо нужен универсальный скрипт-конвертер, который будет переводить html в fb2 и т.п. Либо можно всё перевести в fb2 и загрузить в базу, а на сайте поставить скрипт-перекодировщик fb2 -> html (скорее всего уже есть готовые решения).

По поводу сносок - тоже большая проблема, потому что tinymcy добавляет их в конец текста, и это очень неудобно каждый раз обращаться в конец, чтобы прочитать сноску. На e-dotu есть модуль для WordPress, который заключает сноски в теги [ref][/ref] прямо в тексте и потом обрабатывает их. Например, когда наводишь мышкой на номер сноски, сразу всплывает текст сноски. Но это нужно делать вручную, либо написать скрипт, который будет брать сноску из конца и вставлять в теги по соответствующему номеру в тексте.

Админ e-dotu ушёл в армию полгода назад, я взялся за перевод старых и новых текстов в html. Делаю вручную, долго и муторно, но зато качественно. Сейчас переведены тексты с 2007-2011 гг. и 1990-1996 гг.

Sirin · 01.12.2011, 21:53

Думаю, что мы сейчас велосипед изобретаем.
Всё это, в т.ч. вопрос форматирования уже решён в портативных читалках.
(смотрим в сторону формата .chm)

Сноски индексировать как отдельные фрагменты/блоки/страницы. В основном тексте давать на них сноску.
Фсё.

Январь · 01.12.2011, 21:58

Ну инденты то как минимум нужны, жирност и курсивность - они на каждом шагу...

Таки опять вопрос - формулы как выводить?

Цитата:

Сообщение от Я

И при выводе в ХТМЛ не совсем ясно как со сносками быть...

Как вариант - сноски мона тултипами сделать, наводишь на нее, она показывается - http://flowplayer.org/tools/demos/tooltip/index.html

Цитата:

Если вводить в базу отформатированный в html текст (через tinymce), то в других форматах он будет не правильно отображаться, к тому же при конвертации tinymce получаются разные косяки с форматированием (не так как в исходных текстах + много лишних тегов), которые всё равно приходится устранять руками.

Верстку хоть из тинимси - все равно надо переводить в бибикод для хранения - это единственный гибкий вариант хранения...

Цитата:

Думаю, что мы сейчас велосипед изобретаем.
Всё это, в т.ч. вопрос форматирования уже решён в портативных читалках.
(смотрим в сторону формата .chm)

Сноски индексировать как отдельные фрагменты/блоки/страницы. В основном тексте давать на них сноску.
Фсё.

Это если не учитывать - как технически реализовать поиск, сколько времени уйдет на постоянное форматирование туда сюда...

Из мускула полнотекстовый поиск вернет результат за 0.0006 при 10 млн. проходов.

Таким образом дальше только вопрос форматирования... Как все остальное делается - не ясно...

...

Есть такая штука - кладр... У него интересный способ хранения данных... Можно попробовать...

Короче завтра что-нибудь набросаю... Думаю окончательно уйти абсолютно от всех ручных правок не удастся, но от 99% - удастся скорее всего...