![]() |
Цитата:
Цитата:
Цитата:
Покажи мне на него пальцем! :aq: Цитата:
Если возьмёшься за это дело, давай хорошенько обдумаем чего да как. С перспективой создания из этой базы отдельной программы. |
Цитата:
Цитата:
Цитата:
Опиши саму идею подробно... |
Я не спец по базам данных но мысль такая.
В базе содержаться текстовые блоки (главы или абзацы?), + соответствующие им картинки, + ссылки на примечания (которые тоже - индексированные текстовые блоки). Если проиндексировать абзацы, можно будет делать ссылки типа: .../базакоб/книги/Вопросы_митрополиту/глава3/24 И там будет конкретный абзац с нужной цитатой. Очень удобно для цитирования на ресурсах. Почему не страницы? Потому, что, если мы делаем универсальную базу, то не знаем, на каком экране её будут смотреть - 120х120 или 1920х1680, соответственно, должна быть возможность формировать страницы динамически. Грубо говоря :) - как библию разбили в своё время на нумерованные главы и стихи и сейчас ссылаются типа 2:18 Из этой же базы, насколько я понимаю, будет элементарно сделать сайт с представлением всех работ ВП в виде простого HTML - то, чего сейчас Миха руками делает. Оттуда же и fb2 будет сделать нетрудно. И всё это дело портировать, скажем, на PocketPC, Android, и пр. - база + микросервер + читалка в виде программы. Причём, как я сильно подозреваю, всё это уже изобретено и существует - нужно подобрать подходящий вариант и создать базу. Из плюшек - нормальный поиск СРАЗУ ПО ВСЕМ или выборочно по отдельным работам ВП. На сегодня это не реализовано нигде. |
Цитата:
А я тем не менее не за абзацы, а за главы. Таким образом при поиске будет выводиться целиком найденная глава - а в ней будет выделен найденный фрагмент... Тут одна проблема - если сохранять тем или иным видом верству, ну например жирное выделение - то поиск будет весьма осложнен... Таким образом выделение будет иметь смысл ставить только на целиком законченные высказывания... ... В остальном ясно... Но я все равно за главы... Это просто меньшая нагрузка на сервер, а при показе главы юзера можно хоть автоматом отскролить на найденный фрагмент... + для индексации полезнее... Хотя абзацы - аяты тоже прикольно... |
Цитата:
Цитата:
или djvu? или odt? |
Цитата:
Просто строка: Шуньке завта трицаган стукнет... Не равна строке: Шуньке завта [wow]трицаган[/wow] стукнет... ... По идее при полнотекстовом поиске учитывается "вес" найденного фрагмента - но вес будет большим у того фрагмента, в котором присутствуют все слова, то есть вес у: Шуньке завта [wow]трицаган[/wow] стукнет... по идее будет такой же как вес у: Кобеки, а знаетели вы что Шуньке то нашему завтра уже аж [wow]трицаган[/wow] по годам стукнет... Тоже проблемка... Как решение - можно хранить вариант с версткой и без, искать по без верстки, выводить с версткой... Ну это первое что в головомоск приходит... Не очень конечно же изящно... |
И при выводе в ХТМЛ не совсем ясно как со сносками быть...
|
Согласен с Январем, поделюсь своим опытом. В текстах ВП используется много форматирования. Если вводить в базу голый текст, то он будет выводиться без форматирования - теряется некоторый смысл текстов. Если вводить в базу отформатированный в html текст (через tinymce), то в других форматах он будет не правильно отображаться, к тому же при конвертации tinymce получаются разные косяки с форматированием (не так как в исходных текстах + много лишних тегов), которые всё равно приходится устранять руками. Либо нужен универсальный скрипт-конвертер, который будет переводить html в fb2 и т.п. Либо можно всё перевести в fb2 и загрузить в базу, а на сайте поставить скрипт-перекодировщик fb2 -> html (скорее всего уже есть готовые решения).
По поводу сносок - тоже большая проблема, потому что tinymcy добавляет их в конец текста, и это очень неудобно каждый раз обращаться в конец, чтобы прочитать сноску. На e-dotu есть модуль для WordPress, который заключает сноски в теги [ref][/ref] прямо в тексте и потом обрабатывает их. Например, когда наводишь мышкой на номер сноски, сразу всплывает текст сноски. Но это нужно делать вручную, либо написать скрипт, который будет брать сноску из конца и вставлять в теги по соответствующему номеру в тексте. Админ e-dotu ушёл в армию полгода назад, я взялся за перевод старых и новых текстов в html. Делаю вручную, долго и муторно, но зато качественно. Сейчас переведены тексты с 2007-2011 гг. и 1990-1996 гг. |
Думаю, что мы сейчас велосипед изобретаем.
Всё это, в т.ч. вопрос форматирования уже решён в портативных читалках. (смотрим в сторону формата .chm) Сноски индексировать как отдельные фрагменты/блоки/страницы. В основном тексте давать на них сноску. Фсё. |
Ну инденты то как минимум нужны, жирност и курсивность - они на каждом шагу...
Таки опять вопрос - формулы как выводить? Цитата:
Цитата:
Цитата:
Из мускула полнотекстовый поиск вернет результат за 0.0006 при 10 млн. проходов. Таким образом дальше только вопрос форматирования... Как все остальное делается - не ясно... ... Есть такая штука - кладр... У него интересный способ хранения данных... Можно попробовать... Короче завтра что-нибудь набросаю... Думаю окончательно уйти абсолютно от всех ручных правок не удастся, но от 99% - удастся скорее всего... |
| Часовой пояс GMT +3, время: 02:26. |
Осознание, 2008-2016