![]() |
Кстати fb2 большинства работ уже или есть или в скором времени будет.
Может в этом направлении поковырять (т.е. в базу заносить)? В этом направлении koldun работает - он ручками конвертирует, т.е. высококачественно. Я ему сделал доступ, будет помогать ВСЕ РАБОТЫ ВП СССР доводить до ума. |
Цитата:
Можно! Но только это вопрос на столько же принципиальный, как - а можно ли html распарсить? Можно! А можно ли текстовик распарсить? Можно! А пожно ли pdf распарсить? Можно!.. То есть вопрос то по сути не о том, как это в базу загнать - с некоторой долей автоматизации загнать получится все. Вопрос в том, как это в базе организовать, как хранить, как делать поиск... |
Цитата:
|
блин
|
:)
|
Переводить в fb2 достаточно емкая работа, даже если использовать специальные программы, все равно надо будет руками доводить до ума. Особенно это касается сносок, я бы сказал из-за них +50% работы.
|
Должно быть МВ самая большоая из работ ВП СССР... Всего - 1 миллион символов, в среднем на главу 35 тысяч символов.
Полнотекстовый поиск применяется максимум для полей TEXT, а это 65 тысяч символов. На первый взгляд все подойдет, но блин - мало ли... Думаю вот что хранить все таки целесообразнее главами... То есть с максимальной точностью детализации до глав. То есть вот предложение - делаю таблицы: одну линейную и одну Nested Sets: Код HTML:
.. (level - 0) ИсточникТаким образом - если что-либо найдено в каком-либо подразделе - мы автоматом получаем цепочку: подраздел > глава > книга (автор) > категория. На экран выводим:
При парсинге текста в базу для каждой сущности (книга, глава, подраздел) содержащей текст - вставляем периоды, содержащие информацию о нумеровании абзацев, например 47 - 250 - относительно количества абзацев книги в целом. Получаем маску вида 24.17.3.99. Сноски храним вместе с сущностями, содержащими текст, то есть выводя главу - выводим все сноски в ней использованные и показываем их как тултипы. Вот, только такое предложение придумал. Да, tinymce прекрасно интерпретирует в HTML текст, вставленный в него из MS Word. http://www.tinymce.com/tryit/full.php - нажимаем кнопку "вставить из MS Word", вставляем главу из МВ, нажимаем кнопку "html" - смотрим что получилось на выходе. Получившийся код вполне подойдет для перепарса в BBCode и последующего хранения. ... ... ... Что делать? 1. Ну базу то сделать не тяжело. 2. Но - надо сделать еще какую-нибудь страничку, на которой постараться максимально автоматизировать перевод материалов в базу. Этим и займусь. ... ... ... С таким подходом мы получаем каталогизацию, которая позволяет хранить как книги, так и журналы, в том числе и "Текущие моменты", а так же отдельные статьи. Парсинг будет авто-ручной. Но от этого вероятно уйти все равно не получится. Что-то вроде: 1. Создается категория (если надо), 2. Создается автор (если надо), 3. Создается книга с оглавлением (по оглавлению автоматом формируются главы и подразделы), 4. Главы и подразделы наполняются содержимым (методом copy & paste из MS Word в TinyMCE). Если книга не содержит каких-либо сложных стилистических моментов, то на добавление 1 книги будет уходить минут 5 (книги вроде МВ). 5 человек соответственно за 5 минут добавят 5 книг. И вот еще одна мысль пришла - в принципе категории не обязательно ограничивать одним уровнем, можно еще и подкатегории сделать и подразделы подкатегорий! Например: Код HTML:
.... (level - 1) Категория (История) |
Проработка элементов стилизации книги.
Сразу лучше составить список стилизованных элементов, которые могут быть в книге. Например:
Чтобы просто потом за голову не хвататься и не делать в порядке под грифом "срочно"... |
Цитата:
Цитата:
http://s.wordpress.com/latex.php?lat...&fg=262626&s=1 Пример - О контрольных параметрах макроэкономики Или так: Цитата:
|
Ничего не понял, но это и не первый вопрос правда.
И так, мы храним в базе формулу: [latex size="1"]{K}_{i}=\frac{{s}_{i}+(p/100)\times \sum_{j=1}^{i-1}{K}_{j}}{1-(p/100)}=\frac{{s}_{i}}{1-(p/100)}+\frac{(p/100)}{1-(p/100)}\sum_{j=1}^{i-1}{K}_{j}[/latex] - при выводе на сайт ее надо преобразовать в картинку. Что именно совершает это преобразование? И на каком этапе? ... Таблицы (типа таво): Публикации: Код HTML:
CREATE TABLE `jx_BookBase` (Код HTML:
CREATE TABLE `jx_AuthBase` ( |
| Часовой пояс GMT +3, время: 20:37. |
Осознание, 2008-2016