Форум "Осознание" - Концепция Общественной Безопасности - Показать сообщение отдельно - Полная база работ авторского коллектива ВП СССР (и сопутствующих)

Январь · 02.12.2011, 09:17

Должно быть МВ самая большоая из работ ВП СССР... Всего - 1 миллион символов, в среднем на главу 35 тысяч символов.

Полнотекстовый поиск применяется максимум для полей TEXT, а это 65 тысяч символов.

На первый взгляд все подойдет, но блин - мало ли...

Думаю вот что хранить все таки целесообразнее главами... То есть с максимальной точностью детализации до глав.

То есть вот предложение - делаю таблицы: одну линейную и одну Nested Sets:

Код HTML:

.. (level - 0) Источник
.... (level - 1) Категория
...... (level - 2) Книги (+ связь с автором)
........ (level - 3) Главы
.......... (level - 4) Подразделы

Поиск по Книгам, Главам и Подразделам. По Книгам для простых ТМ, и более детально для работ вроде МВ и ОС.

Таким образом - если что-либо найдено в каком-либо подразделе - мы автоматом получаем цепочку: подраздел > глава > книга (автор) > категория.

На экран выводим:

навигатор по оглавлению,
подраздел или главу в зависимости от того, где найдено,
выделяем найденный фрагмент.

Таким образом у нас получается точная маска поиска (как хотел Сирин), что-то вроде: книга > глава > подраздел = 24.17.3. Далее стоит задача - как довести степень детализации до абзаца.

При парсинге текста в базу для каждой сущности (книга, глава, подраздел) содержащей текст - вставляем периоды, содержащие информацию о нумеровании абзацев, например 47 - 250 - относительно количества абзацев книги в целом. Получаем маску вида 24.17.3.99.

Сноски храним вместе с сущностями, содержащими текст, то есть выводя главу - выводим все сноски в ней использованные и показываем их как тултипы.

Вот, только такое предложение придумал.

Да, tinymce прекрасно интерпретирует в HTML текст, вставленный в него из MS Word.

http://www.tinymce.com/tryit/full.php - нажимаем кнопку "вставить из MS Word", вставляем главу из МВ, нажимаем кнопку "html" - смотрим что получилось на выходе.

Получившийся код вполне подойдет для перепарса в BBCode и последующего хранения.

... ... ...

Что делать?

1. Ну базу то сделать не тяжело.
2. Но - надо сделать еще какую-нибудь страничку, на которой постараться максимально автоматизировать перевод материалов в базу.

Этим и займусь.

... ... ...

С таким подходом мы получаем каталогизацию, которая позволяет хранить как книги, так и журналы, в том числе и "Текущие моменты", а так же отдельные статьи.

Парсинг будет авто-ручной. Но от этого вероятно уйти все равно не получится.

Что-то вроде:

1. Создается категория (если надо),
2. Создается автор (если надо),
3. Создается книга с оглавлением (по оглавлению автоматом формируются главы и подразделы),
4. Главы и подразделы наполняются содержимым (методом copy & paste из MS Word в TinyMCE).

Если книга не содержит каких-либо сложных стилистических моментов, то на добавление 1 книги будет уходить минут 5 (книги вроде МВ). 5 человек соответственно за 5 минут добавят 5 книг.

И вот еще одна мысль пришла - в принципе категории не обязательно ограничивать одним уровнем, можно еще и подкатегории сделать и подразделы подкатегорий! Например:

Код HTML:

.... (level - 1) Категория (История)
...... (level - 2) Подкатегория (Военная история)
...... (level - 2) Подкатегория (Древняя история)
...... (level - 2) Подкатегория (История КПСС)

02.12.2011, 09:17	#27
Январь Команда сайта Регистрация: 14.05.2009 Адрес: Москва	Должно быть МВ самая большоая из работ ВП СССР... Всего - 1 миллион символов, в среднем на главу 35 тысяч символов. Полнотекстовый поиск применяется максимум для полей TEXT, а это 65 тысяч символов. На первый взгляд все подойдет, но блин - мало ли... Думаю вот что хранить все таки целесообразнее главами... То есть с максимальной точностью детализации до глав. То есть вот предложение - делаю таблицы: одну линейную и одну Nested Sets: Код HTML: .. (level - 0) Источник .... (level - 1) Категория ...... (level - 2) Книги (+ связь с автором) ........ (level - 3) Главы .......... (level - 4) Подразделы Поиск по Книгам, Главам и Подразделам. По Книгам для простых ТМ, и более детально для работ вроде МВ и ОС. Таким образом - если что-либо найдено в каком-либо подразделе - мы автоматом получаем цепочку: подраздел > глава > книга (автор) > категория. На экран выводим: навигатор по оглавлению, подраздел или главу в зависимости от того, где найдено, выделяем найденный фрагмент. Таким образом у нас получается точная маска поиска (как хотел Сирин), что-то вроде: книга > глава > подраздел = 24.17.3. Далее стоит задача - как довести степень детализации до абзаца. При парсинге текста в базу для каждой сущности (книга, глава, подраздел) содержащей текст - вставляем периоды, содержащие информацию о нумеровании абзацев, например 47 - 250 - относительно количества абзацев книги в целом. Получаем маску вида 24.17.3.99. Сноски храним вместе с сущностями, содержащими текст, то есть выводя главу - выводим все сноски в ней использованные и показываем их как тултипы. Вот, только такое предложение придумал. Да, tinymce прекрасно интерпретирует в HTML текст, вставленный в него из MS Word. http://www.tinymce.com/tryit/full.php - нажимаем кнопку "вставить из MS Word", вставляем главу из МВ, нажимаем кнопку "html" - смотрим что получилось на выходе. Получившийся код вполне подойдет для перепарса в BBCode и последующего хранения. ... ... ... Что делать? 1. Ну базу то сделать не тяжело. 2. Но - надо сделать еще какую-нибудь страничку, на которой постараться максимально автоматизировать перевод материалов в базу. Этим и займусь. ... ... ... С таким подходом мы получаем каталогизацию, которая позволяет хранить как книги, так и журналы, в том числе и "Текущие моменты", а так же отдельные статьи. Парсинг будет авто-ручной. Но от этого вероятно уйти все равно не получится. Что-то вроде: 1. Создается категория (если надо), 2. Создается автор (если надо), 3. Создается книга с оглавлением (по оглавлению автоматом формируются главы и подразделы), 4. Главы и подразделы наполняются содержимым (методом copy & paste из MS Word в TinyMCE). Если книга не содержит каких-либо сложных стилистических моментов, то на добавление 1 книги будет уходить минут 5 (книги вроде МВ). 5 человек соответственно за 5 минут добавят 5 книг. И вот еще одна мысль пришла - в принципе категории не обязательно ограничивать одним уровнем, можно еще и подкатегории сделать и подразделы подкатегорий! Например: Код HTML: .... (level - 1) Категория (История) ...... (level - 2) Подкатегория (Военная история) ...... (level - 2) Подкатегория (Древняя история) ...... (level - 2) Подкатегория (История КПСС) Последний раз редактировалось Январь; 02.12.2011 в 10:22