Думаю, что мы сейчас велосипед изобретаем.
Всё это, в т.ч. вопрос форматирования уже решён в портативных читалках.
(смотрим в сторону формата .chm)
Сноски индексировать как отдельные фрагменты/блоки/страницы. В основном тексте давать на них сноску.
Фсё.
|