Языковая политика
Общие обсуждения => Компьютеры и интернет => Topic started by: Yougi on 28 January 2026, 13:43:01
-
Вопрос в топике не совсем соответствует тому, что я хочу спросить, но шо маэмо....
Итак
В плане радикального обновления карельского онлайн словаря навалял я себе на жабоскрипте некий код, а данные к нему хранятся прямо в файле скрипта, типа вот так
var dictionary = [
{
word: "kehno",
def: "черт",
rel: ["piru", "juavali","sorta"]
},
{
word: "ruočči",
def: "швед",
rel: ["počči", "emäččy"]
},
{
word: "perkele",
def: "ругательство",
rel: ["saattana", "сволочь"]
},
{
word: "käbälä",
def: "лапа",
rel: ["sorki", "jalka"]
},
{
word: "perze",
def: "жопа",
rel: ["makkura", "takapuoli"]
},
так вот, вопрос в том - если записей будет не сотня, а несколько тысяч, да и сами записи не такие убогие, а по килобайту каждая - оно не поломается?
-
могу сказать с практической стороны, что частотный словарь японского на 50к записей в виде txt зависал и не отвисал при попытке что-то в нем искать ctrl+F. надо иметь в виду, что кандзи в 2х больше места занимают, чем символ латиницы, но факт
-
а сама структура записи - элементарнейшая:
# по ранкингу - слово - число токенов в корпусе
ничего особенного собственно
-
Вопрос в топике не совсем соответствует тому, что я хочу спросить, но шо маэмо....
Итак
В плане радикального обновления карельского онлайн словаря навалял я себе на жабоскрипте некий код, а данные к нему хранятся прямо в файле скрипта, типа вот так
var dictionary = [
{
word: "kehno",
def: "черт",
rel: ["piru", "juavali","sorta"]
},
{
word: "ruočči",
def: "швед",
rel: ["počči", "emäččy"]
},
{
word: "perkele",
def: "ругательство",
rel: ["saattana", "сволочь"]
},
{
word: "käbälä",
def: "лапа",
rel: ["sorki", "jalka"]
},
{
word: "perze",
def: "жопа",
rel: ["makkura", "takapuoli"]
},
так вот, вопрос в том - если записей будет не сотня, а несколько тысяч, да и сами записи не такие убогие, а по килобайту каждая - оно не поломается?
В обычном виндяшном блокноте большой текстовый файл будет виснуть, в Notepad++ у меня еще ничего не висло.
-
Поскольку структура JSON-подобная, её можно в .json-файле хранить и подгружать по мере надобности.
Или в .js, но тогда в нём надо оставить приравнивание переменной и подгружать через
<script src="dictionary.js"></script>
-
Гігантський JSON точно можна читати фрагментами, не парсячи кожного разу його увесь? Крім того, текст в UTF-8 — змінний розмір символів ускладнює навігацію по файлу.
-
Гігантський JSON точно можна читати фрагментами, не парсячи кожного разу його увесь?
Не знаю як у JS, але в Go можна.
-
Файл .json подгружается сразу весь, другое дело, что его можно разбить на несколько отдельных файлов (по алфавиту, частотности &c.) и подгружать данные пофайлово. Если нужно для работы держать данные в одном объекте, написать простенькую функцию объединения типа питоновской update.
-
В общем, скорее всего, данные лучше хранить отдельно от кода :)