Читать книгу Агрегация контента и его обработка. Сборник статей по архитектуре распределенных систем и программной инженерии - Д. А. Попов, Денис Александрович Шевчук, Денис Александрович Мурзин - Страница 2
Термины и определения
ОглавлениеВ данной книге применяются следующие термины с соответствующими определениями:
Лемматизация (англ. lemmatization) – процесс приведения словоформы к ее словарной форме.
Партиционирование (англ. partitioning) – разделение больших таблиц (исходя из количества записей) в базе данных на маленькие.
Стемминг (англ. stemming) – процесс нахождения основы слова для заданного исходного слова.
Суммаризация (англ. summarization) – процесс выделения краткого содержимого из текста.
Токенизация (англ. tokenization) – процесс разделения текста на составляющие.
Naive Estimator – наивная оценка.
Twitter Topic Fuzzy Fingerprints – нечеткие отпечатки на основе тем сообщений в сети «Twitter».