Читать книгу Агрегация контента и его обработка. Сборник статей по архитектуре распределенных систем и программной инженерии - Д. А. Попов, Денис Александрович Шевчук, Денис Александрович Мурзин - Страница 2

Термины и определения

Оглавление

В данной книге применяются следующие термины с соответствующими определениями:

Лемматизация (англ. lemmatization) – процесс приведения словоформы к ее словарной форме.

Партиционирование (англ. partitioning) – разделение больших таблиц (исходя из количества записей) в базе данных на маленькие.

Стемминг (англ. stemming) – процесс нахождения основы слова для заданного исходного слова.

Суммаризация (англ. summarization) – процесс выделения краткого содержимого из текста.

Токенизация (англ. tokenization) – процесс разделения текста на составляющие.

Naive Estimator – наивная оценка.

Twitter Topic Fuzzy Fingerprints – нечеткие отпечатки на основе тем сообщений в сети «Twitter».

Агрегация контента и его обработка. Сборник статей по архитектуре распределенных систем и программной инженерии

Подняться наверх