Философия черно-белых слов // DaoMail.ru - социальная почтовая служба

web-архив: проект DaoMail » тестирование системы » это письмо

Приветствую.

Смотрю, три человека взялись за тестирование "прореживания". Это хорошо. Жду от вас результатов!

Но данное письмо посвящено более эффективному (с точки зрения логики) способу просеивания писем - фильтрация по "черным" и "белым" словам (сочетаниям символов).

Эту тему я начал разрабатывать давно. Из всех возможных вариантов пришел к двум наиболее удобным:

1. Фильтрация по принципу вхождения подстроки (сочетание символов) в тексте письма;
2. Фильтрация по полноценным словам с учетом их морфологии.

В конечном итоге от второго варианта я планирую отказаться. Пока, во всяком случае. По двум причинам: во-первых, в текстах встречается множество слов и терминов, которых нет в морфологических словарях, поэтому построить от них первоначальную форму и все возможные - не имею технической возможности; а во-вторых, это куда большая нагрузка на технику, нежели первый способ. Ну и гибкости во втором варианте - заметно меньше.

Поэтому, предлагаю остановиться на первом способе, который тоже может быть реализован несколькими способами. Описывать все способы не буду, расскажу о том, на котором остановился в настоящий момент.

Для простоты понимания, покажу на примере.

В теме "мобильники" меня интересует все, что связано с iPhone, и абсолютно не интересуют разработки Samsung.

В настройках темы я пишу: "iphone apple ipod Купертино -sung"

DaoMail интерпретирует это так: не пропускать письма, содержащие слово "samsung" и пропускать все письма со словами, которые содержат в себе цепочки символов "iphone", "apple", "ipod" и "Купертино", даже если эти письма содержат слово "samsung".

То есть, "белые" подстроки имеют более высокий приоритет, нежели "черные". Получается следующий порядок правил доставки письма с учетом этого фильтра:

- если не найдено никаких "черно-белых" цепочек символов - письмо будет отправлено;
- если найдены только "черные" цепочки - письмо НЕ будет отправлено;
- если найдены и "черные", и "белые" цепочки - письмо будет отправлено;

Вот именно такой вариант я планирую включить в работу на данном этапе.

Пока этот фильтр не утвержден и я не включил его в работу, хотелось бы услышать ваши комментарии по этому поводу. Возможно, я что-то упускаю или наоборот - все слишком сложно.

Отдельно интересует ваше мнение по вопросу наследования данного фильтра. "Черно-белые" подстроки можно заменять по древу, когда более близкая настройка к теме письма перезаписывает собою предыдущую (находящуюся выше по древу), а можно "складывать", тогда ключевые буквосочетания будут учитываться из всех настроек по ветке вплоть до глобальной настройки.

Если будет выбран второй случай, то при точном совпадении буквосочетаний в разных уровнях ветви, правила фильтрации будут сохраняться, как описано выше: письмо пройдет, если одно и тоже слово встретиться как с плюсом, так и с минусом.

Господа и дамы, прошу высказываться по этому вопросу. Для правильного отбора почты данный фильтр станет, пожалуй, главным инструментом. Поэтому важно выработать правильную философию его работы.

Жду ваших писем.

Ру.

web-архив: проект DaoMail » тестирование системы » это письмо