El reconocimiento de los párrafos depende del formato del documento. En formato de texto plano, dos caracteres consecutivos de salto de línea (posiblemente utilizando retornos de carro) se reconocen como un límite de párrafo. En HTML, el identificador de párrafo <p> se interpreta como límite de párrafo. Los otros formatos de documentos no soportan el reconocimiento de párrafos.
Las palabras de exclusión son palabras con una alta frecuencia y sin contenido significativo para el proceso de recuperación de texto. Normalmente todas las palabras de función (en sentido lingüístico) se consideran palabras de exclusión, por ejemplo, "y", "o" y "en".
Net Search Extender proporciona el proceso de palabras de exclusión para una lista de idiomas, donde las palabras de exclusión no se indexan y, por lo tanto, no pueden buscarse. Sin embargo, el resultado del proceso de palabras de exclusión es un índice de texto menor y más rápido.
Tenga en cuenta que, durante la búsqueda, las palabras de exclusión que no están indexadas se procesan del mismo modo que las palabras normales. Sin embargo, si una palabra de exclusión se ha indexado, ésta se pasará por alto durante el proceso de búsqueda.