Advanced Search Engine with NLP

Overview

This project implements a search engine using Natural Language Processing techniques in Python with a Streamlit web interface.

Features

Query tokenization
Stop word removal
Stemming
KMP search algorithm
Normalization and TF-IDF ranking
Web page text extraction

Installation

Clone the repository
Install dependencies:

pip install -r requirements.txt

Prepare your links.txt file with web page URLs to search

Usage

streamlit run main.py

Dependencies

Streamlit
NLTK
BeautifulSoup
urllib3

Methodology

Tokenizes search queries
Removes stop words
Applies Porter Stemming
Searches across predefined web pages
Ranks results using normalization and TF-IDF

🤝 Contributing

Contributions are welcome! Please check the outstanding issues and feel free to open a pull request.

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
.devcontainer		.devcontainer
static		static
gitignore.txt		gitignore.txt
links.txt		links.txt
main.py		main.py
readme.md		readme.md
requirements.txt		requirements.txt
search_engine.py		search_engine.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Uh oh!

Uh oh!

Repository files navigation

Advanced Search Engine with NLP

Overview

Features

Installation

Usage

Dependencies

Methodology

🤝 Contributing

About

Uh oh!

Releases

Packages

Uh oh!

Languages

Uh oh!

Uh oh!

hawkh/searchengine

Folders and files

Latest commit

History

Repository files navigation

Advanced Search Engine with NLP

Overview

Features

Installation

Usage

Dependencies

Methodology

🤝 Contributing

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages