Wikipedia Page Dataset Scraper

Pricing

from $4.99 / 1,000 results

Try for free

Go to Apify Store

👁 Wikipedia Page Dataset Scraper

Wikipedia Page Dataset Scraper

Try for free

Scrape Wikipedia articles and export structured dataset fields for training, knowledge bases, and research.

Pricing

from $4.99 / 1,000 results

Rating

5.0

(1)

Developer

👁 ScrapeAI

ScrapeAI

Maintained by Community

Actor stats

Bookmarked

Total users

Monthly active users

a day ago

Last modified

Wikipedia Page Dataset Scraper 📚

Scrape Wikipedia pages and extract structured article content including title, summary, full text, headings, infobox data, categories, references, and internal links. Designed for AI training, RAG pipelines, knowledge base creation, research datasets, and content analysis.

Features

Scrapes article content from Wikipedia pages.
Extracts structured fields: page_title, page_url, summary, full_text, headings, infobox, categories, references, internal_links, last_updated, and scraped_at.
Supports multiple start URLs and optional crawling of linked Wikipedia articles.
Uses Playwright and Apify actor conventions for reliable dataset export.

Getting Started

Install dependencies
```
$npminstall
```

Configure input

Edit INPUT.json or provide actor input through the Apify platform.

Example INPUT.json:

{
"startUrls":[
{"url":"https://en.wikipedia.org/wiki/Artificial_intelligence"}
],
"maxPages":50,
"followLinks":true
}

Run locally
```
$npm start
```
Docker / Actor
- The Dockerfile can build the image.
- .actor/actor.json defines the Apify actor configuration.

Output Fields

page_title
page_url
summary
full_text
headings
infobox
categories
references
internal_links
last_updated
scraped_at

File Overview

src/main.js – actor entry point that loads input, launches Playwright, and executes the Wikipedia scraper.
src/scraper.js – page extraction and crawl logic for Wikipedia articles.
.actor/input_schema.json – defines supported actor input fields.
.actor/dataset_schema.json – defines the dataset output record fields.
.actor/actor.json – actor metadata and Apify configuration.

Logs & Storage

Logs are written to Apify storage during actor execution.
Scraped dataset records are stored in Apify dataset storage.

License

This project is provided as-is. Feel free to adapt and extend it for your own Wikipedia scraping needs.

👁 📚 Wikipedia Scraper — Articles & Knowledge Data avatar

📚 Wikipedia Scraper — Articles & Knowledge Data

nexgendata/wikipedia-scraper

Extract structured data from Wikipedia — article text, infoboxes, categories, references & links. Build knowledge bases, AI training datasets & research tools. Pay per article.

👁 User avatar

NexGenData

👁 Wikipedia Data Scraper Pro avatar

Wikipedia Data Scraper Pro

moving_beacon-owner1/my-actor-39

An automated crawler that extracts textual content and metadata from Wikipedia pages for building knowledge bases.

👁 User avatar

Jamshaid Arif

👁 Wikipedia Article Scraper avatar

Wikipedia Article Scraper

crawlerbros/wikipedia-scraper

Extract structured data from Wikipedia articles. Get summaries, categories, images, metadata, and descriptions using Wikipedia's official API. Supports 300+ languages.

👁 User avatar

Crawler Bros

Wikipedia Scraper

velvety_bedbug/wikipedia-scraper

Search Wikipedia articles, fetch article content and summaries, or get today's featured and most-read articles. Supports all Wikipedia language editions.

👁 User avatar

Peters Bugs

Wikipedia Data Extractor - Articles & Summaries

vernacular_reservoir/wikipedia-data-extractor

Extract structured data from Wikipedia articles by topic or keyword. Get title, summary, description, thumbnail, coordinates and related links. Supports all Wikipedia languages. No API key required.

👁 User avatar

Aleksandrs

👁 Wikipedia Scraper | $5 / 1k | Fast & Reliable avatar

Wikipedia Scraper | $5 / 1k | Fast & Reliable

fatihtahta/wikipedia-scraper

Get full articles and detailed search results with the Wikipedia Scraper. Extract structured data including titles, summaries, citations, and full content. Ideal for market research, AI training, and competitive intelligence.

👁 User avatar

Fatih Tahta

👁 Wikipedia Scraper avatar

Wikipedia Scraper

automation-lab/wikipedia-scraper

Search and extract Wikipedia articles — titles, summaries, full content, categories, and images. Uses the free MediaWiki API.

👁 User avatar

Stas Persiianenko

Wikipedia Scraper

oneary/wikipedia-scraper

Extract article content, summaries, infoboxes, references, and categories from Wikipedia. Great for knowledge base building and research.

👁 User avatar

Luan M.

👁 Wikipedia MCP Server avatar

Wikipedia MCP Server

agentify/wikipedia-mcp-server

MCP server for Wikipedia, providing LLMs and clients with real-time access to Wikipedia articles, summaries, sections, and related information via Apify Actor.

👁 User avatar

agentify

👁 Wikipedia Email Scraper - Advanced, Fast & Cheapest avatar

Wikipedia Email Scraper - Advanced, Fast & Cheapest

contacts-api/wikipedia-email-scraper-fast-advanced-and-cheapest

📚 Wikipedia Email Scraper allows you to collect publicly available editor and organization emails from Wikipedia pages 🔎 Great for research and academic outreach 📧

👁 User avatar

Lead Heaven

URL: https://apify.com/scrapeai/wikipedia-page-dataset-scraper