Yogiyo Grocery Scraper - Extract Yogiyo product listings

#!/usr/bin/env python3 """ Sample Result of Yogiyo Data Scraper - Detailed example code. This script demonstrates a robust, production-minded pattern for scraping product listings from a site like Yogiyo (or a similar grocery delivery app). It: - Uses requests with retries and timeouts - Detects JSON API responses when possible, falls back to HTML parsing - Normalizes product fields into a consistent schema - Supports rate-limiting delays, concurrency for detail-page fetches - Exports results to JSONL and CSV NOTE: Replace endpoint URLs, JSON paths, and CSS selectors with values matching the actual Yogiyo responses / HTML. This is a sample template. """ import requests from requests.adapters import HTTPAdapter, Retry from urllib.parse import urljoin, urlencode import time import json import csv from datetime import datetime from typing import List, Dict, Optional from concurrent.futures import ThreadPoolExecutor, as_completed from bs4 import BeautifulSoup import random import sys import os # -------- CONFIGURATION -------- BASE_URL = "https://www.yogiyo.example/" # <- replace with actual base if allowed SEARCH_PATH = "/search" # or API path USER_AGENTS = [ "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120 Safari/537.36", "Mozilla/5.0 (Macintosh; Intel Mac OS X 13_0) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/16.0 Safari/605.1.15", ] HEADERS_COMMON = { "Accept": "application/json, text/javascript, text/html, application/xml;q=0.9,*/*;q=0.8", "Accept-Language": "en-US,en;q=0.9", # 'X-Requested-With': 'XMLHttpRequest' } MAX_WORKERS = 8 MIN_DELAY = 0.3 MAX_DELAY = 1.2 REQUEST_TIMEOUT = 15 OUTPUT_JSONL = "yogiyo_products.jsonl" OUTPUT_CSV = "yogiyo_products.csv" CSV_FIELDS = [ "scraped_at", "source", "product_id", "name", "brand", "category", "subcategory", "price", "currency", "discounted_price", "availability", "rating", "rating_count", "image_url", "product_url", "description", "delivery_time", "store_id", "store_name", ] # -------- UTILITIES: HTTP session with retries -------- def build_session() -> requests.Session: session = requests.Session() retries = Retry( total=5, backoff_factor=0.7, status_forcelist=(429, 500, 502, 503, 504), allowed_methods=frozenset(["GET", "POST"]) ) adapter = HTTPAdapter(max_retries=retries, pool_connections=100, pool_maxsize=100) session.mount("https://", adapter) session.mount("http://", adapter) return session def polite_sleep(): time.sleep(random.uniform(MIN_DELAY, MAX_DELAY)) # -------- PARSERS & NORMALIZATION -------- def parse_json_listing(payload: Dict) -> List[Dict]: """Normalize JSON payload into product dicts.""" products = [] items = payload.get("items") or payload.get("products") or payload.get("data", {}).get("items", []) for it in items: p = { "product_id": str(it.get("id") or it.get("productId") or ""), "name": it.get("title") or it.get("name") or "", "price": float(it.get("price") or 0.0), } products.append(p) return products # ... rest of the code continues (parse_html_listing, normalize_and_stamp, fetch_listing_page, etc.) def main(): session = build_session() query = "milk" page_limit = 4 print("[INFO] Fetching listing pages...") products = fetch_product_listings(session, query=query, page_limit=page_limit) if products: print("[INFO] Enriching product details (concurrent)...") products = enrich_products_with_details(products, max_workers=MAX_WORKERS) os.makedirs("output", exist_ok=True) write_jsonl(os.path.join("output", OUTPUT_JSONL), products) write_csv(os.path.join("output", OUTPUT_CSV), products) if __name__ == "__main__": main()

import { RealdataAPIClient } from 'RealDataAPI-client'; // Initialize the RealdataAPIClient with API token const client = new RealdataAPIClient({ token: '', }); // Prepare actor input const input = { "categoryOrProductUrls": [ { "url": "https://www.amazon.com/s?i=specialty-aps&bbn=16225009011&rh=n%3A%2116225009011%2Cn%3A2811119011&ref=nav_em__nav_desktop_sa_intl_cell_phones_and_accessories_0_2_5_5" } ], "maxItems": 100, "proxyConfiguration": { "useRealDataAPIProxy": true } }; (async () => { // Run the actor and wait for it to finish const run = await client.actor("junglee/amazon-crawler").call(input); // Fetch and print actor results from the run's dataset (if any) console.log('Results from dataset'); const { items } = await client.dataset(run.defaultDatasetId).listItems(); items.forEach((item) => { console.dir(item); }); })();

from realdataapi_client import RealdataAPIClient # Initialize the RealdataAPIClient with your API token client = RealdataAPIClient("") # Prepare the actor input run_input = { "categoryOrProductUrls": [{ "url": "https://www.amazon.com/s?i=specialty-aps&bbn=16225009011&rh=n%3A%2116225009011%2Cn%3A2811119011&ref=nav_em__nav_desktop_sa_intl_cell_phones_and_accessories_0_2_5_5" }], "maxItems": 100, "proxyConfiguration": { "useRealDataAPIProxy": True }, } # Run the actor and wait for it to finish run = client.actor("junglee/amazon-crawler").call(run_input=run_input) # Fetch and print actor results from the run's dataset (if there are any) for item in client.dataset(run["defaultDatasetId"]).iterate_items(): print(item)

# Set API token API_TOKEN=<YOUR_API_TOKEN> # Prepare actor input cat > input.json <<'EOF' { "categoryOrProductUrls": [ { "url": "https://www.amazon.com/s?i=specialty-aps&bbn=16225009011&rh=n%3A%2116225009011%2Cn%3A2811119011&ref=nav_em__nav_desktop_sa_intl_cell_phones_and_accessories_0_2_5_5" } ], "maxItems": 100, "proxyConfiguration": { "useRealDataAPIProxy": true } } EOF # Run the actor curl "https://api.realdataapi.com/v2/acts/junglee~amazon-crawler/runs?token=$API_TOKEN" \ -X POST \ -d @input.json \ -H 'Content-Type: application/json'

{ "categoryOrProductUrls": [ { "url": "https://www.amazon.com/s?i=specialty-aps&bbn=16225009011&rh=n%3A%2116225009011%2Cn%3A2811119011&ref=nav_em__nav_desktop_sa_intl_cell_phones_and_accessories_0_2_5_5" } ], "maxItems": 100, "detailedInformation": false, "useCaptchaSolver": false, "proxyConfiguration": { "useRealDataAPIProxy": true } }

By APIs

Ecommerce Scraping API

Food Scraping API

Grocery Scraping API

Travel Scraping API

Real Estate Scraping API

Quick Commerce Scraping API

Social Media Scraping API

OTT Scraping API

Liquor Scraping API

Recruitment Scraping API

Healthcare Scraping API

Web Data

Solutions

Web Scraping Services

Web Scraping API Services

Mobile App Scraping services

Enterprise Web Crawling

Solutions

Web Unlocker API

Anti Blocking

Use Cases

Live Crawler

Scraping Browser API

Trending

Ecommerce

Grocery / Quick Commerce

Food

Travel

Get Free Quote

Unlock Business Growth with Trusted Web Data

Yogiyo Grocery Scraper - Extract Yogiyo Product Listings

RealdataAPI / yogiyo-grocery-scraper

What is Yogiyo Data Scraper, and How Does It Work?

Why Extract Data from Yogiyo?

Is It Legal to Extract Yogiyo Data?

How Can I Extract Data from Yogiyo?

Do You Want More Yogiyo Scraping Alternatives?

Input options

Sample Result of Yogiyo Data Scraper

Integrations with Yogiyo Data Scraper – Yogiyo Data Extraction

Executing Yogiyo Data Scraping Actor with Real Data API

Related Scrapers

Tesco Grocery Scraper

Asda Grocery Scraper

Zepto Scraper

Additional Resources

Place the Amazon product URLs

Max reviews

Link selector

Mention personal data

Reviews sort

Options:

Proxy configuration

Extended output function

ON THIS PAGE

Related Scrapers

Tesco Grocery Scraper

Asda Grocery Scraper

Zepto Scraper

Where next?

Get in Touch

Web Data

Store Location

Company

By APIs

Scraper

Use Cases

Datasets

Knowledge Center

Blogs

Case Studies

Research Report

Infographics

About Us

Contact us

© 2025 RealdataAPI. All rights reserved.