Sügavõppe mudelite treenimiseks on vaja palju sildistatud pilte. Üks lihtsamaid mooduseid sellise andmekogu loomiseks on kasutada mõnd otsingumootorit.
Otsingumootoriks on DuckDuckGo, mis kasutab Bing otsingumootori koostatud indeksit. Nii, et tulemused on üsna sarnased.
Negatiivne külg on ,et leitud vasted on kõik ameerika kesksed ja ei arvesta lokaalsete eripäradega. Näiteks on siga
mingi teibi bränd ja kass
on mõnede kodanike nimi.
Nii et enne, kui hakkata 200 pilti allalaadima tuleks leida õiged otsingu fraasid.
1. Paigaldame vajaliku teegi Colabi või mõnda teise Jupyter märkmikku:
!pip install -q jmd_imagescraper
2. Impordime vajalikud teegid märkmikku:
from jmd_imagescraper.core import *
from pathlib import Path
from jmd_imagescraper.imagecleaner import *
3. Defineerime otsingu sõnad ja fraasid:
keywords = ['cat', 'polar bear', 'siga']
4. Loodava andmekogu asukoht:
dataset_dir = Path().cwd()/"dataset"
5. Vastavalt otsingusõnadele laeme alla pildi ja paneme kataloogotesse:
for keyword in keywords:
keyword_dir = keyword
search_phrase = keyword
duckduckgo_search(dataset_dir, keyword_dir, search_phrase, max_results=10)

6. Vaatame andmekogu visuaalselt üle. Kas on pilte mida peaks eemaldama:
display_image_cleaner(dataset_dir)