Andmekogu loomine jmd-imagescraper abil

Sügavõppe mudelite treenimiseks on vaja palju sildistatud pilte. Üks lihtsamaid mooduseid sellise andmekogu loomiseks on kasutada mõnd otsingumootorit.

Otsingumootoriks on DuckDuckGo, mis kasutab Bing otsingumootori koostatud indeksit. Nii, et tulemused on üsna sarnased.

Negatiivne külg on ,et leitud vasted on kõik ameerika kesksed ja ei arvesta lokaalsete eripäradega. Näiteks on siga mingi teibi bränd ja kass on mõnede kodanike nimi.

Nii et enne, kui hakkata 200 pilti allalaadima tuleks leida õiged otsingu fraasid.

1. Paigaldame vajaliku teegi Colabi või mõnda teise Jupyter märkmikku:

!pip install -q jmd_imagescraper

2. Impordime vajalikud teegid märkmikku:

from jmd_imagescraper.core import *
from pathlib import Path
from jmd_imagescraper.imagecleaner import *

3. Defineerime otsingu sõnad ja fraasid:

keywords = ['cat', 'polar bear', 'siga']

4. Loodava andmekogu asukoht:

dataset_dir = Path().cwd()/"dataset"

5. Vastavalt otsingusõnadele laeme alla pildi ja paneme kataloogotesse:

for keyword in keywords:
  keyword_dir = keyword
  search_phrase = keyword
  duckduckgo_search(dataset_dir, keyword_dir, search_phrase, max_results=10)

6. Vaatame andmekogu visuaalselt üle. Kas on pilte mida peaks eemaldama:

display_image_cleaner(dataset_dir)

Links

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.