Celková analytická logika systému

Ze sestav o výdajích na ESIF a otevřených dat SZIF o výdajích na SZP sestavujeme dataset. Výdaje tagujeme klimatickými kategoriemi z evropské legislativy. Výsledkem jsou podíly a součty výdajů ESIF vč. PRV v jednotlivých kategoriích dopadu na klima. V souladu s klima tagy evropské legislativy používáme pouze pozitivní tagy (100 % a 40 %), popř. 0 % nebo “nic”.

Data a rozhodnutí

MSSF a PRV

Zdroje: jaká data máme

  • data ke všem OP kromě PRV pochází ze sestav data-input/sestavy_2021-05-28. Nejsou zde data o příhraniční spolupráci (o projektech ano, ale ne o platbách). Název adresáře obsahuje datum, ke kterému jsou v sestavách aktuální data
    • E001 Identifikace projektu: rozpad projektu na SC a ekonomické kategorie intervence
    • E005 Kategorizace_oblast: oblasti intervence podle nařízení
    • E003 Finance celkem: více finančních řezů, co řádek, to projekt
    • E004 Žádosti o platbu: co řádek, to platba s datem
    • tato data umožňují kromě kategorií atd. agregaci i do čtvrtletí/let
    • podobná čísla dává i veřejný export seznamu příjemců
  • lokalizace projektů běžných OP:
    • využíváme výstup předchozího projektu MMR - Arrow dataset v adresáři
  • data k PRV pochází od MZe a jsou výrazně jednodušší:
    • data poskytnutá na vyžádání přes MMR - jen projektová opatření PRV:
      • jediná tabulka, data do 12/2020
      • co řádek, to projekt, včetně financí a NUTS3 (každý projekt má jen jednu NUTS3)
    • open data SZIF za celou CAP v ČR
      • načteno ze stažených XML souborů, co rok, to soubor, 2017-2020 (URL jsou v config.yml)
      • uloženo v data-input/opendata-szif
      • nepracujeme s identifikací příjemce; pracujeme s platbami, nikoli jednotlivými operacemi
      • obsahuje projektové i plošné operace PRV + všechny operace financované ze EZZF/EAGF
      • názvy opatření neodpovídají přesně názvům v custom sestavě ani názvům v OP ani ve schématu

Nepoužíváme žádná data o finančních nástrojích - vše jsou pouze dotace.

Jaká data využíváme

  • v současném stavu hlavní datový pipeline bere data ze sestav MS a z otevřených XML dat SZIF
  • dostáváme tedy přesnější rozpady projektů ESIF mimo PRV na kategorie
  • u agri dat můžeme pracovat i s neprojektovými opatřeními PRV a pro kontext vidíme objemy celé CAP (i ostatní pilíře), aktualizace pak nezávisí na vyžádání dat z MZe
  • u ne-agri dat není problém upravit pipeline tak, aby využíval otevřená data - pokud by např. byla potřeba aktualizace a nebylo snadné získat aktualizovaná data; alternativně lze vyžádat jen nefinanční sestavy (přesné procentuelní rozpady projektů na SC a kategorie intervencí, ale proplacené částky vzít z veřejného seznamu, čímž by se obrousila případná obava MMR o předávání detailních dat o platbách)
  • v konečných výstupech nepracujeme s místem (regionální rozpad) ani časem (roky/čtvrtletí), ale většina dat v předcházejících krocích pipeline je na to připravena (výjimkou je členění výdajů v čase z veřejného seznamu projektů mimo PRV - to by vyžadovalo zpracovat zveřejněné seznamy za jednotlivá období a změny výdajů v čase dovodit porovnáním těchto seznamů z různých časových období)
Technické zádrhele u vstupních sestav
  • v XLSX s oblastmi intervencí zřejmě chybí sloupce s rozpadem na SC, přičemž ale projekty jsou na SC rozpadlé do řádek, proto součty peněz v jednom projektu přesahují 100 %.

Časování plateb

  • u části žádostí o platbu chyběla data proplacení žádosti, ale z čísla žádosti lze dovodit rok podání žádosti. U těchto žádostí rozkládáme datum proplacení rovnoměrně do všech kvartálů daného roku
  • nepracujeme tedy se začátkem a koncem realizace projektů
  • stejně tak nerozlišujeme platby ANTE a POST
  • pro lepší přesnost by bylo vhodné tyto platby ještě posunout o cca 100 dnů (1 kvartál) dále v čase (odhadovaná prodleva mezi 30. 6. - coby očekávaná střední doba podání ŽOP v roce - a proplacením)

Zdroje peněz

Ve všech dostupných datech se vykazují tzv. celkové způsobilé výdaje, tj. všechny peníze, které příjemce vydal při realizaci podpořeného projektu. Ty sestávají z evropských peněz, národních veřejných peněz z různých zdrojů (státní rozpočet, kraj, obec aj.) a soukromých peněz příjemce.

V grafech a tabulkách pracujeme vždy s celkovými způsobilými výdaji.

V exportech je obsažen i rozpad na všechny dostupné zdroje. (U SZP jde rozlišit jen EU a národní, u ostatních programů vidíme rozpady na všechny zdroje uvedené výše.)

Jak děláme climate tagging

  • automatický tagging vychází z climate tagů pro kategorie intervencí zveřejněných v příloze II implementačního nařízení EK
  • tabulky pro ESIF a PRV jsou ručně přeneseny do excelových souborů v data-input/regulation-tables/reg-table_1_climate-categories_agri.xlsx a data-input/regulation-tables/reg-table_1_climate-categories_nonagri.xlsx
  • u agri dat jsou k jednotlivým kategoriím z nařízení (5 hlavních priorit) doplněny na základě textu programového dokumentu PRV názvy opatření PRV, o kterých MZe říká, že přispívají k dané prioritě EAFRD (např. M01). Z open dat pak identifikujeme opatření, která podle názvu odpovídají danému opatření - k tomu pomáhá schéma podpor od SZIF. Tato logika propojení je zanesena do excelového souboru a využita v datové pipeline pro rozřazení jednotlivých plateb do kategorií
  • u ESF se nepodařilo zjistit, jestli některá část výdajů spadá do “sekundárních kategorií” zmíněných v prováděcím nařízení (kde jsou k těmto kategoriím i tagy) - v programovém dokumentu OP Z žádný náznak není, až na několik vágních klauzulí, že u některých výdajů lze předpokládat pozitivní dopad na klima, pokud se odehrají v podnicích zaměřených na nízkouhlíkovou ekonomiku atd.

Agri - kategorie s klima tagem

opatreni_mkod opatreni_nazev opatreni_id climate_share type
M01 1 1 1.0 proj
M06 6 6 0.4 proj
M08 8 8 0.4 proj
M08 ZZPLP-Zalesnění zemědělské půdy (ZZP) ZZPLP 0.4 nar
M08 ZZPPN-Podpora zalesňování/zakládání lesů včetně nákladů na z ZZPPN 0.4 nar
M08 ELESP-Péče a náhrada ELESP 0.4 nar
M10 AEKO-Agroenvironmentálně-klimatické opatření (AEKO) AEKO 1.0 nar
M11 EKOZ-Ekologické zemědělství (EZ) EKOZ 1.0 nar
M12 LFA-Méně příznivé oblasti (LFA) LFA 1.0 nar
M13 Natura Natura 1.0 nar
M15 LEOD LEOD 1.0 nar
M19 19 19 0.4 proj

Hodnoty konfiguračních proměnných v souboru config.yml


default:

  # URL for getting project data
  # listed at https://dotaceeu.cz/cs/statistiky-a-analyzy/seznamy-prijemcu
  # ef_pubxls_url: "https://dotaceeu.cz/getmedia/009dba87-d944-4f66-9bd4-2eb166e2ef92/2021_07_30_Seznam-operaci-_-List-of-operations.xls.aspx?ext=.xls"
  # ef_pubxls_url: "https://dotaceeu.cz/getmedia/6297d56b-0b57-418d-ad25-dd16bd687479/2021_06-Seznam-operaci-_-List-of-operations.xls.aspx?ext=.xls"
  # ef_pubxls_url: "https://mmr.cz/getmedia/b7e30c74-1b37-4f96-8faf-0c1f9c92bb9d/2022_02_Seznam-operaci_List-of-operations.xlsx.aspx?ext=.xlsx"

  ef_pubxls_url: ~ # leave as ~ for automatic retrieval of latest data

  ef_open_data_url: https://ms14opendata.mssf.cz/SeznamProjektu.xml
  ef_open_metadata_url: https://ms14opendata.mssf.cz/MatDat.xml
  ef_open_data_path: data-input/opendata-mssf/SeznamProjektu.xml
  ef_open_metadata_path: data-input/opendata-mssf/MatDat.xml

  # whether to supplement non-public data with more recent public data
  # you get more recent data but less accuracy about categorisation of projects in the recent projects
  use_public_data: yes

  # whether to use the latest open data from the above URLs
  refresh_open_data: yes
  refresh_open_metadata: yes

  # PRV data-input, from https://www.szif.cz/cs/seznam-prijemcu-dotaci

  agri_opendata_zipxml: ["agri_prijemci_2017.zip", "agri_prijemci_2018.zip",
                         "agri_prijemci_2019.zip", "agri_prijemci_2020.zip",
                         "agri_prijemci_2021.xml"]
  agri_opendata_urls: ["https://www.szif.cz/cs/CmDocument?rid=%2Fapa_anon%2Fcs%2Fdokumenty_ke_stazeni%2Fpkp%2Fspd%2Fopendata%2F1563197147275.zip",
                       "https://www.szif.cz/cs/CmDocument?rid=%2Fapa_anon%2Fcs%2Fdokumenty_ke_stazeni%2Fpkp%2Fspd%2Fopendata%2F1563197121858.zip",
                       "https://www.szif.cz/cs/CmDocument?rid=%2Fapa_anon%2Fcs%2Fdokumenty_ke_stazeni%2Fpkp%2Fspd%2Fopendata%2F1590753721920.zip",
                       "https://www.szif.cz/cs/CmDocument?rid=%2Fapa_anon%2Fcs%2Fdokumenty_ke_stazeni%2Fpkp%2Fspd%2Fopendata%2F1622192829773.zip",
                       "https://www.szif.cz/cs/CmDocument?rid=%2Fapa_anon%2Fcs%2Fdokumenty_ke_stazeni%2Fpkp%2Fspd%2Fopendata%2Fspd2021.xml"]
  agri_opendata_dir: "data-input/opendata-szif"
  prv_data_path: "data-input/sestavy-prv_2020-12/PRV 2014-20 k XII. 2020.XLSX"

  # sestavy from MS
  sest_dir: "data-input/sestavy_2021-05-28"
  sest_xlsx_prj: "E001 Identifikace projektu.xlsx"
  sest_xlsx_fin: "E003 Finance celkem.xlsx"
  sest_xlsx_zop: "E004 Žádosti o platbu.xlsx"
  sest_xlsx_obl: "E005 Kategorizace_oblast.xlsx"


  # PRV categorisations
  priority_prv_xls: "data-input/Navrh - KATEGORIZACE - Operace PRV + priority.xlsx"

  # Climate categoristions

  ## From legislation
  reg_table_nonagri_xlsx: "data-input/regulation-tables/reg-table_1_climate-categories_nonagri.xlsx"
  reg_table_agri_xlsx: "data-input/regulation-tables/reg-table_1_climate-categories_agri.xlsx"
  reg_table_agri_sheetname: "cz_priorities"

  ## Manual
  tags_manual_xlsx: "data-input/manual-tagging/export-tagging-all_retagged.xlsx"
  tags_manual_sheetname: "nonagri_detail"

  ## Link between DoP TC (PA TO) and SC
  hier_xlsx: "data-input/hierarchie-cilu/Hierarchie_uprava_CSR_NPR-O27-uprava_20210125.xlsx"

  # CZSO dataset IDs
  czso_pop_table_id: "130149"

  # export location
  export_dir: "data-export/export_202304"

  export_all_ops_xlsx: "sum_tagged_all_ops.xlsx"
  export_all_ops_detail_xlsx: "sum_tagged_all_ops_detail.xlsx"
  export_prv_detail_xlsx: "sum_tagged_prv_detail.xlsx"
  export_nonagri_detail_xlsx: "sum_tagged_nonagri_detail.xlsx"
  export_nonagri_projekty_xlsx: "sum_tagged_nonagri_projekty.xlsx"
  export_agri_detail_xlsx: "sum_tagged_agri_detail.xlsx"

  export_all_ops_csv: "sum_tagged_all_ops.csv"
  export_all_ops_detail_csv: "sum_tagged_all_ops_detail.csv"
  export_prv_detail_csv: "sum_tagged_prv_detail.csv"
  export_nonagri_detail_csv: "sum_tagged_nonagri_detail.csv"
  export_nonagri_projekty_parquet: "sum_tagged_nonagri_projekty.parquet"
  export_agri_detail_csv: "sum_tagged_agri_detail.csv"

  export_xlsx_a: "sum_quarterly.xlsx"
  export_xlsx_q: "sum_annual.xlsx"
  export_csv_a: "sum_quarterly.csv"
  export_csv_q: "sum_annual.csv"

  export_tagging_xlsx: "site/export-tagging-all.xlsx"

  export_cdbk_sum: "codebook_sum.yaml"
  export_cdbk_prj: "codebook_prj.yaml"

  repo_remote: "https://github.com/cdeorgcz/esiftagging"