Vývojová zpráva ke scoringové funkci xxx Jméno příjmení xx.xx.2009 1) Zdroj dat Aplikační data žadatelů o úvěr. Zdroj: CD přiložené k publikaci Thomas, L.C., Edelman, D.B., Crook, J.N. (2002). Credit Scoring and Its Applications, SIAM Monographs on Mathematical Modeling and Computation, Philadelphia. 2) Popis a analýza dat Datový soubor obsahoval 14 vysvětlujících proměnných a 1 cílovou proměnnou. Rozsah souboru byl 1225 řádků. Základní popis je dán následujícími tabulkami: Data Audit of [15 fields] Field Graph Type Min Max Mean Std. Dev Skewness Unique Valid 1 DOB range 3.000 99.000 51.038 15.302 -0.714 -- 1225 2 NKID set 0.000 5.000 -- -- -- 6 1225 3 DEP set 0.000 2.000 -- -- -- 3 1225 4 PHON set 0.000 1.000 -- -- -- 2 1225 5 SINC range 0.000 50000.000 1990.085 4802.341 3.788 -- 1225 6 AES set -- -- -- -- -- 11 1225 7 DAINC range 0.000 64800.000 21244.211 15896.208 0.502 -- 1225 8 RES set -- -- -- -- -- 5 1225 9 DHVAL range 0.000 64928.000 15693.858 20736.332 1.000 -- 1225 10 DMORT range 0.000 64000.000 11225.691 18889.207 1.468 -- 1225 11 DOUTM range 0.000 3800.000 342.005 427.994 1.942 -- 1225 12 DOUTL range 0.000 28000.000 121.927 839.640 30.186 -- 1225 13 DOUTHP range 0.000 1600.000 28.722 119.324 6.572 -- 1225 14 DOUTCC range 0.000 2800.000 39.595 168.697 8.958 -- 1225 15 BAD flag 0.000 1.000 -- -- -- 2 1225 3) Transformace dat V průběhu přípravy dat byly požity tyto datové transformace: Odstranění odlehlých hodnot / doplnění chybějících / diskretizace / agregace / kombinace proměnných / WOE / jiné… Příklad tabulky rozdělení četností+def.rate+WOE …tabulky rozdělení četností pro diskrétní proměnné se je vhodné uvést už v bodě 2). 4) Modelování Byly testovány tyto modely….seznam všech modelů a jejich stručný popis Např…. Logistická regrese: Fields Target BAD Inputs DOB NKID DEP PHON SINC AES DAINC RES DHVAL DMORT DOUTM DOUTL DOUTHP DOUTCC Build Settings Use partitioned data: false Calculate variable importance: false Calculate raw propensity scores: false Procedure: Multinomial Base category: Model type: Main Effects Include constant in equation: true Mode: Simple Multinomial Method: Enter Output = -0,01307 * DOB + -0,00004683 * SINC + -0,00002745 * DAINC + -0,000004588 * DHVAL + 0,000002847 * DMORT + 0,0002189 * DOUTM + 0,00007665 * DOUTL + -0,001382 * DOUTHP + -0,002207 * DOUTCC + 18,56 * [NKID=0] + 18,63 * [NKID=1] + 18,58 * [NKID=2] + 18,8 * [NKID=3] + 17,42 * [NKID=4] + -0,9928 * [DEP=0] + -0,9972 * [DEP=1] + 0,1379 * [PHON=0] + 0,1932 * [AES=B] + 0,007235 * [AES=E] + -0,01056 * [AES=M] + -0,4939 * [AES=N] + -0,1896 * [AES=P] + 0,06029 * [AES=R] + -0,1853 * [AES=T] + 0,5025 * [AES=U] + -0,3596 * [AES=V] + 0,3941 * [AES=W] + 0,04138 * [RES=F] + 0,9657 * [RES=N] + 0,4718 * [RES=O] + 0,1391 * [RES=P] + -17,49 Strom - CART: Fields Target BAD Inputs DAINC RES DMORT DOUTL DOUTCC Build Settings Levels below root: 5 DAINC <= 0 [ Mode: 0 ] => 0,0 DAINC > 0 and DAINC <= 34 500 [ Mode: 0 ] RES in [ "F" "P" "U" ] [ Mode: 0 ] => 0,0 RES in [ "N" "O" ] [ Mode: 0 ] DMORT <= 0 [ Mode: 0 ] DAINC <= 12 000 [ Mode: 1 ] => 1,0 DAINC > 12 000 [ Mode: 0 ] => 0,0 DMORT > 0 [ Mode: 0 ] DOUTCC <= 0 [ Mode: 0 ] DOUTL <= 388 [ Mode: 0 ] => 0,0 DOUTL > 388 [ Mode: 1 ] => 1,0 DOUTCC > 0 [ Mode: 0 ] => 0,0 DAINC > 34 500 [ Mode: 0 ] => 0,0 Neuronová síť: Analysis Input Layer: 36 neurons Hidden Layer 1: 3 neurons Output Layer: 1 neurons Fields Target BAD Inputs AES DAINC DEP DHVAL DMORT DOB DOUTCC DOUTHP DOUTL DOUTM NKID PHON RES SINC Analýza kvality: 5) Popis scoringové funkce xxx Výsledná scoringová funkce je popsáná násl. tabulkou (proměnné, koeficienty, signifikance)…např: 6) Evaluace Podrobné charakteristiky kvality…grafy/tabulky (LC, gini, ks, lift, …) …na vývojovém vzorku (popř. na testovacím).