gezipte datafeed en creatief boekhouden ?

25 jan 2008
3.028
0
0
wfsidee.nl
#1
Een hersenbreker voor het oude jaar :

men neme een productdatafeed zonder compressie, netwerk Zanox, merchant Zalando, afhaaldatum 29-11-2011 waarbij de url niet gewijzigd wordt behoudens het element voor compressie daarin en als 2e een 'g'-gezipte vooraf, die vervolgens uitgepakt wordt met gzip in php, lokaal op een windows7 pc.

a. ongecomprimeerde afhaal via de browser, ontvangen 65.7 Mb en daarin 82.272 records excl header

b. gecomprimeerde afhaal, ontvangen 5.5 Mb , dat levert uitgepakt 66.3 Mb op, opgeslagen onder windows7 , en aan records 82.991 excl header.

Mijn telraam zegt dan dat ik ingeval van b. 719 records méér heb voor hetzelfde geld, tijdsverschil 15 minuten.

Heb beide csv-resultaten door mijn csv - tooltje gehaald en getest op duplicaten : 0 %. Alles uniek.
De laatste 3 records eindigen qua merk op Sansibar Sylt en 2x DC shoes, beide csv's
De eerste 3 records hebben een id van 10K42B001-202, 10K42B002-202, 10K42B003-202, beide csv's

Kan er natuurlijk 'onderweg' iets weggevallen zijn, handmatig checken is geen doen, dus ik laat de tool van record 1 tellen met telkens ophoging met 1 op de voorgaande,
a: telt van 1 tot 82.272 onafgebroken
b: telt van 1 tot 82.991 ,,
en beiden getest op duplicaten, dubbeltest dus.

Zou je toch ge(zipt)flipt van raken !

Wie ziet hier het licht ?
 

elja

Nieuw lid
16 aug 2009
535
0
0
#3
Dat is toch simpel Ouwesmurf. Als medewerker van van Zalando maak je even een run voor de ongecomprimeerde set.
Daarna ga je naar de kerstborrel van je bedrijf. De bedrijfsnerd heeft die geen alcohol lust en blijft doorwerken. En die draait een importrun met artikelen voor de nieuwjaarsdag collectie. En na de borrel wiebel je naar je computer en bedenk je dat je nog een run voor het gezipte exportbestand moet maken.
 
25 jan 2008
3.028
0
0
wfsidee.nl
#4
Dank Willie en Elja voor je reakties, kan me er heel wel in verplaatsen, maar toch hoop ik op een meer praktische insteek, zodat ik het kan laten waar het is.

Wat was het aspekt voor het algemeen nut : aantonen dat zippen sneller gaat, zowel qua vervoer als vervolgens uitpakken en verwerken. Alleen onverwachts kwam dit resultaat naar voren.
Zou ik de routine niet gesplitst hebben - ik wil altijd weten "hoe het zo gekomen is" - was ik er niet over gestruikeld. Maar nu blijken er spookrecords te zijn.

( ja , die ene weet ik , vragen aan Zanox Berlijn, maar daar liggen al vragen van jaren geleden, zonder antwoord )

Kan me nog indenken dat wanneer je ongezipt ophaalt, er een tijdslimiet aan de orde is en de stroom records ingedamd wordt, maar dan nog zouden mijn laatste records niet identiek kunnen zijn met die van het kleinere aantal.
Dus ?
Wie kent het database - vraagstuk van haver tot gort ? 8)
 

oblomov

Nieuw lid
22 jan 2008
14
0
0
#5
Kun je beide bestanden niet door een Diff programma'tje halen? Dan kun je snel zien waar de bestanden verschillen. Er zijn online tools, maar die werken wellicht niet goed met grote hoeveelheden data.
 

dykwia

Nieuw lid
7 jun 2011
143
0
0
#6
Zalando werkt met Magento, daarbij verbaas ik mij na jaren nergens meer over;-). Fouten opsporen aldaar zijn meestal breinbrekers.