[offtopic] programming::algo::bash - split list in buckets

Adrian Sevcenco Adrian.Sevcenco at cern.ch
Tue Jul 2 14:20:05 EEST 2019


On 7/2/19 2:09 PM, George-Cristian Bîrzan wrote:
> Si vrei sa fie bucket-urile de marimi similare? Pai, vezi cat de mari sunt
> fisierele si apoi le pui in liste pana treci de 3.9T/200, treci la
> urmatoarea. Nu o sa fie exact, dar o sa fie good enough.
aha, ok.. ma gandisem la asta dar am zis ca e mai din topor, asa ca mai 
bine intreb poate exista o metoda bine cunoscuta pentru a face asa ceva

Merci!!
Adrian


> 
> On Tue, 2 Jul 2019 at 14:03, Adrian Sevcenco <Adrian.Sevcenco at cern.ch>
> wrote:
> 
>> On 7/2/19 1:45 PM, George-Cristian Bîrzan wrote:
>>> De ce nu pot sa fie exact egale?
>> pai marimea fisierelor variaza puternic .. in cazul curent sunt 7731
>> fisiere cu marimi intre 357k si 931M (3.9T in total)
>>
>> fisierele sunt binare si nu pot sa fac 'cat' la toata colectia si apoi
>> split .. astea le procesez in batchuri dar unele batchuri sunt muult mai
>> mari ca altele si atunci o parte din joburi se termina repede si ramane
>> o coada lunga...
>> as putea sa trimit joburi cu fiecare fisier separat dar apoi am o
>> problema cu merge-ingul rezultatelor
>>
>>
>>
>>
>>>
>>> On Tue, 2 Jul 2019 at 13:38, Adrian Sevcenco <Adrian.Sevcenco at cern.ch>
>>> wrote:
>>>
>>>> Salut! Am o necesitate interesanta : mi-ar fi ff de folos sa pot imparti
>>>> o lista de fisiere in sub-colectii __aproximativ__ egale (sa zic o
>>>> colectie de la 4 la 8k de fisiere in 200 buckets).. problema e ca nu am
>>>> nici o idee de unde sa incep (ca si algorithm)
>>>> ca si implementare vad eu cum o fac in bash sau python, dar algoritmul e
>>>> problema.
>>>>
>>>> Multumesc frumos!!
>>>> Adrian



More information about the Offtopic mailing list