Porazdeljeni datotečni sistem: opis, funkcije, prednosti

Distribuirani datotečni sistem deluje kot poseben sistem, ki izvaja dostop do datotek v omrežju, omogoča dostop do in shranjevanje podatkov na večini strežniških strojev. Analogna omrežna platforma je tradicionalni lokalni datotečni sistem, ki upravlja naprave za masovno shranjevanje, ki se gostijo na osebnem računalniku.

Osnove omrežnih podatkovnih zbirk

Ti elementi se nanašajo na omrežne datotečne sisteme in zagotavljajo dostop do njih na strežnikih. Z njihovo podporo lahko uporabnik oblikuje celovit datotečni sistem požarnega zidu. Vključuje različna orodja za strežnike. Distribuirani datotečni sistemi (RFS) zagotavljajo zrcaljenje, podvajanje in varnostno kopiranje baze podatkov na katerem koli disku, kar razvijalcu omogoča, da uredi svoje datoteke, odstrani ali shrani konfiguracije.


Obstaja več RFU-jev, ki se v aplikaciji, vmesniku in protokolih razlikujejo, kot tudi različne funkcije, kot so predpomnjenje, beleženje, večkanalna uporaba v lokalnih omrežjih. Ker je pasovna širina porazdeljenih datotečnih sistemov za grozde izjemno nizka, imajo ti programi posebne sisteme s hitrostjo prenosa nad 100 MB /s. Ti vključujejo globalni sistem (GFS) in lastniški splošni sistem (GPFS). RFU je hierarhično strukturiran in ima enoten logični dogovor o imenih. To je omrežni protokol, ki uporabniku omogoča dostop do datotek brez poznavanja lokacije strežnika. Osrednja drevesna struktura poenostavljaPoiščite datoteke po celotnem podjetju. Skladiščijo se pretirano in popolnoma dostopno tudi v primeru okvare glavnega trdega diska. V širšem smislu RFU pomeni omrežni protokol za dostop do datotečnega sistema.


Primeri so:
  • omrežni datotečni sistem (NFS).
  • Skupni datotečni sistem interneta (CIFS), razširitev enot strežnika sporočil (SMB).
  • Appleov protokol za arhiviranje (AFP) Apple.
  • Osnovni protokol NetWare (NCP) podjetja Novell.
  • Dobro znane izvedbe RFS so:
  • DFS v operacijskem sistemu Windows od Microsofta. Porazdeljen datotečni sistem DFS z Microsoftovim standardom v strežniških operacijskih sistemih. Najprej se je pojavil v operacijskem sistemu Windows NT4 in je bil dobavljen s strežnikom Windows 2000 Server. V operacijskem sistemu Windows Server 2003 so bile na strežnik dodane izboljšave, na primer več korenin DFS.
  • Datotečni sistem AFS Andrew, za katerega je v projektu "Distributed Computing" več proizvajalcev.
  • Konzorcij DCE Open Group je bil kot nadaljnji razvoj AFSCoda razvit na Univerzi Carnegie Mellonalosk.
  • BeeGFS /FhGFS za skupine in aplikacije HPCGlusterFS za vse POSIX združljive operacijske sisteme.
  • Datotečni sistem Hadoop ponuja objekte, repozitorij blokov in datotek, del jedra Linux, LGPL.XtreemFS, RFS, odpornega na napake, z vmesnikom, skladnim s POSIX.
  • Datotečni sistem Google (GFS, GoogleFS), ki temelji na Linuxu, je optimiziran za podatke z visoko pasovno širino.
  • Primerjava porazdeljenih datotečnih sistemov.

    Vzdrževanje in vrste sistemskih storitev

    Takšen sistem zagotavlja naslednje storitve:
  • Vzdrževanje repozitorija. Distribucija in upravljanje prostora nasekundarno napravo za shranjevanje, s čimer se zagotovi logični videz sistema za shranjevanje.
  • Ohranjanje pristne datoteke. Vključuje semantiko souporabe datotek, mehanizem za predpomnjenje, replikacijo, paralelni nadzor, kopiranje več kopij.
  • Storitev imen katalogov. Odgovorni za ukrepe, povezane z imenikom: ustvarjanje in odstranjevanje imenikov, dodajanje nove datoteke v imenik, odstranitev iz imenika, sprememba imena, premik iz enega imenika v drugega.
  • Zahtevane funkcije RFU:
  • Preglednost. Odjemalci porazdeljenega datotečnega sistema DFS ne bi smeli poznati števila ali lokacije datotečnih strežnikov in naprav za shranjevanje. Številni datotečni strežniki zagotavljajo zmogljivost, razširljivost, zanesljivost in preglednost dostopa.
  • Lokalne in oddaljene datoteke morajo biti dostopne na enak način. Sistem mora samodejno najti razpoložljivo in ga prenesti na spletno mesto stranke. Ime datoteke ne sme navajati lokacije datoteke. Ne smete se spreminjati, če preklapljate z enega mesta na drugo. Če je datoteka podvojena na več vozliščih, mora biti prisotnost več kopij in njihova lokacija skrita od odjemalcev.
  • Mobilnost samodejno sproži uporabniško okolje, na primer uporabniški domači imenik, na mesto, kjer je prijavljen.
  • Produktivnost se meri kot povprečni čas, potreben za izpolnitev zahtev strank. Ta čas vključuje čas CPU + čas za dostop do sekundarnega pomnilnika + čas dostopa doomrežja. Zaželeno je, da je zmogljivost porazdeljenega datotečnega sistema Windows primerljiva z zmogljivostjo centraliziranega sistema.
  • Uporabniški vmesnik v sistemu je preprost, vendar mora biti število ukazov čim manjše.
  • Razširljivost, rast vozlišč in uporabnikov ne bi smela resno ovirati storitve.
  • Visoka razpoložljivost RFU bi morala še naprej delovati v delnih zlomih, kot je komunikacijska napaka, vozlišče ali pogon, in bi moralo imeti več neodvisnih datotečnih strežnikov, ki upravljajo več naprav za shranjevanje.
  • Visoka zanesljivost. Verjetnost izgube shranjenih podatkov mora biti čim manjša. Sistem mora samodejno varnostno kopirati kritične datoteke.
  • Celovitost podatkov je zagotovljena z vzporednostjo zahtevkov uporabnikov z več dostopi, ki tekmujejo za dostop, in jih je treba ustrezno sinhronizirati z uporabo večfunkcijskega nadzornega mehanizma.
  • Uporabniki morajo biti prepričani v zaupnost svojih podatkov.
  • Raznolikost RFU bi morala zagotoviti enostaven dostop do skupnih podatkov na različnih platformah, kot so delovna postaja Unix, platforma Wintel in druge.
  • Prenosni model na ravni bloka

    V datotečnih sistemih, ki uporabljajo model za predpomnjenje podatkov, je pomemben problem pri načrtovanju izbira podatkovne enote. To se nanaša na del datoteke, ki ga stranke prenesejo in oblikujejo kot rezultat ene operacije branja ali pisanja.
    UModeli prenosa datotek na ravni datoteke, ko je treba podatke prenesti, se celotna datoteka premakne. Prednosti modela:
  • Datoteko je treba poslati samo enkrat kot odgovor na zahtevo odjemalca in je zato učinkovitejša od prenosa strani, ki zahteva več omrežnih protokolov.
  • Zmanjša obremenitev strežnika in omrežni promet, ker enkrat dostopa do strežnika.
  • ​​
  • To izboljšuje razširljivost. Ko je celotna datoteka v predpomnilniku na strani odjemalca, se ne odziva na strežniške in omrežne napake.
  • Slabosti modela:
  • Potrebujete dovolj prostora za shranjevanje na odjemalskem računalniku. Ta pristop ni primeren za zelo velike datoteke, še posebej, če odjemalec dela na delovni postaji brez diska.
  • Samo majhen del datoteke, ki prestavlja celotno datoteko, je potraten.
  • Prenos datotek poteka v blokih. Je njegov ločen del in ima fiksno dolžino, lahko pa je tudi enaka velikosti strani navideznega pomnilnika.
  • Za model prenosa je oddajna enota bajt. Model zagotavlja maksimalno fleksibilnost, saj vam omogoča shranjevanje in ekstrahiranje poljubne velikosti datoteke, ki jo nastavite z notranjim pomikom in dolžino. Pomanjkljivost je, da je upravljanje s predpomnilnikom težje zaradi podatkov spremenljive dolžine za različne poizvedbe za dostop.

    Model prenosa na ravni zapisov se uporablja s strukturiranimi datotekami in prenosna enota je zapis. Več uporabnikov lahko hkrati dostopa do datoteke v skupni rabi. Pomemben problemOblikovanje za kateri koli datotečni sistem je določanje, kdaj drugi uporabniki opazujejo spremembe podatkovnih datotek, ki jih je naredil uporabnik.

    Obrazci in lokacija predpomnilnika

    Vsak datotečni sistem s porazdeljenim sistemom Windows uporablja svojo predpomnjeno obliko. Razlogi za ustvarjanje predpomnilnika:
  • Najboljša zmogljivost, saj se ponavljajoči se klici na iste informacije obdelujejo z dodatnim dostopom do omrežja in diskovnimi pogoni.
  • To je posledica lokacije v predlogah za dostop do datotek.
  • Prispeva k razširljivosti in zanesljivosti RFU, saj se lahko podatki oddaljeno predpomnijo na mestu odjemalca.
  • Glavne odločitve, ki jih je treba sprejeti v shemi datotek predpomnilnika za RFS:
  • Lokacija predpomnilnika.
  • Sprememba distribucije.
  • Preverjanje predpomnilnika.
  • Mesto predpomnilnika se nanaša na predpomnjeno mesto shranjevanja podatkov. Ob predpostavki, da je prvotna lokacija datoteke na disku njegovega strežnika. V RFS je več možnih lokacij predpomnilnika:
  • Glavni pomnilnik strežnika. V tem primeru predpomnilnik pade v en dostop do omrežja. To ne pomaga pri razširljivosti in zanesljivosti sistema, ker vsak predpomnilnik klikov zahteva dostop do strežnika. Prednosti metode - enostavnost izvedbe, preglednost za stranke, enostavnost shranjevanja izvorne datoteke v predpomnilniku.
  • Pri uporabi diska odjemalca dobi predpomnilnik en dostop do diska. To je nekoliko počasneje kot predpomnilnik v glavnem pomnilniku strežnika. Prednosti porazdeljenih datotečnih sistemov pri uporabi diska odjemalca zagotavljazanesljivost zaradi napak, saj se sprememba predpomnjenih podatkov izgubi v primeru okvare. Ta različica velike zmogljivosti, olajša razširljivost in zanesljivost, saj se lahko v predpomnilniku zahteva oddaljeni dostop servisira lokalno, ne da bi se bilo treba obrniti na strežnik.
  • Sprememba distribucije

    Kadar se predpomnilnik nahaja na odjemalskih vozliščih, se lahko podatki datoteke hranijo hkrati na več vozliščih. Možno je, da postanejo predpomnilniki neusklajeni, če podatke o datoteki spremeni eden od odjemalcev, in ustrezni podatki, predpomnjeni v drugih vozliščih, niso spremenjeni ali zavrženi. Obstajata dva problema pri načrtovanju:
  • Pri razdeljevanju sprememb teh podatkov na ustrezen datotečni strežnik.
  • Pri preverjanju verodostojnosti predpomnjenih podatkov.
  • Uporabljeni sistem razdeljevanja sprememb ima kritičen vpliv na zmogljivost in zanesljivost sistema. Metoda "Shema za snemanje" se uporablja, ko se spremeni vnos v predpomnilnik, nova vrednost se takoj pošlje strežniku, da posodobi glavno kopijo datoteke. Prednost metode je visoka stopnja zanesljivosti in primernosti za UNIX podobne semantike. To je posledica dejstva, da je tveganje za obnovitev podatkov, ki se izgubi v primeru odpovedi odjemalca, zelo nizko, saj vsaka sprememba takoj velja za strežnik, ki ima glavno kopijo. Pomanjkanje - ta shema je primerna le, če je razmerje zadetkov pri branju dovolj veliko. Ne zmanjšuje prometnega omrežja za pisanje. To je posledica dejstva, da mora vsak dostop do pisanja počakati, da se podatki shranijo na glavni kopiji strežnika.

    Shema szakasnitev snemanja

    Za zmanjšanje omrežnega prometa za pisanje se uporablja shema zakasnitve snemanja. V tem primeru se nova vrednost podatkov zapiše samo v predpomnilnik in vsi posodobljeni zapisi predpomnilnika se kasneje pošljejo strežniku. Obstajajo trije pogosto uporabljeni načini zakasnitve snemanja:
  • Snemanje, ko se potisne iz predpomnilnika. Spremenjeni podatki v predpomnilniku se pošljejo strežniku samo, ko se politika za zamenjavo predpomnilnika odloči izpisati podatke iz predpomnilnika. To lahko pripelje do dobrih rezultatov, vendar pa lahko pride do težav z zanesljivostjo, saj se nekateri podatki strežnikov že dolgo starajo.
  • Periodično snemanje. Predpomnilnik se občasno preverja in vsi predpomnjeni podatki, ki so bili spremenjeni od zadnjega skeniranja, so bili poslani strežniku.
  • Zaprtje. Spreminjanje predpomnjenih podatkov se pošlje strežniku, ko odjemalec zapre datoteko. To malo pomaga pri zmanjševanju omrežnega prometa za datoteke, ki so odprte v zelo kratkem času ali pa se le redko spreminjajo.
  • Prednosti sheme odloženega pisanja:
  • Zapis dostopa se izvaja hitreje, ker je nova vrednost zapisana samo v odjemalčevem predpomnilniku. To vodi k večji produktivnosti.
  • Spremenjeni podatki se lahko izbrišejo, preden pride čas, da jih pošljete strežniku, na primer začasne podatke. Ker spremembam ni treba uporabiti za strežnik, to vodi do pomembnih povečanj učinkovitosti.
  • Zbiranje vseh posodobitev datotek in pošiljanje na strežnik je učinkovitejše kot pošiljanje vsake posodobitve posebej.
  • Pomanjkanje zapoznele sheme - zanesljivost je lahko še vedno problematična, saj bodo spremembe, poslane strežniku iz predpomnilnika stranke, izgubljene.

    Replikacija kot mehanizem razpoložljivosti

    Visoka razpoložljivost je dobra funkcija porazdeljenega datotečnega sistema, replikacija datotek pa je glavni mehanizem za izboljšanje razpoložljivosti datotek. Replicirana datoteka je datoteka, ki ima več kopij, vsaka s posebnim strežnikom. Razlika med replikacijo in predpomnjenjem
  • Replika datoteke je povezana s strežnikom, medtem ko je predpomnjena kopija običajno povezana z odjemalcem.
  • Obstoj predpomnjene kopije je odvisen predvsem od lokacije v predlogah za dostop do datotek, medtem ko je navzočnost replike običajno odvisna od zahtev glede razpoložljivosti in zmogljivosti.
  • V primerjavi s kopijo predpomnjene kopije je trajnejša, splošno znana, varna, dostopna, popolna in natančna.
  • Predpomnjena kopija je odvisna od replike. Koristno je lahko samo predpomnjeno kopijo, če občasno preverjate repliko.
  • Prednosti podvajanja:
  • Večja razpoložljivost. Nadomestne kopije podvojenih podatkov se lahko uporabijo, ko glavna kopija ni na voljo.
  • Povečana zanesljivost. Zaradi prisotnosti odvečnih podatkovnih datotek je možno okrevati po katastrofalnih zlomih, na primer trčenju trdega diska.
  • Izboljšan odzivni čas. Omogoča dostop do podatkov bodisi lokalno ali iz vozlišča, katerega čas dostopa je krajši od časa dostopa do izvirne kopije.
  • Zmanjšajte omrežni promet. Če je replika datoteke na voljo v datotečnem strežniku, ki se nahaja na odjemalčevem mestu, se lahko zahteva za dostop do odjemalca servisira lokalno, kar zmanjšuje omrežni promet.
  • Izboljšana pasovna širina sistema. Na različnih strežnikih je mogoče vzporedno obdelati več odjemalskih zahtev za dostop do datoteke, kar poveča pasovno širino sistema.
  • Izboljšana razširljivost. Na voljo je več strežnikov za strežniške zahteve zaradi podvajanja datotek. To izboljša prilagodljivost.
  • Konfiguriranje dejavnosti odjemalca, ko je prekinjena povezava

    Najpogostejša težava pri DFS je prikaz sporočila "Disconnected DFS File Disconnected Client". Microsoft mora rešiti to težavo, zato morate omogočiti odjemalcu na strežniku, na primer Windows Server 2012 R2. Algoritem dejanj:
  • Odprite Upravitelj strežnikov in na kartici »Orodja« izberite »Upravljanje DFS«, če ga uporabnik ne najde, morate dodati funkcijo DFS Namespace.
  • Kliknite z miško in izberite čarovnika "New Namespace".
  • Določite ime gostitelja, ime lastnega imenskega prostora porazdeljenega datotečnega sistema DFS.
  • Kliknite "Ustvari" in območje DFS.
  • Vključuje skupne mape v DFS.
  • Izberite imenski prostor in kliknite mapo Nova mapa.
  • Združite več map v edinstveno navidezno mapo.
  • Vidite, da je bila pot Domain_NameNamespace_NameVirtual_folder_name ustvarjena.
  • Po tem sporočilu storitev porazdeljenega datotečnega sistema ninameščen ", ne bo več.
  • Sistem za skupno rabo omrežnih virov v Linuxu

    NFS je najpogostejši datotečni sistem za izmenjavo omrežnih virov. Najpogostejša različica je NFS v2. Ta porazdeljeni datotečni sistem Linux se obnaša kot najvišja raven lokalnega datotečnega sistema. Dostop do oddaljenih datotek poteka prek postopkov RPC. Ne skrbi za status strežnika, ki je na voljo ali nedostopen, in uporablja zelo malo tehnologij za predpomnjenje. Poleg tega varnost tega sistema temelji na zaupanju strank. Pravzaprav gre za ID stranke, ki se seznani s pravicami za dostop do virov. NFS v3 je razvoj NFS in se trenutno uporablja v današnjem patentiranem Unixu, ki zapolnjuje nekatere vrzeli v slednjem. Ta definicija porazdeljenega datotečnega sistema vam strukturno omogoča podporo velikih datotek z velikostjo 264-bitne moči, kot tudi preverjanje pravic dostopa na strežniku. Lahko temeljijo na tradicionalni avtentikaciji Unixa ali uporabljajo dodatno overjanje, kot je Kerberos. Različica omogoča asinhronsko zapisovanje podatkov, kar mu omogoča boljše delovanje. Vendar pa večina drugih operacij ostane sinhronih. Podpora NFS v3 je trenutno v poskusni fazi jedra Linuxa in je zelo učinkovita.

    Skalabilno skladiščenje blokov

    Ceph je programska oprema, namenjena zagotavljanju prilagodljivega objekta, bloka in skladišča datotek v sistemu. Skladiščni grozdiRazdeljeni datotečni sistem Ceph je zasnovan za delo z blagovno opremo z uporabo algoritma CRUSH za zagotovitev enakomerne porazdelitve podatkov o gruči, nato pa lahko vsa vozlišča v gruči hitro sprejmejo podatke brez centraliziranih ozkih grl. Ceph je na voljo prek Amazon Simple (S3) in OpenStack Swift (REST), ki temelji na vmesnikih aplikacijskega programiranja, in native API za integracijo s programskimi aplikacijami. Blok pomnilnik Ceph uporablja ključavnico, ki je navidezni disk in se lahko poveže s strežniki, ki temeljijo na Linuxu, ali na odprtokodnih navideznih računalnikih. Zaupanja vreden samostojni Cephov distribuirani objektni repozitorij (RADOS) zagotavlja zmogljivosti shranjevanja, kot so posnetki in podvajanje. Blokovna naprava Ceph RADOS je integrirana, da deluje kot zadnji del z blok-skladiščem OpenStack. Skladišče datotek Ceph uporablja datotečni sistem CexFS, združljiv s sistemom POSIX (CephFS), za shranjevanje podatkov v grozdu za shranjevanje Ceph. CephFS uporablja isti sistem grozdov kot skladišče blokov Ceph in skladišče Ceph.

    Prednosti porazdeljenega datotečnega sistema

    Tehnično omogoča dostop do splošnega imenika, ki ne vsebuje datotek, ampak samo prehodov in neobveznih pod imenikov z velikim številom prehodov. Prehodi so podobni mehkim povezavam, znanim iz datotečnega sistema Unix, vendar se nanašajo na skupne imenike in lahko kažejo na deljene imenike na drugih strežnikih. Najprej odjemalci vprašajo strežnik DFS za povezavo in se nato obrnejo na strežnik, na katerega je povezana povezava.Primarni namen uporabe porazdeljenega datotečnega sistema DFS je ustvariti alternativni imenski prostor (predstavitveno drevo imenikov), ki skrije podrobnosti osnovne infrastrukture od uporabnikov. Poti, ki jih uporabniki vidijo in kličejo imena DFS, se pri preimenovanju strežnikov ali pri premikanju nekaterih imenikov v drug strežnik ne spremenijo. Skrbniki lahko preprosto nadomestijo zastarelo ime z novim, kar kaže na nov namen. Ime lahko poda več kot en cilj, kar pomeni, da odjemalcu ponuja več nadomestnih povezav za različne mape v skupni rabi. V tem primeru lahko odjemalci porazdeljenega datotečnega sistema DFS dostopajo do katerega koli cilja. To omogoča uravnoteženje obremenitve in samodejni preklop na drug strežnik, če eden od strežnikov ne uspe. Zahvaljujoč DFS-ju ni več stroge povezave s strežnikom. Pomnilnik je predstavljen kot bazen velike zmogljivosti, za katerim so skriti datotečni sistemi za uporabnika. Pravzaprav je to izjemno uporabno orodje za reševanje vse večjih zahtev, ki jih datotečni sistem distribuira na diskovnem prostoru novih strežnikov glede na zahteve glede razpoložljivosti. Tehnologija, kot je Windows DFS, koristi vsem podjetjem, tako velikim kot majhnim. Za velika podjetja se vidik bolj prilagodljive uporabe virov za skladiščenje izplača. Ker so vsi diski del navideznega pomnilnika, ni več neuporabljenih diskov in nizov. Manjša podjetja cenijo standardizacijo uprave. Hvala jiOmejene vire je težko slediti polnim strežnikom, jih pravočasno posodobiti na velike diske in razdeliti prostor med aplikacijami. DFS ne predstavlja prostora za shranjevanje tako, da bi ga uporabniki in aplikacije želeli videti, ker dejansko obstaja. Ker sta strežniška in odjemalska komponenta sestavni del operacijskega sistema Windows, postopek namestitve in konfiguracije zahteva malo napora administratorja in praktično ne vpliva na delovanje uporabnikov. Razvijalci so integrirali popolno upravljanje porazdeljenega datotečnega sistema DFS Windows, konzola je enotna točka nadzora za več korenskih sistemov DFS. Grafična orodja olajšajo pregledovanje in spremljanje. Upravljanje je možno tudi na spletnih straneh.

    Sorodne publikacije