Semalt: Il-Gwida tal-Brix HTML - Għajnuniet Top

Il-kontenut tal-web huwa l-aktar f'formati strutturati jew HTML. Kull paġna hija organizzata fil-mod uniku tagħha skont it-tip ta 'kontenut fiha. Jekk xi ħadd irid jestratta informazzjoni fuq l-internet, huwa x-xewqa ta 'kull persuna li tikseb id-data b'mod strutturat u organizzat sewwa. Dan jgħin fl-iffrankar tal-ħin meħtieġ għar-reviżjoni, analiżi u organizzazzjoni tad-dokument qabel ma jinqasam. Madankollu, li jkollok il-format strutturat mhux faċli peress li ħafna mill-websajts ma joffrux dik l-għażla li ma jħallux lin-nies jestrattaw ammonti kbar ta 'dejta. Xi siti, madankollu, jipprovdu l-APIs li tipprovdi lin-nies b'għażla ta 'estrazzjoni ta' informazzjoni fi proċess ta 'malajr u faċli.

F'każijiet bħal dawn, ma jkollok l-ebda għażla ħlief li tuża l-għajnuna ta 'programmazzjoni ta' softwer magħrufa bħala brix. Huwa metodu li juża programm tal-kompjuter biex jgħin lill-utenti jiġbru informazzjoni f'format utli u jippreservaw l-istruttura tad-dejta.

Lxml u Talba

Din hija librerija tal-brix wiesgħa li tgħin fl-analiżi u l-evalwazzjoni ta 'XML u HTML malajr u tgħin biex tiffranka l-ħin. Huwa utli wkoll li nittrattaw it-tags messed up fil-proċess tal-analiżi. F'din il-proċedura, tuża t-talbiet Lxml aktar milli l-urllib2 inkorporat peress li huwa aktar mgħaġġel, robust u disponibbli mill-ewwel. Huwa faċli li tinstallah billi tuża pip install Lxml u pip installa t-talbiet.

Għal brix HTML segwi dawn il-passi

Ibda mill-importazzjoni - hawnhekk timporta HTML minn Lxml, imbagħad titlob importazzjoni. Uża t-talba u mbagħad traċċa l-paġna tal-web li fiha d-dejta li tixtieq tiġbed, tanalizzaha permezz tal-modulu HTML u mbagħad issalva d-dejta analizzata fis-siġra.

Ikollok bżonn tuża l-kontenut tal-paġna aktar milli t-test peress li HTML jistenna li jirċievi l-input f'bytes. Is-siġra, fejn tkun maħżuna d-data analizzata tiegħek issa fiha d-dokument HTML fi struttura ta 'siġra. Tista 'tmur fuq l-istruttura tas-siġar f'approċċi differenti, l-XPath u CSSelect.

XPath jgħinek sabiex tfittex l-informazzjoni jew tiksebha f'format strutturat bħal HTML jew XML. Hemm diversi modi li bihom tista 'tikseb l-elementi XPath. Dawn jinkludu Firebug għal Firefox jew Chrome Inspector. Meta tuża Chrome, l-ispezzjoni tal-informazzjoni hija faċli peress li għandek bżonn biss ikklikkja 'dritt' fuq l-element li jeħtieġ spezzjoni, agħżel 'Spezzjona l-element', tenfasizza l-kodiċi pprovdut u mbagħad ikklikkja dritt u agħżel kopja XPath. Dan il-proċess jgħinek tkun taf liema elementi jinsabu fil-paġna tiegħek u minn hemm, huwa faċli li tinħoloq il-mistoqsija XPath it-tajba u li tapplika l-XPath Lxml b'mod korrett.

Jekk tgħaddi minn dawn il-passi jiżgura li tkun mibruxa d-dejta kollha li ridt tiġbed minn web partikolari billi tuża Lxml u Talbiet. Int ser ikollok l-informazzjoni maħżuna f'żewġ memorji tal-lista, u issa hija lesta biex issortja. Tista 'tanalizzaha billi tuża lingwa ta' programmazzjoni bħal Python jew issalvaha u taqsamha. Ukoll, inti tista 'tixtieq li tikteb jew teditja xi partijiet tal-informazzjoni qabel ma taqsamha.

mass gmail