Семалт - Како избрисати веб странице?

Беаутифул Соуп је Питхон библиотека која се широко користи за стругање веб страница креирањем стабла рашчлањивања из КСМЛ и ХТМЛ докумената. Веб стругање, техника вађења података са веб локација и страница, широко се користи у областима анализе података и управљања. У већини случајева Питхон програмски језик је предуслов у науци о подацима.

Питхон 3 поседује алате за гребање и модуле које можете применити на свој пројекат управљања подацима. Тренутно ради као Беаутифул Соуп 4, овај модул је компатибилан и са Питхон 3 и Питхон 2.7. Модул Беаутифул Соуп 4 такође је у стању да креира стабло рашчлањивања за не-затворену чорбу. У овом туториалу ћете научити како стругање странице и уписивање података у ЦСВ датотеку.

Почетак

Да бисте започели, подесите сервер или локално окружење за кодирање Питхон-а на рачунару. Такође би требало да инсталирате модул Беаутифул Соуп анд Рекуестс на вашу машину. Познавање рада са оба модула је такође неопходан предуслов. Познавање ХТМЛ означавања и структуре је такође додатна предност.

Разумевање ваших података

У овом контексту, користиће се стварни подаци из Националне уметничке галерије који ће вам помоћи да схватите како се користи Беаутифул Соуп 4. Национална уметничка галерија садржи 120.000 дела које је урадило отприлике 13.000 уметника. Уметност је смештена у Вашингтону, Сједињене Државе.

Вађење података путем Веб-а са Беаутифул Соуп-ом није тако компликовано. На пример, ако се фокусирате на слово З, означите и забележите име на листи. У овом случају, прво име је Забаглиа, Ниццола. За доследност наведите број страница и име последњег извођача на тој страници.

Како увести захтеве и библиотеку Беаутифул Соуп

За увоз библиотека активирајте Питхон 3 програмско окружење. Проверите да ли се налазите у истом директорију са вашим програмским окружењем. За почетак покрените следећу наредбу. ми_енв / бин / ацтивате.

Креирајте нову датотеку и започните са увозом прекрасних библиотека Супа и захтева. Библиотека захтева ће вам омогућити да користите ХТТП у својим Питхон програмима у читљивим форматима. Са друге стране, прелепа супа делује на брзом стругању страница. Користите бс4 за увоз Беаутифул Соуп.

Како сакупљати и анализирати веб страницу

Помоћу захтева прикупите УРЛ своје прве странице. УРЛ прве странице биће додељен страници са променљивим. Израдите БеаутифулСоуп објект из Захтева и рашчистите објекат из Питхоновог рашчлањивача.

Циљ овог приручника је прикупљање веза и имена уметника. На пример, можете да сакупљате датуме и националности уметника. За кориснике Виндовс-а десним кликом на име извођача. У овом случају користите Забаглиа, Ниццола. За кориснике оперативног система Мац ОС, тапните на "ЦТРЛ" и кликните на име. Кликните на мени „Испитај елемент“ који ће се појавити на екрану да бисте приступили алаткама веб програмера. Одштампајте имена извођача како би Беаутифул Соуп брзо разрадио дрво.

Уклањање доњих веза

Да бисте уклонили доње везе на својој веб страници, прегледајте ДОМ десним кликом на елемент. Препознаћете да су везе испод ХТМЛ табеле. Користећи Беаутифул Соуп, користите „метод распадања“ да уклоните ознаке са стабла анализе.

Како извући садржај из ознаке

Не морате да штампате целу ознаку везе, користите Беаутифул Соуп да бисте уклонили материјал из ознаке. Такође можете да снимите УРЛ адресе повезане са извођачима користећи Беаутифул Соуп 4.

Снимање изрезаних података у ЦСВ датотеку

ЦСВ датотека ће вам омогућити да похраните структуриране податке у обичан текст, формат који се углавном користи за таблице података. Препоручује се знање о руковању обичним текстуалним датотекама на Питхон-у.

Вађење веб података користи се за стругање страница и добијање информација. Будите пажљиви према веб локацијама са којих добијате информације о извлачењу. Неке динамичне веб локације ограничавају вађење веб података на њиховим веб локацијама. Стрипати страницу са Беаутифул Соуп и Питхон 3 је тако једноставно.