Парсинг сайтів у PHP

//

DOM

//

Класс DOMDocument

//

  • public DOMDocument::loadHTMLFile(string $filename, int $options = 0): DOMDocument|bool разбирает HTML-документ из файла filename (в отличие от загрузки XML, HTML не должен быть правильно построенным well-formed)
    • filename может содержать URL,
      • в это случае в запросе HTTP_USER_AGENT будет содержать строку вида 'PHP (www.reks.biz), hosted by servera.link'
  • public DOMDocument::loadHTML(string $source, int $options = 0): DOMDocument|bool разбирает HTML из строки source
  • public DOMDocument::save(string $filename, int $options = 0): int|false создаёт XML-документ из представления DOM
  • public DOMDocument::saveXML(?DOMNode $node = null, int $options = 0): string|false создает xml-строку, соответствующую узлу node или всему документу

Класс DOMElement

//

  • public DOMDocument::getElementsByTagName(string $qualifiedName): DOMNodeList
    возвращает новый объект класса DOMNodeList с элементами с заданным локальным именем
  • //$classes = $element->getAttribute('class');
    //$classList = $element->classList;
  • $info->nodeValue

Класс DOMNode

//

Модуль libxml

В основе работы модуля DOM и ряда других модулей XML лежит модуль libxml

  • libxml_use_internal_errors(?bool $use_errors = null): bool устанавливает/отменяет вывод ошибок выявленных в xml-данных  в поток вывода

Джерела

Leave a Reply