ガイドミーでは外部のサイトのデータを利用させて頂く機会が多いので、正規表現によるデータの抽出は欠かせません。
ただ、この「正規表現」をどこまで厳密に表現するかで、プログラムの処理速度やデータの精度に影響が出てきます。正規表現をガチガチに組んでも開発のスピードが遅くては、PHPを使っている意味がありません。
僕の抽出レベルはこんな感じです。
【例】HTMLファイルからtitleデータを抽出する関数。
function getTitle($str) { $tag = "title"; if (preg_match("/< ([\\ ]*)$tag([\\ ]*)>([^< ]+)([^\\/]+)<.*?\/.*?$tag.*?>/i", $str, $cols)){ $title = trim($cols[3]).trim($cols[4]); } retrun $title; }