Ga naar inhoud

[PHP] Regex probleem


anoniem

Aanbevolen berichten

Ik ben bezig met een script dat de headlines van een krant grabt. Het is me gelukt om alle headlines te pakken, maar er is nog 1 probleem. Tussen de eerste en de tweede headline blijft er na het grabben stuk tekst staan dat niet tot de headlines behoort. Die heb ik geprobeerd weg te werken maar het is me niet gelukt, omdat de tekst tussen de tags <font>...</font><br> staat en de links ook. Al het andere tekst wat niet tot de headlines behoort staat tussen <br><font>...</font><br>, die heb ik dus weggewerkt met [code:1:65c9ec1f53] $code = preg_replace('/<br><font size=[^>]*>.*?<br><\/font>/i', '', $code); [/code:1:65c9ec1f53] Maar de tekst tussen de eerste en de tweede headline kan ik niet wegwerken, omdat dan ook de links worden weggewerkt. Heeft er iemand hier een oplossing voor?
Link naar reactie
[quote:814179805e="teacher"]Los van het probleem wil ik je er wel graag op wijzen dat "deeplinken" en "content stelen" niet meer mag: http://www.emerce.com/archives/nieuws/Regelgeving/14263.html grtzz t.[/quote:814179805e] Ook als de links verwijzen naar de site die de content aanbiedt? het script: [code:1:814179805e] <? $fd= fread(fopen("http://www.fanatik.com.tr/", "r"), 100000); $start= strpos($fd, "<!-- içerik baþladý -->"); $finish= strpos($fd, '<br> <table width="100%" border="0" cellpadding="0" cellspacing="4"> <tr> <td>'); $length= $finish-$start; $code=Substr($fd, $start, $length); $code = preg_replace('/<br><font size=[^>]*>.*?<br><\/font>/i', '', $code); $code = eregi_replace( "<font[^>]*>", "", $code ); // Fonts $code = eregi_replace( "</font>", "", $code ); $code = preg_replace('/<IMG SRC=[^>]*>.*?/i', '', $code); $code = eregi_replace( "<table[^>]*>", "", $code ); // Table Codes $code = preg_replace( "</table>", "", $code ); $code = eregi_replace( "<tr[^>]*>", "<li>", $code ); // Table Codes $code = eregi_replace( "<td[^>]*>", "", $code ); $code = preg_replace( "</tr>", "", $code ); $code = preg_replace( "</td>", "", $code ); $code = eregi_replace( "<li>", "", $code ); $code = eregi_replace( "<b>", "", $code ); $code = eregi_replace( "</b>", "", $code ); $code = eregi_replace( "<>", "", $code ); $code = eregi_replace( "a href=",'a target=\"_blank\" href=http://www.fanatik.com.tr', "$code"); // Adds Absolute URL echo $code; ?> [/code:1:814179805e] wat ik dan terugkrijg is: [code:1:814179805e] <a target=\"_blank\" href=http://www.fanatik.com.tr/haber.asp?PID=279&HID=11&haberID=70781>headline1</a><br> [b] tekst bla bla [/b] <br> <a target=\"_blank\" href=http://www.fanatik.com.tr/haber.asp?PID=327&HID=11&haberID=70783>headline2</a> <a target=\"_blank\" href=http://www.fanatik.com.tr/haber.asp?PID=327&HID=11&haberID=70783>headline3</a> [/code:1:814179805e] het vetgedrukte gedeelte wil ik dus weghebben. Is er trouwens een mogelijkheid om alleen alle links te pakken?
Link naar reactie

Om een reactie te plaatsen, moet je eerst inloggen

Gast
Reageer op dit topic

×   Geplakt als verrijkte tekst.   Herstel opmaak

  Er zijn maximaal 75 emoji toegestaan.

×   Je link werd automatisch ingevoegd.   Tonen als normale link

×   Je vorige inhoud werd hersteld.   Leeg de tekstverwerker

×   Je kunt afbeeldingen niet direct plakken. Upload of voeg afbeeldingen vanaf een URL in

  • Populaire leden

    Er is nog niemand die deze week reputatie heeft ontvangen.

  • Leden

    Geen leden om te tonen

×
×
  • Nieuwe aanmaken...