Merge branch 'master' into media-rss
This commit is contained in:
commit
2633516df8
6 changed files with 516 additions and 0 deletions
70
bridges/FrandroidBridge.php
Normal file
70
bridges/FrandroidBridge.php
Normal file
|
@ -0,0 +1,70 @@
|
||||||
|
<?php
|
||||||
|
/**
|
||||||
|
* RssBridgeFrandroid
|
||||||
|
* Returns the RSS feed from Frandroid (full text articles)
|
||||||
|
*
|
||||||
|
* @name Frandroid
|
||||||
|
* @homepage http://www.frandroid.com/
|
||||||
|
* @description Returns the RSS feed from Frandroid (full text articles)
|
||||||
|
* @maintainer Daiyousei
|
||||||
|
* @update 2015-03-05
|
||||||
|
*/
|
||||||
|
class FrandroidBridge extends BridgeAbstract
|
||||||
|
{
|
||||||
|
|
||||||
|
public function collectData(array $param)
|
||||||
|
{
|
||||||
|
|
||||||
|
function FrandroidStripCDATA($string)
|
||||||
|
{
|
||||||
|
$string = str_replace('<![CDATA[', '', $string);
|
||||||
|
$string = str_replace(']]>', '', $string);
|
||||||
|
return $string;
|
||||||
|
}
|
||||||
|
function FrandroidExtractContent($url)
|
||||||
|
{
|
||||||
|
$html2 = file_get_html($url);
|
||||||
|
$html3 = $html2->find('div.post-content', 0);
|
||||||
|
$html3->find('div.no-sidebar-ad-top', 0)->outertext = '';
|
||||||
|
$ret = $html3->find('div.shortcode-container');
|
||||||
|
foreach ($ret as $value) {
|
||||||
|
$value->outertext = '';
|
||||||
|
}
|
||||||
|
|
||||||
|
$html3->find('div#hrr-link', 0)->outertext = '';
|
||||||
|
$text = $html3->innertext;
|
||||||
|
$text = strip_tags($text, '<h1><span><h2><p><b><a><blockquote><img><em><ul><ol>');
|
||||||
|
return $text;
|
||||||
|
}
|
||||||
|
$html = file_get_html('http://feeds.feedburner.com/Frandroid?format=xml') or $this->returnError('Could not request Frandroid.', 404);
|
||||||
|
$limit = 0;
|
||||||
|
|
||||||
|
foreach ($html->find('item') as $element) {
|
||||||
|
if ($limit < 5) {
|
||||||
|
$item = new \Item();
|
||||||
|
$item->title = FrandroidStripCDATA($element->find('title', 0)->innertext);
|
||||||
|
$item->uri = FrandroidStripCDATA($element->find('guid', 0)->plaintext);
|
||||||
|
$item->timestamp = strtotime($element->find('pubDate', 0)->plaintext);
|
||||||
|
$item->content = FrandroidExtractContent($item->uri);
|
||||||
|
$this->items[] = $item;
|
||||||
|
$limit++;
|
||||||
|
}
|
||||||
|
}
|
||||||
|
|
||||||
|
}
|
||||||
|
|
||||||
|
public function getName()
|
||||||
|
{
|
||||||
|
return 'Frandroid';
|
||||||
|
}
|
||||||
|
|
||||||
|
public function getURI()
|
||||||
|
{
|
||||||
|
return 'http://www.frandroid.com/';
|
||||||
|
}
|
||||||
|
|
||||||
|
public function getCacheDuration()
|
||||||
|
{
|
||||||
|
return 300; // 5min
|
||||||
|
}
|
||||||
|
}
|
86
bridges/GiphyBridge.php
Normal file
86
bridges/GiphyBridge.php
Normal file
|
@ -0,0 +1,86 @@
|
||||||
|
<?php
|
||||||
|
/**
|
||||||
|
* RssBridgeGiphy
|
||||||
|
* Based on https://github.com/mitsukarenai/twitterbridge-noapi
|
||||||
|
* 2014-12-05
|
||||||
|
*
|
||||||
|
* @name Giphy Bridge
|
||||||
|
* @homepage http://giphy.com/
|
||||||
|
* @description Bridge for giphy.com
|
||||||
|
* @maintainer kraoc
|
||||||
|
* @use1(s="search tag")
|
||||||
|
* @use2(n="max number of returned items")
|
||||||
|
*/
|
||||||
|
|
||||||
|
define(GIPHY_LIMIT, 10);
|
||||||
|
|
||||||
|
class GiphyBridge extends BridgeAbstract{
|
||||||
|
|
||||||
|
public function collectData(array $param){
|
||||||
|
$html = '';
|
||||||
|
$base_url = 'http://giphy.com';
|
||||||
|
if (isset($param['s'])) { /* keyword search mode */
|
||||||
|
$html = file_get_html($base_url.'/search/'.urlencode($param['s'].'/')) or $this->returnError('No results for this query.', 404);
|
||||||
|
}
|
||||||
|
else {
|
||||||
|
$this->returnError('You must specify a search worf (?s=...).', 400);
|
||||||
|
}
|
||||||
|
|
||||||
|
$max = GIPHY_LIMIT;
|
||||||
|
if (isset($param['n'])) {
|
||||||
|
$max = (integer) $param['n'];
|
||||||
|
}
|
||||||
|
|
||||||
|
$limit = 0;
|
||||||
|
$kw = urlencode($param['s']);
|
||||||
|
foreach($html->find('div.hoverable-gif') as $entry) {
|
||||||
|
if($limit < $max) {
|
||||||
|
$node = $entry->first_child();
|
||||||
|
$href = $node->getAttribute('href');
|
||||||
|
|
||||||
|
$html2 = file_get_html($base_url . $href) or $this->returnError('No results for this query.', 404);
|
||||||
|
$figure = $html2->getElementByTagName('figure');
|
||||||
|
$img = $figure->firstChild();
|
||||||
|
$caption = $figure->lastChild();
|
||||||
|
|
||||||
|
$item = new \Item();
|
||||||
|
$item->id = $img->getAttribute('data-gif_id');
|
||||||
|
$item->uri = $img->getAttribute('data-bitly_gif_url');
|
||||||
|
$item->username = 'Giphy - '.ucfirst($kw);
|
||||||
|
$title = $caption->innertext();
|
||||||
|
$title = preg_replace('/\s+/', ' ',$title);
|
||||||
|
$title = str_replace('animated GIF', '', $title);
|
||||||
|
$title = str_replace($kw, '', $title);
|
||||||
|
$title = preg_replace('/\s+/', ' ',$title);
|
||||||
|
$title = trim($title);
|
||||||
|
if (strlen($title) <= 0) {
|
||||||
|
$title = $item->id;
|
||||||
|
}
|
||||||
|
$item->title = trim($title);
|
||||||
|
$item->content =
|
||||||
|
'<a href="'.$item->uri.'">'
|
||||||
|
.'<img src="'.$img->getAttribute('src').'" width="'.$img->getAttribute('data-original-width').'" height="'.$img->getAttribute('data-original-height').'" />'
|
||||||
|
.'</a>';
|
||||||
|
|
||||||
|
$this->items[] = $item;
|
||||||
|
$limit++;
|
||||||
|
}
|
||||||
|
}
|
||||||
|
}
|
||||||
|
|
||||||
|
public function getName(){
|
||||||
|
return 'Giphy Bridge';
|
||||||
|
}
|
||||||
|
|
||||||
|
public function getURI(){
|
||||||
|
return 'http://giphy.com/';
|
||||||
|
}
|
||||||
|
|
||||||
|
public function getCacheDuration(){
|
||||||
|
return 300; // 5 minutes
|
||||||
|
}
|
||||||
|
|
||||||
|
public function getUsername(){
|
||||||
|
return $this->items[0]->username;
|
||||||
|
}
|
||||||
|
}
|
54
bridges/LolibooruBridge.php
Normal file
54
bridges/LolibooruBridge.php
Normal file
|
@ -0,0 +1,54 @@
|
||||||
|
<?php
|
||||||
|
/**
|
||||||
|
* RssBridgeLolibooru
|
||||||
|
* Returns images from given page and tags
|
||||||
|
*
|
||||||
|
* @name Lolibooru
|
||||||
|
* @homepage http://lolibooru.moe/
|
||||||
|
* @description Returns images from given page and tags
|
||||||
|
* @maintainer mitsukarenai
|
||||||
|
* @update 2015-03-21
|
||||||
|
* @use1(p="page", t="tags")
|
||||||
|
*/
|
||||||
|
class LolibooruBridge extends BridgeAbstract{
|
||||||
|
|
||||||
|
public function collectData(array $param){
|
||||||
|
$page = 1; $tags = '';
|
||||||
|
if (isset($param['p'])) {
|
||||||
|
$page = (int)preg_replace("/[^0-9]/",'', $param['p']);
|
||||||
|
}
|
||||||
|
if (isset($param['t'])) {
|
||||||
|
$tags = urlencode($param['t']);
|
||||||
|
}
|
||||||
|
$html = file_get_html("http://lolibooru.moe/post?page=$page&tags=$tags") or $this->returnError('Could not request Lolibooru.', 404);
|
||||||
|
$input_json = explode('Post.register(', $html);
|
||||||
|
foreach($input_json as $element)
|
||||||
|
$data[] = preg_replace('/}\)(.*)/', '}', $element);
|
||||||
|
unset($data[0]);
|
||||||
|
|
||||||
|
foreach($data as $datai) {
|
||||||
|
$json = json_decode($datai, TRUE);
|
||||||
|
$item = new \Item();
|
||||||
|
$item->uri = 'http://lolibooru.moe/post/show/'.$json['id'];
|
||||||
|
$item->postid = $json['id'];
|
||||||
|
$item->timestamp = $json['created_at'];
|
||||||
|
$item->imageUri = $json['file_url'];
|
||||||
|
$item->thumbnailUri = $json['preview_url'];
|
||||||
|
$item->title = 'Lolibooru | '.$json['id'];
|
||||||
|
$item->content = '<a href="' . $item->imageUri . '"><img src="' . $item->thumbnailUri . '" /></a><br>Tags: '.$json['tags'];
|
||||||
|
$this->items[] = $item;
|
||||||
|
}
|
||||||
|
}
|
||||||
|
|
||||||
|
public function getName(){
|
||||||
|
return 'Lolibooru';
|
||||||
|
}
|
||||||
|
|
||||||
|
public function getURI(){
|
||||||
|
return 'http://lolibooru.moe/post';
|
||||||
|
}
|
||||||
|
|
||||||
|
public function getCacheDuration(){
|
||||||
|
return 1800; // 30 minutes
|
||||||
|
}
|
||||||
|
}
|
84
bridges/ParuVenduImmoBridge.php
Normal file
84
bridges/ParuVenduImmoBridge.php
Normal file
|
@ -0,0 +1,84 @@
|
||||||
|
<?php
|
||||||
|
/**
|
||||||
|
* RssBridge Paru Vendu Immo
|
||||||
|
* Retrieve lastest documents from http://www.paruvendu.fr/immobilier/.
|
||||||
|
*
|
||||||
|
* @name Paru Vendu Immobilier
|
||||||
|
* @homepage http://www.paruvendu.fr/immobilier/
|
||||||
|
* @description Returns the ads from the first page of search result.
|
||||||
|
* @maintainer polo2ro
|
||||||
|
* @update 2015-02-02
|
||||||
|
* @use1(minarea="Min surface m²",maxprice="Max price",pa="Country code (ex: FR)",lo="department numbers or postal codes, comma-separated")
|
||||||
|
*/
|
||||||
|
class ParuVenduImmoBridge extends BridgeAbstract
|
||||||
|
{
|
||||||
|
private $request = '';
|
||||||
|
|
||||||
|
public function collectData(array $param)
|
||||||
|
{
|
||||||
|
$html = '';
|
||||||
|
$num = 20;
|
||||||
|
$appartment = '&tbApp=1&tbDup=1&tbChb=1&tbLof=1&tbAtl=1&tbPla=1';
|
||||||
|
$maison = '&tbMai=1&tbVil=1&tbCha=1&tbPro=1&tbHot=1&tbMou=1&tbFer=1';
|
||||||
|
$link = $this->getURI().'/immobilier/annonceimmofo/liste/listeAnnonces?tt=1'.$appartment.$maison;
|
||||||
|
|
||||||
|
if (isset($param['minarea'])) {
|
||||||
|
$this->request .= ' '.$param['minarea'].' m2';
|
||||||
|
$link .= '&sur0='.urlencode($param['minarea']);
|
||||||
|
}
|
||||||
|
|
||||||
|
if (isset($param['maxprice'])) {
|
||||||
|
$link .= '&px1='.urlencode($param['maxprice']);
|
||||||
|
}
|
||||||
|
|
||||||
|
if (isset($param['pa'])) {
|
||||||
|
$link .= '&pa='.urlencode($param['pa']);
|
||||||
|
}
|
||||||
|
|
||||||
|
if (isset($param['lo'])) {
|
||||||
|
$this->request .= ' In: '.$param['lo'];
|
||||||
|
$link .= '&lo='.urlencode($param['lo']);
|
||||||
|
}
|
||||||
|
|
||||||
|
$html = file_get_html($link) or $this->returnError('Could not request paruvendu.', 404);
|
||||||
|
|
||||||
|
|
||||||
|
foreach($html->find('div.annonce a') as $element) {
|
||||||
|
|
||||||
|
if (!$element->title) {
|
||||||
|
continue;
|
||||||
|
}
|
||||||
|
|
||||||
|
$img ='';
|
||||||
|
foreach($element->find('span.img img') as $img) {
|
||||||
|
if ($img->original) {
|
||||||
|
$img = '<img src="'.$img->original.'" />';
|
||||||
|
}
|
||||||
|
}
|
||||||
|
|
||||||
|
$desc = $element->find('span.desc')[0]->innertext;
|
||||||
|
$desc = str_replace("voir l'annonce", '', $desc);
|
||||||
|
|
||||||
|
$price = $element->find('span.price')[0]->innertext;
|
||||||
|
|
||||||
|
$item = new \Item();
|
||||||
|
$item->uri = $this->getURI().$element->href;
|
||||||
|
$item->title = $element->title;
|
||||||
|
$item->content = $img.$desc.$price;
|
||||||
|
$this->items[] = $item;
|
||||||
|
|
||||||
|
}
|
||||||
|
}
|
||||||
|
|
||||||
|
public function getName(){
|
||||||
|
return 'Paru Vendu Immobilier'.$this->request;
|
||||||
|
}
|
||||||
|
|
||||||
|
public function getURI(){
|
||||||
|
return 'http://www.paruvendu.fr';
|
||||||
|
}
|
||||||
|
|
||||||
|
public function getCacheDuration(){
|
||||||
|
return 10800; // 3 hours
|
||||||
|
}
|
||||||
|
}
|
70
bridges/TwitterBridgeClean.php
Normal file
70
bridges/TwitterBridgeClean.php
Normal file
|
@ -0,0 +1,70 @@
|
||||||
|
<?php
|
||||||
|
/**
|
||||||
|
* RssBridgeTwitterClean
|
||||||
|
* Based on https://github.com/mitsukarenai/twitterbridge-noapi
|
||||||
|
*
|
||||||
|
* @name Twitter Bridge Clean
|
||||||
|
* @homepage http://twitter.com/
|
||||||
|
* @description Returns user timelines without username in title or search results for keywords/hashtags (without using their API).
|
||||||
|
* @maintainer vinzv
|
||||||
|
* @update 2015-03-07
|
||||||
|
* @use1(q="keyword or #hashtag")
|
||||||
|
* @use2(u="username")
|
||||||
|
*/
|
||||||
|
class TwitterBridgeClean extends BridgeAbstract{
|
||||||
|
|
||||||
|
private $request;
|
||||||
|
|
||||||
|
public function collectData(array $param){
|
||||||
|
$html = '';
|
||||||
|
if (isset($param['q'])) { /* keyword search mode */
|
||||||
|
$this->request = $param['q'];
|
||||||
|
$html = file_get_html('http://twitter.com/search/realtime?q='.urlencode($this->request).'+include:retweets&src=typd') or $this->returnError('No results for this query.', 404);
|
||||||
|
}
|
||||||
|
elseif (isset($param['u'])) { /* user timeline mode */
|
||||||
|
$this->request = $param['u'];
|
||||||
|
$html = file_get_html('http://twitter.com/'.urlencode($this->request)) or $this->returnError('Requested username can\'t be found.', 404);
|
||||||
|
}
|
||||||
|
else {
|
||||||
|
$this->returnError('You must specify a keyword (?q=...) or a Twitter username (?u=...).', 400);
|
||||||
|
}
|
||||||
|
|
||||||
|
foreach($html->find('div.js-stream-tweet') as $tweet) {
|
||||||
|
$item = new \Item();
|
||||||
|
$item->username = $tweet->getAttribute('data-screen-name'); // extract username and sanitize
|
||||||
|
$item->fullname = $tweet->getAttribute('data-name'); // extract fullname (pseudonym)
|
||||||
|
$item->avatar = $tweet->find('img', 0)->src; // get avatar link
|
||||||
|
$item->id = $tweet->getAttribute('data-tweet-id'); // get TweetID
|
||||||
|
$item->uri = 'https://twitter.com'.$tweet->find('a.js-permalink', 0)->getAttribute('href'); // get tweet link
|
||||||
|
$item->timestamp = $tweet->find('span.js-short-timestamp', 0)->getAttribute('data-time'); // extract tweet timestamp
|
||||||
|
// processing content links
|
||||||
|
foreach($tweet->find('a') as $link) {
|
||||||
|
if($link->hasAttribute('data-expanded-url') ) {
|
||||||
|
$link->href = $link->getAttribute('data-expanded-url');
|
||||||
|
}
|
||||||
|
$link->removeAttribute('data-expanded-url');
|
||||||
|
$link->removeAttribute('data-query-source');
|
||||||
|
$link->removeAttribute('rel');
|
||||||
|
$link->removeAttribute('class');
|
||||||
|
$link->removeAttribute('target');
|
||||||
|
$link->removeAttribute('title');
|
||||||
|
$link->removeAttribute('dir');
|
||||||
|
}
|
||||||
|
$item->content = str_replace('pic.twitter.com', 'https://pic.twitter.com', strip_tags($tweet->find('p.js-tweet-text', 0)->innertext)); // extract tweet text
|
||||||
|
$item->title = $item->content;
|
||||||
|
$this->items[] = $item;
|
||||||
|
}
|
||||||
|
}
|
||||||
|
|
||||||
|
public function getName(){
|
||||||
|
return (!empty($this->request) ? $this->request .' - ' : '') .'Twitter Bridge';
|
||||||
|
}
|
||||||
|
|
||||||
|
public function getURI(){
|
||||||
|
return 'http://twitter.com';
|
||||||
|
}
|
||||||
|
|
||||||
|
public function getCacheDuration(){
|
||||||
|
return 300; // 5 minutes
|
||||||
|
}
|
||||||
|
}
|
152
bridges/TwitterBridgeTweaked.php
Normal file
152
bridges/TwitterBridgeTweaked.php
Normal file
|
@ -0,0 +1,152 @@
|
||||||
|
<?php
|
||||||
|
/**
|
||||||
|
* RssBridgeTwitter
|
||||||
|
* Based on https://github.com/mitsukarenai/twitterbridge-noapi
|
||||||
|
* 2014-12-05
|
||||||
|
*
|
||||||
|
* @name Twitter Bridge Tweaked
|
||||||
|
* @homepage https://twitter.com/
|
||||||
|
* @description (same as Twitter Bridge Extended, but with cleaned title & content)
|
||||||
|
* @maintainer kraoc
|
||||||
|
* @use1(q="keyword or hashtag")
|
||||||
|
* @use2(u="username")
|
||||||
|
*/
|
||||||
|
|
||||||
|
class TwitterBridgeTweaked extends BridgeAbstract{
|
||||||
|
|
||||||
|
private function containsTLD($string) {
|
||||||
|
preg_match(
|
||||||
|
"/(AC($|\/)|\.AD($|\/)|\.AE($|\/)|\.AERO($|\/)|\.AF($|\/)|\.AG($|\/)|\.AI($|\/)|\.AL($|\/)|\.AM($|\/)|\.AN($|\/)|\.AO($|\/)|\.AQ($|\/)|\.AR($|\/)|\.ARPA($|\/)|\.AS($|\/)|\.ASIA($|\/)|\.AT($|\/)|\.AU($|\/)|\.AW($|\/)|\.AX($|\/)|\.AZ($|\/)|\.BA($|\/)|\.BB($|\/)|\.BD($|\/)|\.BE($|\/)|\.BF($|\/)|\.BG($|\/)|\.BH($|\/)|\.BI($|\/)|\.BIZ($|\/)|\.BJ($|\/)|\.BM($|\/)|\.BN($|\/)|\.BO($|\/)|\.BR($|\/)|\.BS($|\/)|\.BT($|\/)|\.BV($|\/)|\.BW($|\/)|\.BY($|\/)|\.BZ($|\/)|\.CA($|\/)|\.CAT($|\/)|\.CC($|\/)|\.CD($|\/)|\.CF($|\/)|\.CG($|\/)|\.CH($|\/)|\.CI($|\/)|\.CK($|\/)|\.CL($|\/)|\.CM($|\/)|\.CN($|\/)|\.CO($|\/)|\.COM($|\/)|\.COOP($|\/)|\.CR($|\/)|\.CU($|\/)|\.CV($|\/)|\.CX($|\/)|\.CY($|\/)|\.CZ($|\/)|\.DE($|\/)|\.DJ($|\/)|\.DK($|\/)|\.DM($|\/)|\.DO($|\/)|\.DZ($|\/)|\.EC($|\/)|\.EDU($|\/)|\.EE($|\/)|\.EG($|\/)|\.ER($|\/)|\.ES($|\/)|\.ET($|\/)|\.EU($|\/)|\.FI($|\/)|\.FJ($|\/)|\.FK($|\/)|\.FM($|\/)|\.FO($|\/)|\.FR($|\/)|\.GA($|\/)|\.GB($|\/)|\.GD($|\/)|\.GE($|\/)|\.GF($|\/)|\.GG($|\/)|\.GH($|\/)|\.GI($|\/)|\.GL($|\/)|\.GM($|\/)|\.GN($|\/)|\.GOV($|\/)|\.GP($|\/)|\.GQ($|\/)|\.GR($|\/)|\.GS($|\/)|\.GT($|\/)|\.GU($|\/)|\.GW($|\/)|\.GY($|\/)|\.HK($|\/)|\.HM($|\/)|\.HN($|\/)|\.HR($|\/)|\.HT($|\/)|\.HU($|\/)|\.ID($|\/)|\.IE($|\/)|\.IL($|\/)|\.IM($|\/)|\.IN($|\/)|\.INFO($|\/)|\.INT($|\/)|\.IO($|\/)|\.IQ($|\/)|\.IR($|\/)|\.IS($|\/)|\.IT($|\/)|\.JE($|\/)|\.JM($|\/)|\.JO($|\/)|\.JOBS($|\/)|\.JP($|\/)|\.KE($|\/)|\.KG($|\/)|\.KH($|\/)|\.KI($|\/)|\.KM($|\/)|\.KN($|\/)|\.KP($|\/)|\.KR($|\/)|\.KW($|\/)|\.KY($|\/)|\.KZ($|\/)|\.LA($|\/)|\.LB($|\/)|\.LC($|\/)|\.LI($|\/)|\.LK($|\/)|\.LR($|\/)|\.LS($|\/)|\.LT($|\/)|\.LU($|\/)|\.LV($|\/)|\.LY($|\/)|\.MA($|\/)|\.MC($|\/)|\.MD($|\/)|\.ME($|\/)|\.MG($|\/)|\.MH($|\/)|\.MIL($|\/)|\.MK($|\/)|\.ML($|\/)|\.MM($|\/)|\.MN($|\/)|\.MO($|\/)|\.MOBI($|\/)|\.MP($|\/)|\.MQ($|\/)|\.MR($|\/)|\.MS($|\/)|\.MT($|\/)|\.MU($|\/)|\.MUSEUM($|\/)|\.MV($|\/)|\.MW($|\/)|\.MX($|\/)|\.MY($|\/)|\.MZ($|\/)|\.NA($|\/)|\.NAME($|\/)|\.NC($|\/)|\.NE($|\/)|\.NET($|\/)|\.NF($|\/)|\.NG($|\/)|\.NI($|\/)|\.NL($|\/)|\.NO($|\/)|\.NP($|\/)|\.NR($|\/)|\.NU($|\/)|\.NZ($|\/)|\.OM($|\/)|\.ORG($|\/)|\.PA($|\/)|\.PE($|\/)|\.PF($|\/)|\.PG($|\/)|\.PH($|\/)|\.PK($|\/)|\.PL($|\/)|\.PM($|\/)|\.PN($|\/)|\.PR($|\/)|\.PRO($|\/)|\.PS($|\/)|\.PT($|\/)|\.PW($|\/)|\.PY($|\/)|\.QA($|\/)|\.RE($|\/)|\.RO($|\/)|\.RS($|\/)|\.RU($|\/)|\.RW($|\/)|\.SA($|\/)|\.SB($|\/)|\.SC($|\/)|\.SD($|\/)|\.SE($|\/)|\.SG($|\/)|\.SH($|\/)|\.SI($|\/)|\.SJ($|\/)|\.SK($|\/)|\.SL($|\/)|\.SM($|\/)|\.SN($|\/)|\.SO($|\/)|\.SR($|\/)|\.ST($|\/)|\.SU($|\/)|\.SV($|\/)|\.SY($|\/)|\.SZ($|\/)|\.TC($|\/)|\.TD($|\/)|\.TEL($|\/)|\.TF($|\/)|\.TG($|\/)|\.TH($|\/)|\.TJ($|\/)|\.TK($|\/)|\.TL($|\/)|\.TM($|\/)|\.TN($|\/)|\.TO($|\/)|\.TP($|\/)|\.TR($|\/)|\.TRAVEL($|\/)|\.TT($|\/)|\.TV($|\/)|\.TW($|\/)|\.TZ($|\/)|\.UA($|\/)|\.UG($|\/)|\.UK($|\/)|\.US($|\/)|\.UY($|\/)|\.UZ($|\/)|\.VA($|\/)|\.VC($|\/)|\.VE($|\/)|\.VG($|\/)|\.VI($|\/)|\.VN($|\/)|\.VU($|\/)|\.WF($|\/)|\.WS($|\/)|\.XN--0ZWM56D($|\/)|\.XN--11B5BS3A9AJ6G($|\/)|\.XN--80AKHBYKNJ4F($|\/)|\.XN--9T4B11YI5A($|\/)|\.XN--DEBA0AD($|\/)|\.XN--G6W251D($|\/)|\.XN--HGBK6AJ7F53BBA($|\/)|\.XN--HLCJ6AYA9ESC7A($|\/)|\.XN--JXALPDLP($|\/)|\.XN--KGBECHTV($|\/)|\.XN--ZCKZAH($|\/)|\.YE($|\/)|\.YT($|\/)|\.YU($|\/)|\.ZA($|\/)|\.ZM($|\/)|\.ZW)/i",
|
||||||
|
$string,
|
||||||
|
$M
|
||||||
|
);
|
||||||
|
$has_tld = (count($M) > 0) ? true : false;
|
||||||
|
return $has_tld;
|
||||||
|
}
|
||||||
|
private function cleaner($url) {
|
||||||
|
$U = explode(' ', $url);
|
||||||
|
$W =array();
|
||||||
|
foreach ($U as $k => $u) {
|
||||||
|
if (stristr($u,".")) { //only preg_match if there is a dot
|
||||||
|
if ($this->containsTLD($u) === true) {
|
||||||
|
unset($U[$k]);
|
||||||
|
return $this->cleaner( implode(' ', $U) );
|
||||||
|
}
|
||||||
|
}
|
||||||
|
}
|
||||||
|
return implode(' ', $U);
|
||||||
|
}
|
||||||
|
|
||||||
|
// (c) Kraoc / urlclean
|
||||||
|
// https://github.com/kraoc/Leed-market/blob/master/urlclean/urlclean.plugin.disabled.php
|
||||||
|
private function resolve_url($link) {
|
||||||
|
// fallback to crawl to real url (slowest method and unsecure to privacy)
|
||||||
|
if (function_exists('curl_init') && !ini_get('safe_mode')) {
|
||||||
|
curl_setopt($ch, CURLOPT_USERAGENT, $ua);
|
||||||
|
curl_setopt($ch, CURLOPT_URL, $link);
|
||||||
|
curl_setopt($ch, CURLOPT_HEADER, true);
|
||||||
|
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
|
||||||
|
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
|
||||||
|
// >>> anonimization
|
||||||
|
curl_setopt($ch, CURLOPT_COOKIESESSION, true);
|
||||||
|
curl_setopt($ch, CURLOPT_REFERER, '');
|
||||||
|
// <<< anonimization
|
||||||
|
$ch = curl_init();
|
||||||
|
$ua = 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.16 (KHTML, like Gecko) Chrome/24.0.1304.0 Safari/537.16';
|
||||||
|
$a = curl_exec($ch);
|
||||||
|
$link = curl_getinfo($ch, CURLINFO_EFFECTIVE_URL);
|
||||||
|
}
|
||||||
|
|
||||||
|
$link = preg_replace("/[&#?]xtor=(.)+/", "", $link); // remove: xtor
|
||||||
|
$link = preg_replace("/utm_([^&#]|(&))+&*/", "", $link); // remove: utm_
|
||||||
|
|
||||||
|
// cleanup end of url
|
||||||
|
$link = preg_replace("/\?&/", "", $link);
|
||||||
|
if (isset($link[strlen($link) -1])){
|
||||||
|
if ($link[strlen($link) -1] == '?')
|
||||||
|
$link = substr($link, 0, strlen($link) -1);
|
||||||
|
}
|
||||||
|
|
||||||
|
return $link;
|
||||||
|
}
|
||||||
|
|
||||||
|
public function collectData(array $param){
|
||||||
|
$html = '';
|
||||||
|
if (isset($param['q'])) { /* keyword search mode */
|
||||||
|
$html = file_get_html('https://twitter.com/search/realtime?q='.urlencode($param['q']).'+include:retweets&src=typd') or $this->returnError('No results for this query.', 404);
|
||||||
|
}
|
||||||
|
elseif (isset($param['u'])) { /* user timeline mode */
|
||||||
|
$html = file_get_html('https://twitter.com/'.urlencode($param['u']).'/with_replies') or $this->returnError('Requested username can\'t be found.', 404);
|
||||||
|
}
|
||||||
|
else {
|
||||||
|
$this->returnError('You must specify a keyword (?q=...) or a Twitter username (?u=...).', 400);
|
||||||
|
}
|
||||||
|
|
||||||
|
foreach($html->find('div.js-stream-tweet') as $tweet) {
|
||||||
|
$item = new \Item();
|
||||||
|
// extract username and sanitize
|
||||||
|
$item->username = $tweet->getAttribute('data-screen-name');
|
||||||
|
// extract fullname (pseudonym)
|
||||||
|
$item->fullname = $tweet->getAttribute('data-name');
|
||||||
|
// get avatar link
|
||||||
|
$item->avatar = $tweet->find('img', 0)->src;
|
||||||
|
// get TweetID
|
||||||
|
$item->id = $tweet->getAttribute('data-tweet-id');
|
||||||
|
// get tweet link
|
||||||
|
$item->uri = 'https://twitter.com'.$tweet->find('a.js-permalink', 0)->getAttribute('href');
|
||||||
|
// extract tweet timestamp
|
||||||
|
$item->timestamp = $tweet->find('span.js-short-timestamp', 0)->getAttribute('data-time');
|
||||||
|
// extract plaintext
|
||||||
|
$item->content_simple = str_replace('href="/', 'href="https://twitter.com/', html_entity_decode(strip_tags($tweet->find('p.js-tweet-text', 0)->innertext, '<a>')));
|
||||||
|
|
||||||
|
// processing content links
|
||||||
|
foreach($tweet->find('a') as $link) {
|
||||||
|
if($link->hasAttribute('data-expanded-url') ) {
|
||||||
|
$link->href = $link->getAttribute('data-expanded-url');
|
||||||
|
}
|
||||||
|
$link->removeAttribute('data-expanded-url');
|
||||||
|
$link->removeAttribute('data-query-source');
|
||||||
|
$link->removeAttribute('rel');
|
||||||
|
$link->removeAttribute('class');
|
||||||
|
$link->removeAttribute('target');
|
||||||
|
$link->removeAttribute('title');
|
||||||
|
}
|
||||||
|
|
||||||
|
// get tweet text
|
||||||
|
$item->content = '<a href="https://twitter.com/'.$item->username.'"><img style="align:top;width:75px;" alt="avatar" src="'.$item->avatar.'" />'.$item->username.'</a> '.$item->fullname.'<br/><blockquote>'.str_replace('href="/', 'href="https://twitter.com/', $tweet->find('p.js-tweet-text', 0)->innertext).'</blockquote>';
|
||||||
|
// generate the title
|
||||||
|
// $item->title = $item->fullname . ' (@'. $item->username . ') | ' . $item->content_simple;
|
||||||
|
$item->title = $item->content_simple;
|
||||||
|
$item->title = preg_replace('|https?://www\.[a-z\.0-9]+|i', '', $item->title); // remove http(s) links
|
||||||
|
$item->title = preg_replace('|www\.[a-z\.0-9]+|i', '', $item->title); // remove www. links
|
||||||
|
$item->title = $this->cleaner($item->title); // remove all remaining links
|
||||||
|
$item->title = trim($item->title); // remove extra spaces at beginning and end
|
||||||
|
|
||||||
|
// convert all content links to real ones
|
||||||
|
$regex = "/(http|https|ftp|ftps)\:\/\/[a-zA-Z0-9\-\.]+\.[a-zA-Z]{2,3}(\/\S*)?/";
|
||||||
|
$item->content = preg_replace_callback($regex, function($url) {
|
||||||
|
// do stuff with $url[0] here
|
||||||
|
return $this->resolve_url($url[0]);
|
||||||
|
}, $item->content);
|
||||||
|
|
||||||
|
// put out
|
||||||
|
$this->items[] = $item;
|
||||||
|
}
|
||||||
|
}
|
||||||
|
|
||||||
|
public function getName(){
|
||||||
|
return 'Twitter Bridge Tweaked';
|
||||||
|
}
|
||||||
|
|
||||||
|
public function getURI(){
|
||||||
|
return 'http://twitter.com';
|
||||||
|
}
|
||||||
|
|
||||||
|
public function getCacheDuration(){
|
||||||
|
return 300; // 5 minutes
|
||||||
|
}
|
||||||
|
|
||||||
|
public function getUsername(){
|
||||||
|
return $this->items[0]->username;
|
||||||
|
}
|
||||||
|
}
|
Loading…
Reference in a new issue