crawler.php 22 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300301302303304305306307308309310311312313314315316317318319320321322323324325326327328329330331332333334335336337338339340341342343344345346347348349350351352353354355356357358359360361362363364365366367368369370371372373374375376377378379380381382383384385386387388389390391392393394395396397398399400401402403404405406407408409410411412413414415416417418419420421422423424425426427428429430431432433434435436437438439440441442443444445446447448449450451452453454455456457458459460461462463464465466467468469470471472473474475476477478479480481482483484485486487488489490491492493494495496497498499500501502503504505506507508509510511512513514515516517518519520521522523524525526527528529530531532533534535536537538539540541542543544545546547548549550551552553554555556557558559560561562563564565566567568569570571572573574575576577578579580581582583584585586587588589590591592593594595596597598599600601602
  1. #!/bin/php
  2. <?php
  3. /*
  4. This program is free software: you can redistribute it and/or modify
  5. it under the terms of the GNU General Public License as published by
  6. the Free Software Foundation, either version 3 of the License, or
  7. (at your option) any later version.
  8. This program is distributed in the hope that it will be useful,
  9. but WITHOUT ANY WARRANTY; without even the implied warranty of
  10. MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
  11. GNU General Public License for more details.
  12. You should have received a copy of the GNU General Public License
  13. along with this program. If not, see <http://www.gnu.org/licenses/>.
  14. */
  15. define('N',"\n");
  16. $inifp=null;
  17. $opts=array(
  18. 'excludeafter'=>60*60*24*30,
  19. 'startinstancesfp'=>null,
  20. 'loadbiglist'=>true,
  21. 'onlinecheck'=>true,
  22. 'timeout'=>5,
  23. 'biglistfp'=>null,
  24. 'prodlistfp'=>null,
  25. 'blacklists'=>array(),
  26. 'whitelists'=>array()
  27. );
  28. $help='DESCRIZIONE
  29. Questo script parte da una selezione di istanze Mastodon («istanze
  30. di partenza»), ciascuna con una relativa lista di istanze da essa
  31. bloccate (che può anche essere omessa), e genera/aggiorna due liste:
  32. una che conterrà i dati di tutte le istanze di partenza e delle istanze
  33. ad esse note (comprese quelle bloccate, escluse soltanto quelle che non
  34. rispondono da un lasso di tempo impostabile), e una che conterrà solo
  35. le istanze non bloccate, la cui piattaforma è mastodon, che danno
  36. possibilità di iscrizione di nuovi utenti, il cui numero di utenti
  37. è compreso tra 11 e 30000, che conoscono almeno altre 500 istanze,
  38. che hanno avuto almeno 10 utenti attivi nell\'ultimo mese o, se questo
  39. dato non è disponibile, la cui media di toot per utente è maggiore
  40. o uguale a 10.
  41. SINTASSI
  42. crawler.php -i <file> | -s <file> -b <file> -p <file> [altre opzioni]
  43. OPZIONI
  44. -i, --inifp <file>
  45. Imposta un file di configurazione da cui leggere le opzioni.
  46. Il formato di questo file è semplice: una opzione per riga in formato
  47. <opzione>=<valore>, dove «opzione» è una qualsiasi tra le opzioni
  48. descritte qui nel suo formato lungo, tranne «inifp» e «help».
  49. Esempio: «startinstancesfp=startinstances.txt».
  50. Il file di configurazione può non contenere tutte le opzioni
  51. disponibili.
  52. Nota bene: tutte le opzioni impostate da riga di comando, che siano
  53. specificate prima o dopo questa, hanno la precedenza su quelle
  54. definite nel file di configurazione.
  55. -s, --startinstancesfp <file>
  56. DEVE essere specificata.
  57. Imposta il file da cui leggere le istanze di partenza e le relative
  58. liste di istanze sospese-silenziate.
  59. Il formato del file è questo: per ogni riga:
  60. <uri della istanza di partenza>|[uri della relativa lista di istanze
  61. bloccate]
  62. Ogni riga vuota o che cominci con il carattere «#» sarà ignorata.
  63. Il formato del file delle istanze bloccate è questo: per ogni riga:
  64. |<uri della istanza bloccata>|<data del blocco>|<tipo di blocco>|
  65. <motivazione pubblica del blocco>
  66. Esempio di <data del blocco>: «2019-12-11 18:44:06.710862»
  67. <tipo di blocco>: «0» per silenziata, «1» per sospesa, «2» per "solo
  68. file media e rapporti".
  69. -b, --biglistfp <file>
  70. DEVE essere specificata.
  71. Imposta il file da cui leggere le istanze già testate in passato
  72. (se il file esiste e non è specificata l’opzione «-d», vedi sotto)
  73. e in cui scrivere tutti i dati recuperabili delle istanze testate.
  74. -p, --prodlistfp <file>
  75. DEVE essere specificata.
  76. Imposta il file da cui leggere (se esiste) e in cui scrivere i dati
  77. relativi alle istanze corrispondenti ai criteri di selezione descritti
  78. nel paragrafo «DESCRIZIONE».
  79. -B, --blacklistfp
  80. Imposta un eventuale file di istanze bloccate aggiuntivo. Per il
  81. formato di questi file vedi sopra il paragrafo relativo nella
  82. descrizione dell\'opzione «-s, --startinstancesfp». Questa opzione può
  83. essere utilizzata più volte per specificare più file di istanze
  84. bloccate. Nel file di configurazione ha un formato particolare:
  85. «blacklistfp=file1[,file2[,file3[...]]]».
  86. -w, --whitelistfp
  87. Imposta un eventuale file di istanze da non scartare mai, nemmeno
  88. se fanno parte di una delle blacklist utilizzato o non corrispondono
  89. ai criteri di filtraggio. Il formato di questi file è semplice:
  90. un dominio per riga (le righe vuote o che cominciano con il carattere
  91. «#» vengono ignorate. Questa opzione può essere utilizzata più volte
  92. per specificare più whitelist. Nel file di configurazione
  93. ha un formato particolare: «whitelistfp=file1[,file2[,file3[...]]]».
  94. -t, --timeout <secondi>
  95. Imposta il timeout delle richieste http(s) in secondi.
  96. DEFAULT: '.$opts['timeout'].' secondi.
  97. -e, --excludeafter <tempo>
  98. Imposta il lasso di tempo dopo il quale un’istanza che non risponde
  99. viene eliminata dal listone di tutte le istanze testate.
  100. «tempo» deve essere specificato come un numero, seguito eventualmente
  101. da un carattere che ne indica l’unità di misura: «s» o nessun
  102. carattere per secondi, «m» per minuti, «o» per ore, «g» per giorni,
  103. «S» per settimane, «M» per mesi (30 giorni), «A» per anni.
  104. DEFAULT: 1 mese.
  105. -l, --loadbiglist <si|no>
  106. Dice al programma se caricare o meno il listone delle istanze già
  107. testate in passato.
  108. DEFAULT: «si».
  109. -c, --onlinecheck <si|no>
  110. Dice al programma se interrogare o meno le istanze note.
  111. Se impostato a «no» forza a «si» «loadbiglist» (vedi opzione
  112. precedente).
  113. DEFAULT: «si».
  114. -h, --help
  115. Mostra questo aiuto ed esce.
  116. This program comes with ABSOLUTELY NO WARRANTY; for details see
  117. the source.
  118. This is free software, and you are welcome to redistribute it under
  119. certain conditions; see <http://www.gnu.org/licenses/> for details.'.N;
  120. function mexit($msg,$code) {
  121. echo($msg);
  122. exit($code);
  123. }
  124. function tosec($str) {
  125. if (preg_match('/^([0-9]+)([smogSMA]?)/',$str,$buf)===1) {
  126. switch ($buf[2]) {
  127. case '':
  128. case 's':
  129. return($buf[1]);
  130. break;
  131. case 'm':
  132. return($buf[1]*60);
  133. break;
  134. case 'o':
  135. return($buf[1]*60*60);
  136. break;
  137. case 'g':
  138. return($buf[1]*60*60*24);
  139. break;
  140. case 'S':
  141. return($buf[1]*60*60*24*7);
  142. break;
  143. case 'M':
  144. return($buf[1]*60*60*24*30);
  145. break;
  146. case 'A':
  147. return($buf[1]*60*60*24*365);
  148. break;
  149. }
  150. } else {
  151. return(false);
  152. }
  153. }
  154. for ($i=1; $i<$argc; $i++) {
  155. if ($argv[$i]=='-i' || $argv[$i]=='--inifp') {
  156. if ($i+1>=$argc || $argv[$i+1]=='')
  157. mexit('L’opzione «'.$argv[$i].'» richiede di specificare un file di configurazione (usa «-h» per vedere la guida).'.N,1);
  158. $i++;
  159. $inifp=$argv[$i];
  160. }
  161. }
  162. if (!is_null($inifp)) {
  163. $buf=@parse_ini_file($inifp);
  164. if ($buf!==false) {
  165. foreach ($buf as $key=>$val) {
  166. if (array_key_exists($key,$opts)) {
  167. if ($key=='excludeafter') {
  168. $opts['excludeafter']=tosec($val);
  169. if ($opts['excludeafter']===false)
  170. mexit('L’opzione «excludeafter» specificata in «'.$inifp.'» non è in un formato corretto (usa «-h» per vedere la guida).'.N,1);
  171. } elseif ($key=='blacklists') {
  172. $opts['blacklists']=explode(',',$val);
  173. } elseif ($key=='whitelists') {
  174. $opts['whitelists']=explode(',',$val);
  175. } else {
  176. $opts[$key]=$val;
  177. }
  178. } else {
  179. echo('Attenzione: l’opzione «'.$key.'» in «'.$inifp.'» è sconosciuta e sarà ignorata.'.N);
  180. }
  181. }
  182. } else {
  183. mexit('Attenzione: non ho potuto leggere la configurazione dal file «'.$inifp.'».'.N,1);
  184. }
  185. }
  186. for ($i=1; $i<$argc; $i++) {
  187. if (substr($argv[$i],0,1)=='-') {
  188. switch($argv[$i]) {
  189. case '-i':
  190. case '--inifp':
  191. $i++;
  192. break;
  193. case '-e':
  194. case '--excludeafter':
  195. if ($i+1>=$argc)
  196. $i++;
  197. $opts['excludeafter']=tosec($argv[$i]);
  198. if ($opts['excludeafter']===false)
  199. mexit('Opzione «'.$argv[$i].'»: formato non corretto (usa «-h» per vedere la guida).'.N,1);
  200. break;
  201. case '-t':
  202. case '--timeout':
  203. if ($i+1>=$argc || preg_match('/^[0-9]+$/',$argv[$i+1])!==1)
  204. mexit('L’opzione «'.$argv[$i].'» richiede un parametro numerico intero (usa «-h» per vedere la guida).'.N,1);
  205. $i++;
  206. $opts['timeout']=$argv[$i];
  207. break;
  208. case '-b':
  209. case '--biglistfp':
  210. if ($i+1>=$argc || $argv[$i+1]=='')
  211. mexit('L’opzione «'.$argv[$i].'» richiede un parametro di tipo file (usa «-h» per vedere la guida).'.N,1);
  212. $i++;
  213. $opts['biglistfp']=$argv[$i];
  214. break;
  215. case '-p':
  216. case '--prodlistfp':
  217. if ($i+1>=$argc || $argv[$i+1]=='')
  218. mexit('L’opzione «'.$argv[$i].'» richiede un parametro di tipo file (usa «-h» per vedere la guida).'.N,1);
  219. $i++;
  220. $opts['prodlistfp']=$argv[$i];
  221. break;
  222. case '-s':
  223. case '--startinstancesfp':
  224. if ($i+1>=$argc || $argv[$i+1]=='')
  225. mexit('L’opzione «'.$argv[$i].'» richiede un parametro di tipo file (usa «-h» per vedere la guida).'.N,1);
  226. $i++;
  227. $opts['startinstancesfp']=$argv[$i];
  228. break;
  229. case '-B':
  230. case '--blacklistfp':
  231. if ($i+1>=$argc || $argv[$i+1]=='')
  232. mexit('L’opzione «'.$argv[$i].'» richiede un parametro di tipo file (usa «-h» per vedere la guida).'.N,1);
  233. $i++;
  234. $opts['blacklists'][]=$argv[$i];
  235. break;
  236. case '-w':
  237. case '--whitelistfp':
  238. if ($i+1>=$argc || $argv[$i+1]=='')
  239. mexit('L’opzione «'.$argv[$i].'» richiede un parametro di tipo file (usa «-h» per vedere la guida).'.N,1);
  240. $i++;
  241. $opts['whitelists'][]=$argv[$i];
  242. break;
  243. case '-l':
  244. case '--loadbiglist':
  245. if ($i+1>=$argc || ($argv[$i+1]!='si' && $argv[$i+1]!='no'))
  246. mexit('L’opzione «'.$argv[$i].'» richiede un parametro («si/no») (usa «-h» per vedere la guida).'.N,1);
  247. $i++;
  248. $opts['loadbiglist']=true;
  249. if ($argv[$i]=='no') $opts['loadbiglist']=false;
  250. break;
  251. case '-c':
  252. case '--onlinecheck':
  253. if ($i+1>=$argc || ($argv[$i+1]!='si' && $argv[$i+1]!='no'))
  254. mexit('L’opzione «'.$argv[$i].'» richiede un parametro («si/no») (usa «-h» per vedere la guida).'.N,1);
  255. $i++;
  256. $opts['onlinecheck']=true;
  257. if ($argv[$i]=='no') $opts['onlinecheck']=false;
  258. break;
  259. case '-h':
  260. case '--help':
  261. mexit($help,1);
  262. break;
  263. default:
  264. mexit('Opzione «'.$argv[$i].'» sconosciuta (usa «-h» per vedere la guida).'.N,1);
  265. break;
  266. }
  267. } else {
  268. mexit('Opzione «'.$argv[$i].'» sconosciuta (usa «-h» per vedere la guida).'.N,1);
  269. }
  270. }
  271. $buf=null;
  272. if (is_null($opts['startinstancesfp']))
  273. $buf.='- Non hai specificato il file delle istanze di partenza («-s/--startinstancesfp»)'.N;
  274. if (is_null($opts['biglistfp']))
  275. $buf.='- Non hai specificato il file da cui leggere e in cui salvare i dati di tutte le istanze testate («-b/--biglistfp»)'.N;
  276. if (is_null($opts['prodlistfp']))
  277. $buf.='- Non hai specificato il file da cui leggere e in cui salvare i dati di tutte le istanze testate che corrispondono ai criteri di selezione («-p/--prodlistfp»)'.N;
  278. if (!is_null($buf))
  279. mexit('ERRORI'.N.$buf.'Usa «-h/--help» per leggere la guida.'.N,1);
  280. if (!$opts['onlinecheck'])
  281. $opts['loadbiglist']=true;
  282. $biglist=array();
  283. $ibiglistc=0;
  284. if ($opts['loadbiglist']) {
  285. if (file_exists($opts['biglistfp']) && is_file($opts['biglistfp']) && is_readable($opts['biglistfp'])) {
  286. echo('Carico la listona pre-esistente («'.$opts['biglistfp'].'») ... ');
  287. $buf=@file_get_contents($opts['biglistfp']);
  288. if ($buf!==false) {
  289. echo('OK :-)'.N);
  290. $biglist=json_decode($buf,true);
  291. $ibiglistc=count($biglist);
  292. } else {
  293. echo('ERRORE :-('.N);
  294. }
  295. }
  296. }
  297. $blinstances=array();
  298. $wlinstances=array();
  299. function loadblacklist($bluri) {
  300. global $blinstances, $opts;
  301. $context=stream_context_create(array('http'=>array('timeout'=>$opts['timeout'])));
  302. $f=@fopen($bluri,'r',false,$context);
  303. if ($f!==false) {
  304. $i=0;
  305. while (!feof($f)) {
  306. $lin=fgets($f);
  307. //bsd.moe|2019-12-11 18:44:06.710862|1|https://mastodon.bida.im/@Ca_Gi/101270762003908554
  308. if (preg_match('/^([^#\|]{1}[^\|]+)\|{1}([^\|]+)\|{1}([012]{1})\|{1}(.*)$/',$lin,$buf)===1 && !in_array($buf[1],$blinstances) ) {
  309. $i++;
  310. $blinstances[]=$buf[1];
  311. }
  312. }
  313. fclose($f);
  314. echo('OK :-) (+'.$i.' istanze bloccate caricate; totale: '.count($blinstances).')'.N);
  315. } else {
  316. mexit('ERRORE :-('.N,1);
  317. }
  318. }
  319. $startinstances=array();
  320. echo('Carico il file delle istanze di partenza («'.$opts['startinstancesfp'].'») ... ');
  321. $buf=@file_get_contents($opts['startinstancesfp']);
  322. if ($buf!==false) {
  323. echo('OK :-)'.N);
  324. $buf=explode(N,$buf);
  325. foreach ($buf as $val) {
  326. if ($val!='' && $val[0]!='#') {
  327. $kv=explode('|',$val);
  328. if ($kv[1]=='') $kv[1]=null;
  329. $startinstances[$kv[0]]=$kv[1];
  330. }
  331. }
  332. } else {
  333. mexit(N.'Non ho potuto caricare il file delle istanze di partenza «'.$opts['startinstancesfp'].'», muoio.'.N,1);
  334. }
  335. if (count($startinstances)<1)
  336. mexit('Il file delle istanze di partenza «'.$opts['startinstancesfp'].'» non contiene alcuna voce, muoio.'.N,1);
  337. foreach ($startinstances as $dom=>$bluri) {
  338. if (!is_null($bluri)) {
  339. echo('Recupero la lista delle istanze bloccate da «'.$dom.'» («'.$bluri.'») ... ');
  340. loadblacklist($bluri);
  341. } else {
  342. echo('NON recupero la lista delle istanze bloccate da «'.$dom.'»: la uri della stessa non è definita.'.N);
  343. }
  344. }
  345. foreach ($opts['blacklists'] as $bluri) {
  346. echo('Carico la lista delle istanze bloccate dall\'URI «'.$bluri.'» ... ');
  347. loadblacklist($bluri);
  348. }
  349. sort($blinstances);
  350. echo(count($blinstances).' istanze bloccate.'.N);
  351. foreach ($opts['whitelists'] as $wluri) {
  352. echo('Carico la whitelist delle istanze dall\'URI «'.$wluri.'» ... ');
  353. $buf=@file_get_contents($wluri);
  354. if ($buf!==false) {
  355. echo('OK :-)'.N);
  356. $buf=explode(N,$buf);
  357. foreach ($buf as $val) {
  358. if ($val!='' && $val[0]!='#' && !in_array($val,$wlinstances))
  359. $wlinstances[]=$val;
  360. }
  361. } else {
  362. mexit(N.'Non ho potuto caricare la whitelist delle istanze «'.$wluri.'», muoio.'.N,1);
  363. }
  364. }
  365. sort($wlinstances);
  366. echo(count($wlinstances).' istanze whitelistate.'.N);
  367. if ($opts['onlinecheck']) {
  368. $context=stream_context_create(array('http'=>array('timeout'=>$opts['timeout'])));
  369. foreach ($startinstances as $dom=>$bluri) {
  370. if (!array_key_exists($dom,$biglist))
  371. $biglist[$dom]=null;
  372. echo('Recupero la lista delle istanze note a «'.$dom.'» ... ');
  373. $buf=@file_get_contents('https://'.$dom.'/api/v1/instance/peers',false,$context);
  374. if ($buf!==false) {
  375. echo('OK :-)'.N);
  376. $peers=json_decode($buf,true);
  377. foreach ($peers as $pdom) {
  378. if (!array_key_exists($pdom,$biglist)) {
  379. $biglist[$pdom]=null;
  380. }
  381. }
  382. } else {
  383. echo('ERRORE :-('.N);
  384. }
  385. }
  386. ksort($biglist);
  387. $diff=count($biglist)-$ibiglistc;
  388. if ($diff>=0) $diff='+'.$diff;
  389. echo('Totale istanze note: '.count($biglist).' ('.$diff.' rispetto all\'ultima volta).'.N);
  390. }
  391. $prodlist=array();
  392. $iprodlistc=0;
  393. $buf=@file_get_contents($opts['prodlistfp']);
  394. if ($buf!==false) {
  395. $prodlist=json_decode($buf,true);
  396. $iprodlistc=count($prodlist);
  397. }
  398. $newbiglist=array();
  399. $i=0;
  400. $biglistc=count($biglist);
  401. foreach ($biglist as $dom=>$oinfo) {
  402. $i++;
  403. echo('~~~~~~'.N);
  404. if ($opts['onlinecheck']) {
  405. echo('Recupero le informazioni su «'.$dom.'» ('.$i.'/'.$biglistc.' - '.round(100/$biglistc*$i).'%)'.N);
  406. echo('Recupero le informazioni Nodeinfo ... ');
  407. $ninfo=null;
  408. $buf=@file_get_contents('https://'.$dom.'/nodeinfo/2.0',false,$context);
  409. if ($buf!==false) {
  410. echo('OK :-)'.N);
  411. $ninfo=json_decode($buf,true);
  412. } else {
  413. echo('ERRORE :-('.N);
  414. }
  415. echo('Recupero le informazioni API sull\'attività dell\'istanza ... ');
  416. $activity=null;
  417. $buf=@file_get_contents('https://'.$dom.'/api/v1/instance/activity',false,$context);
  418. if ($buf!==false) {
  419. echo('OK :-)'.N);
  420. $activity=json_decode($buf,true);
  421. } else {
  422. echo('ERRORE :-('.N);
  423. }
  424. echo('Recupero le informazioni API sull\'istanza ... ');
  425. $info=null;
  426. $buf=@file_get_contents('https://'.$dom.'/api/v1/instance',false,$context);
  427. if ($buf!==false) {
  428. echo('OK :-)'.N);
  429. $info=json_decode($buf,true);
  430. if (!is_null($oinfo) && array_key_exists('X-Checks',$oinfo))
  431. $info['X-Checks']=$oinfo['X-Checks'];
  432. $info['X-Checks'][]=array('time'=>time(),'ok'=>true);
  433. if (!is_null($ninfo)) {
  434. if (array_key_exists('usage',$ninfo) && array_key_exists('users',$ninfo['usage'])) {
  435. if (array_key_exists('activeMonth',$ninfo['usage']['users']))
  436. $info['X-ActiveUsersPerMonth']=$ninfo['usage']['users']['activeMonth'];
  437. if (array_key_exists('activeHalfyear',$ninfo['usage']['users']))
  438. $info['X-ActiveUsersPerHalfYear']=$ninfo['usage']['users']['activeHalfyear'];
  439. }
  440. if (array_key_exists('software',$ninfo)) {
  441. if (array_key_exists('name',$ninfo['software']))
  442. $info['X-Software']=$ninfo['software']['name'];
  443. if (array_key_exists('version',$ninfo['software']))
  444. $info['X-Version']=$ninfo['software']['version'];
  445. }
  446. }
  447. if (!is_null($activity))
  448. $info['X-Activity']=$activity;
  449. $newbiglist[$dom]=$info;
  450. } else {
  451. echo('ERRORE :-( ... ');
  452. $lastokk=null;
  453. if (!is_null($oinfo) && array_key_exists('X-Checks',$oinfo)) {
  454. foreach ($oinfo['X-Checks'] as $key=>$val)
  455. if ($val['ok']) $lastokk=$key;
  456. }
  457. if (is_null($oinfo) || is_null($lastokk) || time()-$oinfo['X-Checks'][$lastokk]['time']<=$opts['excludeafter']) {
  458. echo('ma riproveremo...'.N);
  459. $oinfo['X-Checks'][]=array('time'=>time(),'ok'=>false);
  460. $newbiglist[$dom]=$oinfo;
  461. } else {
  462. echo('e non riproveremo...'.N);
  463. $oinfo=null;
  464. }
  465. $info=$oinfo;
  466. }
  467. } else {
  468. $info=$oinfo;
  469. }
  470. $whynot=array();
  471. if (array_key_exists('uri',$info)) {
  472. if (!in_array($dom,$wlinstances)) {
  473. if (in_array($dom,$blinstances))
  474. $whynot[]='Istanza blacklistata';
  475. if (array_key_exists('X-Software',$info) && !in_array($info['X-Software'],array('mastodon','corgidon')))
  476. $whynot[]='Il software non è Mastodon (ma '.$info['X-Software'].')';
  477. if (!array_key_exists('registrations',$info))
  478. $whynot[]='Stato delle registrazioni non disponibile';
  479. elseif ($info['registrations']==false)
  480. $whynot[]='Registrazioni chiuse';
  481. if (!array_key_exists('stats',$info)) {
  482. $whynot[]='Stats non disponibili';
  483. } else {
  484. if (!array_key_exists('user_count',$info['stats']))
  485. $whynot[]='Numero utenti non disponibile';
  486. elseif ($info['stats']['user_count']<10 || $info['stats']['user_count']>30000)
  487. $whynot[]='Numero utenti ('.$info['stats']['user_count'].') non compreso tra 10 e 30000';
  488. if (!array_key_exists('domain_count',$info['stats']))
  489. $whynot[]='Numero istanze conosciute non disponibile';
  490. elseif ($info['stats']['domain_count']<500)
  491. $whynot[]='Numero istanze conosciute minore di 500';
  492. /* if (!array_key_exists('status_count',$info['stats']))
  493. $whynot[]='Numero di toots non disponibile';
  494. elseif ($info['stats']['status_count']/$info['stats']['user_count']<10)
  495. $whynot[]='Media dei toots per utente minore di 10';*/
  496. }
  497. if (array_key_exists('X-ActiveUsersPerMonth',$info)) {
  498. if ($info['X-ActiveUsersPerMonth']<10)
  499. $whynot[]='Numero utenti attivi nell\'ultimo mese minore di 10';
  500. } elseif (array_key_exists('stats',$info) && array_key_exists('status_count',$info['stats']) && array_key_exists('user_count',$info['stats']) && $info['stats']['user_count']>0 && $info['stats']['status_count']/$info['stats']['user_count']<10) {
  501. $whynot[]='Media dei toots per utente minore di 10';
  502. }
  503. if (!array_key_exists('contact_account',$info) || is_null($info['contact_account'])) {
  504. $whynot[]='Informazioni sull\'account admin principale non disponibili';
  505. }/* else {
  506. if (!array_key_exists('created_at',$info['contact_account']))
  507. $whynot[]='Data di creazione dell\'account admin principale non disponibile';
  508. elseif (time()-strtotime($info['contact_account']['created_at'])<6*31*24*60*60)
  509. $whynot[]='L\'account admin principale risulta esser stato creato meno di 6 mesi fa';
  510. }*/
  511. } else {
  512. echo('«'.$dom.'» è whitelistata, la teniamo a prescindere.'.N);
  513. }
  514. } elseif (!array_key_exists($dom,$prodlist)) {
  515. $whynot[]='Info non disponibili, e l\'istanza non era già presente nella lista delle istanze occhei';
  516. }
  517. if (count($whynot)==0) {
  518. if (array_key_exists($dom,$prodlist)) {
  519. if (array_key_exists('short_description',$info) && (!array_key_exists('short_description',$prodlist[$dom]) || $prodlist[$dom]['short_description']!=$info['short_description'])) {
  520. $info['X-ShortDescriptionChanged']=true;
  521. $info['X-PrevShortDescription']=$prodlist[$dom]['short_description'];
  522. } else {
  523. $info['X-ShortDescriptionChanged']=false;
  524. }
  525. if (array_key_exists('description',$info) && (!array_key_exists('description',$prodlist[$dom]) || $prodlist[$dom]['description']!=$info['description'])) {
  526. $info['X-DescriptionChanged']=true;
  527. $info['X-PrevDescription']=$prodlist[$dom]['description'];
  528. } else {
  529. $info['X-DescriptionChanged']=false;
  530. }
  531. echo('«'.$dom.'» era nella lista delle istanze occhei ed è stata AGGIORNATA! :-)'.N);
  532. if (array_key_exists('X-Show',$prodlist[$dom]))
  533. $info['X-Show']=$prodlist[$dom]['X-Show'];
  534. else
  535. $info['X-Show']=-1;
  536. } else {
  537. $info['X-ShortDescriptionChanged']=false;
  538. $info['X-DescriptionChanged']=false;
  539. $info['X-Show']=-1;
  540. echo('«'.$dom.'» non era nella lista delle istanze occhei ed è stata AGGIUNTA! :-)'.N);
  541. }
  542. $prodlist[$dom]=$info;
  543. } else {
  544. if (array_key_exists($dom,$prodlist)) {
  545. unset($prodlist[$dom]);
  546. echo('«'.$dom.'» era nella lista delle istanze occhei ma è stata SCARTATA! :-('.N);
  547. } else {
  548. echo('«'.$dom.'» non era nella lista delle istanze occhei e NON CI È ENTRATA! :-('.N);
  549. }
  550. echo('Motivazioni: '.implode('; ',$whynot).'.'.N);
  551. }
  552. }
  553. echo('~~~~~~'.N);
  554. if ($opts['onlinecheck']) {
  555. $json=json_encode($newbiglist,JSON_PRETTY_PRINT);
  556. file_put_contents($opts['biglistfp'],$json);
  557. $newbiglistc=count($newbiglist);
  558. $diff=$newbiglistc-$ibiglistc;
  559. if ($diff>=0) $diff='+'.$diff;
  560. echo('Totale istanze nella listona: '.$newbiglistc.' ('.$diff.' rispetto all\'ultima volta)'.N);
  561. } else {
  562. echo('Totale istanze nella listona: '.count($biglist).N);
  563. }
  564. $json=json_encode($prodlist,JSON_PRETTY_PRINT);
  565. file_put_contents($opts['prodlistfp'],$json);
  566. $diff=count($prodlist)-$iprodlistc;
  567. if ($diff>=0) $diff='+'.$diff;
  568. echo('Totale istanze nella listina di quelle occhei: '.count($prodlist).' ('.$diff.' rispetto all\'ultima volta)'.N);
  569. ?>