samba 5 years ago
parent
commit
c5cb2edc30
2 changed files with 30 additions and 1 deletions
  1. 8 1
      README.md
  2. 22 0
      get_rep_text.py

+ 8 - 1
README.md

@@ -1,3 +1,10 @@
 # gettext-repubblica
 
-Apre url degli articoli di repubblica prende solo il testo e te lo apre con firefox, cosi gli articoli sono liberi per tutte le persone
+* repubblica non fa piu' leggere gli articoli online
+* repubblica blocca lato web ma l'html fa leggere tutti gli articoli
+* c'e' un bug che blocca l'utente medio che non legge l'articolo e paga
+* ma c'e' anche un utente che apre i sorgenti e legge l'articolo
+
+questo script facilita il processo del secondo utente.
+
+Apre url degli articoli di repubblica prende solo il testo e te lo apre con firefox, cosi gli articoli sono liberi per tutte le persone

+ 22 - 0
get_rep_text.py

@@ -0,0 +1,22 @@
+#!/usr/bin/env python
+#from: https://paste.debian.net/hidden/55e325f5/
+import lxml.html
+import requests
+import re
+import sys
+import subprocess
+import tempfile
+
+def get_rep_text(url):
+    text_url = re.sub(r'/pwa/', '/ws/detail/', url)
+    page = requests.get(text_url)
+    root = lxml.html.fromstring(page.text)
+    print(page.text)
+    return ''.join(
+        div.text_content() for div in root.xpath('//div[@class="paywall"]'))
+
+if __name__ == '__main__':
+    with tempfile.NamedTemporaryFile(delete=False) as tmpf:
+        tmpf.write(get_rep_text(sys.argv[1]).encode('utf-8'))
+        subprocess.call(['firefox', tmpf.name])
+