Automatic book machine

25Feb09

howtowriteabook21

Okay guys. Even een update of the automatic book machine.

Net het dirty gedeelte afgerond. Dwz alle 8000+ pagina’s van www.decontrabas.com gedownload en alleen de relevante text eruit gehaald.

Dwz voor de leken. Ik download al die pagina’s en strip de html ervan af en ook de header/footer/e.d. smijten we weg want dat is maar puur noise. In principe zijn we natuurlijk geïnteresseerd in de woorden en zinnen die op die site voorkomen – niet in de html.

For de poetry-nerds onder jullie. Hierbij de code (op dit ogenblik nog steeds puur python). With thanks to the BeautifulSoup parser and some thoughts on extracting relevant text from HTML here and here.

We kunnen dus nu beginnen aan het semantische gedeelte. Wind door Nosferatus kop jagen🙂.



One Response to “Automatic book machine”

  1. en coming up next: How to save the world in 1week! en dan pakt ie de bijbelcorpus en download lekker alle virussen on the www en parse🙂


Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit / Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit / Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit / Bijwerken )

Google+ photo

Je reageert onder je Google+ account. Log uit / Bijwerken )

Verbinden met %s


%d bloggers op de volgende wijze: