Automatic book machine
25Feb09
Okay guys. Even een update of the automatic book machine.
Net het dirty gedeelte afgerond. Dwz alle 8000+ pagina’s van www.decontrabas.com gedownload en alleen de relevante text eruit gehaald.
Dwz voor de leken. Ik download al die pagina’s en strip de html ervan af en ook de header/footer/e.d. smijten we weg want dat is maar puur noise. In principe zijn we natuurlijk geïnteresseerd in de woorden en zinnen die op die site voorkomen – niet in de html.
For de poetry-nerds onder jullie. Hierbij de code (op dit ogenblik nog steeds puur python). With thanks to the BeautifulSoup parser and some thoughts on extracting relevant text from HTML here and here.
We kunnen dus nu beginnen aan het semantische gedeelte. Wind door Nosferatus kop jagen
.
Filed under: Uncategorized | 1 Comment


en coming up next: How to save the world in 1week! en dan pakt ie de bijbelcorpus en download lekker alle virussen on the www en parse