Mining van wetenschapplijke text corpora

Tijdens de koffie kwam het onderwerp van het textmining en linguïstisch analyseren van wetenschappelijke teksten even voorbij, naar aanleiding van een lezing die AB tijdens de patentendag in Utrecht afgelopen donderdag bijgewoond had. De Nijmeegse onderzoeker had moeite met het vinden van voldoende grote bestanden om zijn tools op los te laten.

Het deed mij een bel rinkelen naar de verhalen van John Willbanks die ik tijdens de Ticer cursus afgelopen jaar had gehoord. Daar kwam ook naar voren dat copyrights in de meeste gevallen dit soort onderzoek ernstig hinderen.

Vandaag keek ik daarom op van een artikel op OA news over de onmogelijk om PubMedCentral niet ge-datamined kan worden. Zelfs een repository als PubMedCentral is dus geen OA is of staat dit soort activiteiten niet toe. Een ervaren OA advocaat als Dr. Peter Murray Rust ging hier in de fout met zijn veronderstellingen. Wie ben ik dan?

Ik blijf dit onderwerp van copyrights een mijnenveld vinden. Maar ik neem veilig aan dat Elsevier niet toestaat dat we ScienceDirect gaan minen, of harvesten om dat eventueel mogelijk te maken.

Ach verder was het slechts koffietafelpraat.

References
Willbanks, J. (2007). Cyberinfrastructure for Knowledge Sharing CTWatch Quarterly 3(3): 58-66. http://www.ctwatch.org/quarterly/articles/2007/08/cyberinfrastructure-for-knowledge-sharing/

Advertenties

Geef een reactie

Gelieve met een van deze methodes in te loggen om je reactie te plaatsen:

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit / Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit / Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit / Bijwerken )

Google+ photo

Je reageert onder je Google+ account. Log uit / Bijwerken )

Verbinden met %s

%d bloggers liken dit: