Bibliographie complète
How to Extract Good Knowledge from Bad Data: An Experiment with Eighteenth Century French Texts
Type de ressource
Article de revue
Auteur/contributeur
- Laramée, François Dominic (Auteur)
Titre
How to Extract Good Knowledge from Bad Data: An Experiment with Eighteenth Century French Texts
Résumé
From a digital historian’s point of view, Ancien Régime French texts suffer from obsolete grammar, unreliable spelling, and poor optical character recognition, which makes these texts ill-suited to digital analysis. This paper summarizes methodological experiments that have allowed the author to extract useful quantitative data from such unlikely source material. A discussion of the general characteristics of hand-keyed and OCR’ed historical corpora shows that they differ in scale of difficulty rather than in nature. Behavioural traits that make text mining certain eighteenth century corpora particularly challenging, such as error clustering, a relatively high cost of acquisition relative to salience, outlier hiding, and unpredictable patterns of error repetition, are then explained. The paper then outlines a method that circumvents these challenges. This method relies on heuristic formulation of research questions during an initial phase of open-ended data exploration; selective correction of spelling and OCR errors, through application of Levenshtein’s algorithm, that focuses on a small set of keywords derived from the heuristic project design; and careful exploitation of the keywords and the corrected corpus, either as raw data for algorithms, as entry points from which to construct valuable data manually, or as focal points directing the scholar’s attention to a small subset of texts to read. Each step of the method is illustrated by examples drawn from the author’s research on the hand-keyed Encyclopédie and Bibliothèque Bleue and on collections of periodicals obtained through optical character recognition.Du point de vue d’un historien numérique, les textes français d’Ancien Régime souffrent d’une grammaire obsolète, d’une orthographe irrégulière et d’une reconnaissance optique des caractères de faible qualité. Cet article résume les expériences méthodologiques qui ont permis à l’auteur d’extraire des mesures quantitatives utiles de ces improbables matières premières. Une discussion des caractéristiques générales des corpus de textes historiques transcrits à la main et des corpus produits par reconnaissance optique révèle qu’ils diffèrent en degré de difficulté mais non en nature. Les comportements qui rendent certains de ces corpus particulièrement difficiles à traiter numériquement, dont la distribution non aléatoire des erreurs, un coût unitaire d’acquisition relativement élevé, la dissimulation des documents atypiques et l’imprévisibilité des erreurs répétées, sont ensuite expliqués. L’article trace ensuite les grandes lignes d’une méthode qui contourne ces problèmes. Cette méthode repose sur la sélection heuristique de questions de recherche pendant une phase d’exploration ouverte des données; la correction sélective des erreurs à l’aide de l’application de l’algorithme de Levenshtein à un petit nombre de mots-clés choisis pendant la phase d’exploration; et l’exploitation des mots-clés et du corpus corrigé soit en tant que données brutes, soit comme points d’entrée permettant l’extraction manuelle de données probantes, soit comme boussoles permettant d’orienter l’attention du chercheur vers un sous-ensemble de documents pertinents à lire. Des exemples tirés de la recherche de l’auteur, qui porte à la fois sur des corpus océrisés de périodiques et sur les corpus reconstitués manuellement de l’Encyclopédie et de la Bibliothèque bleue, illustrent chacune des étapes. Mots-clés: fouille de texte; fouille de données; textométrie; production de l’espace; histoire numérique; correction d’erreurs
Publication
Digital Studies / Le champ numérique
Volume
9
Numéro
1
Date
2019-01-30
Langue
Anglais
ISSN
1918-3666
Titre abrégé
How to Extract Good Knowledge from Bad Data
Consulté le
29/04/2024 15:46
Catalogue de bibl.
Extra
Number: 1
Publisher: Open Library of Humanities
Référence
Laramée, François Dominic. « How to Extract Good Knowledge from Bad Data: An Experiment with Eighteenth Century French Texts ». Digital Studies / Le champ numérique 9, no 1 (30 janvier 2019). https://doi.org/10.16995/dscn.299.
Années
Chargé.e.s de cours
Lien vers cette notice