Apache Tika est un toolkit développé par la fondation Apache qui permet de détecter, d'extraire des métadonnées, et de structurer le contenu textuel de nombreux types de documents (gzip, .mid, .pdf, tar, zip...).

Ce projet dépendant de l'Apache Software Foundation, était auparavant un sous-projet de Apache Lucene.

Usages notables

Tika est utilisé combiné à Solr par environ 400 journalistes pour analyser les 11,5 millions de documents divulgués lors des Panama Papers.

Références

Liens externes

  • (en) Site officiel
  • Portail des logiciels libres

Exploiting CVE20181335 Command Injection in Apache Tika

Apache Tika 1.26 releases, a content analysis toolkit

Search API a Apache Tika Drupart CZ

Exploiting CVE20181335 Command Injection in Apache Tika

Guide for Apache Tika APK for Android Download