Penambangan teks

Narrative Network of US Election 2012 - Nodes indicate noun phrases, links go from subject to object, color expresses relation of support or opposition. Appeared in: "Automated analysis of the US presidential elections using Big Data and network analysis; S Sudhahar, GA Veltri, N Cristianini; Big Data & Society 2 (1), 1-28, 2015"

Penambangan teks (bahasa Inggris: text mining) adalah proses ekstraksi pola berupa informasi dan pengetahuan yang berguna dari sejumlah besar sumber data teks, seperti dokumen Word, PDF, kutipan teks, dll. Jenis masukan untuk penambangan teks ini disebut data tak terstruktur dan merupakan pembeda utama dengan penambangan data yang menggunakan data terstruktur atau basis data sebagai masukan. Penambangan teks dapat dianggap sebagai proses dua tahap yang diawali dengan penerapan struktur terhadap sumber data teks dan dilanjutkan dengan ekstraksi informasi dan pengetahuan yang relevan dari data teks terstruktur ini dengan menggunakan teknik dan alat yang sama dengan penambangan data. Proses yang umum dilakukan oleh penambangan teks di antaranya adalah perangkuman otomatis, kategorisasi dokumen, penggugusan teks, deteksi plagiarisme, dll. (Turban, et.al., 2011)

Rujukan

  • Berry, M.W.; Kogan, J. (2010). Text Mining: Application and Theory. Chichester: John Wiley & Sons, Ltd. 
  • Feldman, R.; Sanger, J. (2007). The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. New York: Cambridge University Press. 
  • Turban, E.; et.al. (2011). Decision Support and Business Intelligence Systems (edisi ke-9). New Jersey: Pearson Education, Inc. 
  • l
  • b
  • s
Pengolahan bahasa alami
Istilah umum
  • AI-komplit
  • Bag-of-words
  • n-gram
    • Bigram
    • Trigram
  • Linguistik komputasi
  • Pemahaman bahasa alami
  • Stop words
  • Text processing
Analisis teks
  • Collocation extraction
  • Concept mining
  • Coreference resolution
  • Deep linguistic processing
  • Distant reading
  • Information extraction
  • Named-entity recognition
  • Ontology learning
  • Parsing
  • Part-of-speech tagging
  • Semantic role labeling
  • Semantic similarity
  • Sentiment analysis
  • Terminology extraction
  • Text mining
  • Textual entailment
  • Truecasing
  • Word-sense disambiguation
  • Word-sense induction
Segmentasi teks
  • Compound-term processing
  • Lemmatisation
  • Lexical analysis
  • Text chunking
  • Stemming
  • Sentence segmentation
  • Word segmentation
Peringkasan otomatis
  • Multi-document summarization
  • Sentence extraction
  • Text simplification
Mesin penerjemah
  • Computer-assisted
  • Berbasis contoh
  • Berbasis aturan
  • Statistik
  • Berbasis transfer
  • Neural
Model Semantik distribusi
  • BERT
  • Document-term matrix
  • Explicit semantic analysis
  • fastText
  • GloVe
  • Language model
  • Latent semantic analysis
  • Seq2seq
  • Word embedding
  • Word2vec
Sumber bahasa,
datasets and corpora
Jenis dan
standar
  • Linguistik korpus
  • Sumber daya leksikal
  • Data Terbuka Bertautan Linguistik
  • Kamus yang dapat dibaca mesin
  • Teks paralel
  • PropBank
  • Jaringan semantik
  • Sistem Organisasi Pengetahuan Sederhana
  • Korpus ucapan
  • Korpus teks
  • Thesaurus (information retrieval)
  • Treebank
  • Ketergantungan Universal
Data
  • BabelNet
  • Bank of English
  • DBpedia
  • FrameNet
  • Google Ngram Viewer
  • UBY
  • WordNet
Identifikasi otomatis
dan pengambilan data
Model topik
  • Document classification
  • Latent Dirichlet allocation
  • Pachinko allocation
Peninjauan
dengan bantuan komputer
  • Automated essay scoring
  • Concordancer
  • Grammar checker
  • Predictive text
  • Penilaian pengucapan
  • Pemeriksa ejaan
  • Sintaks menebak
Bahasa alami
antarmuka pengguna
Related
  • Hallucination
  • Perangkat Bahasa Alami
  • spaCy


Ikon rintisan

Artikel bertopik teknologi informasi ini adalah sebuah rintisan. Anda dapat membantu Wikipedia dengan mengembangkannya.

  • l
  • b
  • s