it-swarm.dev

Kategorisasi atau pengindeksan otomatis artikel MediaWiki

Saya memiliki contoh MediaWiki dengan ribuan artikel di bidang ilmiah tertentu. Mereka berada di ruang datar tanpa kategorisasi. Saya ingin mengatur ini secara otomatis menggunakan teknik penambangan data dan pemrosesan bahasa. Secara teori, saya pikir mencari frasa tidak mungkin secara statistik di setiap dokumen akan memberikan titik awal yang baik.

Saat ini saya dapat melakukan sesuatu seperti itu melalui API MediaWiki - tarik dokumen, analisis, dan tulis kembali kategori atau tag secara otomatis.

Tetapi apakah ada cara lain untuk melakukan ini? Melihat-lihat di web menunjukkan bahwa ada banyak pekerjaan pada masalah semacam ini secara umum - tetapi tidak ada yang bekerja secara khusus dengan MediaWiki dalam solusi otomatis dan terintegrasi. Apakah ada hal seperti itu?

6
mattdm

Ini hanya solusi parsial, tetapi jika Anda menggunakan ekstensi Ganti Teks Anda secara global dapat menambahkan kategori berdasarkan teks tertentu. Tentu saja, teks kategorisasi kemudian akan muncul di mana pun frasa yang tidak mungkin secara statistik berada:

anda menemukan, " frasa yang tidak mungkin secara statistik "

anda menggantinya dengan: " frase + kategori yang tidak mungkin secara statistik "

2
Wikis