Paraules buides

Dins la informàtica, les paraules buides o mots buits són llistes de paraules que es filtren durant el processament del llenguatge natural.[1] No hi ha cap llista universal de paraules buides que s'utilitzi en totes les eines de processament de llenguatge natural, i de fet no totes les eines utilitzen una llista així. Fins i tot, algunes eines eviten eliminar les paraules buides per tal de permetre, per exemple, la cerca de frases.

Qualsevol grup de paraules pot ser candidat a paraules buides per a cert propòsit. Per a alguns motors de cerca, algunes de les més comunes són preposicions o articles com de, per, el, la o amb. Això pot causar problemes a l'hora de cercar frases que els incloguin, particularment noms propis, com per exemple Charles de Gaulle, o l'Edat de pedra. Altres motors de cerca treuen alguns de les paraules més comunes — incloent-hi paraules lèxiques, com «ser» — d'una cerca per tal de millorar el rendiment.[2]

Per la xarxa es poden trobar diverses llistes de paraules buides per al català[3][4]

Referències

  1. doi:10.1017/CBO9781139058452.002
  2. Stackoverflow: "One of our major performance optimizations for the "related questions" query is removing the top 10,000 most common English dictionary words (as determined by Google search) before submitting the query to the SQL Server 2008 full text engine.
  3. «StopWords Catalan».
  4. «Llista de mots buits del català».

Vegeu també