Man met computer zoekt in verschillende documenten
Verhaal

Een overzicht van Azure Cognitive Search

  • 5 maart 2021
  • 10 min

Deze blog helpt je te begrijpen wat Azure Cognitive Search is, de onderliggende technologie, welke unieke mogelijkheden het biedt en hoe je geweldige apps kunt gaan bouwen voor het web, mobiel of branche. Dit artikel belicht ook zeer specifieke mogelijkheden voor het opnemen, verrijken, indexeren en visualiseren van de gegevens.

Azure Cognitive Search is een Platform as a Service waarmee je, zelfs als je geen zoekexpert bent, geweldige, voor zoekopdrachten geschikte toepassingen voor het web, voor mobiele apparaten of misschien wel voor je branche of bedrijf kunt maken. Azure Search heeft alle voorzieningen die je vandaag de dag van een zoektoepassing mag verwachten. Mensen zijn gewend geraakt aan al dit soort mogelijkheden wanneer ze een restaurant opzoeken, een baan zoeken of iets willen kopen. Zoekvakken vind je in elke toepassing die je dagelijks gebruikt, en klanten verwachten ook in jouw toepassing te kunnen zoeken. Ze willen krachtige zoekmogelijkheden. En daarbij gaat het om meer dan alleen het teken voor teken opzoeken van een bepaald woord in alle documenten die je in een database hebt staan. Klanten verwachten echt meer dan dat.

Stel dat je een vacaturewebsite aan het bouwen bent en dat je daar een zoekfunctie aan toevoegt, dan verwachten mensen dat hun zoekopdracht, ook als ze daarin een fout maken, nog steeds resultaten oplevert. Als ze bijvoorbeeld een woord verkeerd hebben gespeld, willen ze nog steeds de relevante inhoud kunnen vinden. En terwijl ze een woord typen, verwachten ze dat hun invoer bijvoorbeeld automatisch wordt aangevuld en dat ook synoniemen en suggesties in hun zoekopdracht worden meegenomen. Mensen willen bovendien portfoliofacetten, een aantal filters en allerlei andere mogelijkheden waarmee ze wat dieper kunnen inzoomen op de dingen die voor hen belangrijk zijn, zodat ze – in dit geval – uitkomen bij de baan die ze echt leuk vinden. Daarnaast zou je nog heel veel andere mogelijkheden kunnen toevoegen, zoals georuimtelijke query's, markeringen, fragmenten, paginering en verschillende rangschikkingsalgoritmen. Het mooie van Azure Cognitive Search is dat je, zelfs als je geen zoekexpert bent, al deze mogelijkheden als een PaaS-aanbod tot je beschikking hebt.

Alle informatie

Als je dit alles zo bekijkt, ziet het eruit alsof het gegevens zijn die uit een database komen. Maar wat als je geen overzichtelijk gestructureerde gegevens hebt? Kun je daar iets aan doen? In dit specifieke voorbeeld maak je verbinding met, laten we zeggen, een SQL-database of misschien een Cosmos DB-database waar al deze informatie in staat. In veel gevallen zijn je gegevens echter niet gestructureerd – echt absoluut niet gestructureerd. Gelukkig is een van de nieuwe mogelijkheden van Azure Cognitive Search dat het verbinding kan maken met verschillende soorten gegevensbronnen – gestructureerd of ongestructureerd – en dat het de inhoud van die gegevensbronnen begrijpt.

Laten we bijvoorbeeld zeggen dat ik een opslag 'Blob' met documenten heb, waarvan de inhoud compleet ongestructureerd is. Ik zet er in feite gewoon allerlei soorten documenten in, zoals PDF's, PowerPoint-bestanden, Word-documenten, Excel-werkbladen, echt allerlei verschillende bestandsindelingen, en ik wil tekst in die documenten kunnen vinden. Met Azure Cognitive Search kunnen we dit doen via wat ik 'indexsets' zou noemen. Deze indexsets zijn in feite de pijplijn die in de afbeelding hieronder wordt weergegeven. De documenten worden 'gekraakt' met voorzieningen die, omdat ze de verschillende bestandsindelingen begrijpen, weten hoe ze de inhoud – de tekst, afbeeldingen en metadata – uit die bestanden moeten halen of 'extraheren'. Vervolgens kunnen ze deze informatie verrijken met behulp van wat we 'vaardigheden' noemen.

Naast de geïntegreerde vaardigheden die als Azure Cognitive Services worden aangeboden, worden ook aangepaste vaardigheden – in feite AI-/machine-learningalgoritmen – ondersteund die je zelf kunt ontwikkelen en op je pijplijn kunt toepassen.

Documenten kraken

Zo kan er gestructureerde inhoud worden opgeslagen in een zoekindex. De taak van de indexeerfunctie is in feite om documenten te kraken, waarna we al die intelligente vaardigheden op dat document loslaten.

Wat houdt het 'kraken' van een document dan precies in? Het is als het kraken van een noot: je wilt de vrucht uit de noot halen. Je wilt de materie eten die zich binnen de schaal van de noot bevindt. Al die documenten, zoals PDF-documenten of Word-documenten, en zelfs JSON- of HTML-documenten, bevatten tekst. Je wilt de tekst uit die documenten extraheren. Sommige van die documenten bevatten ook afbeeldingen. Het kan dus zijn dat je bijvoorbeeld de afbeeldingen uit een PowerPoint-presentatie wilt extraheren. Bovendien wil je die stukjes informatie verder verwerken. Dat is waar het volgende stadium of de volgende vaardigheid voor is bedoeld. Misschien wil je met een tekstherkenningsvoorziening de handgeschreven of gedrukte tekst ophalen uit de afbeeldingen die je uit het document hebt geëxtraheerd. De indexeerfunctie is te vergelijken met een hamer: de noot wordt gekraakt, er wordt een reeks intelligente functies op losgelaten en vervolgens worden de relevante dingen in de index gezet. De index kan dan worden doorzocht om inhoud in de documenten te vinden. Het maakt in dit geval niet uit of je Engels of Spaans gebruikt: de inhoud wordt nog steeds gevonden.

Dit is slechts een korte inleiding tot Azure Cognitive Search. In latere artikelen zullen we ook nog op andere onderwerpen dieper ingaan.

Er is ook een podcast beschikbaar waar Liam Cavanagh, Principal Program Manager – Azure Search bij Microsoft, John Koot, Director Alliances bij OrangeNXT en Mane Lambeens, Lead Data Scientist en Product Owner – digitalNXT Search bij OrangeNXT zal doorlopen WAAROM Microsoft dit domein betreedt van Zoeken. Ze zullen geleerde lessen en aankomend spannend nieuws delen. Luister hier naar onze podcast:

OrangeNXT · Podcast: An overview on Azure Cognitive Search with Microsoft and OrangeNXT

Gerelateerde producten

Vragen over Azure Cognitive Search?

Let's have a chat!

Stuur een mail Maak een connectie
John Koot - Sales and Marketing Director - OrangeNXT